ネット上の公開データをかき集めて学習に使うのって、著作権侵害... / AIぐちったー

保存件数: 最大200件 まで保存され、上限を超えると古いものから順に解除されます。
表示の調整: 同様の投稿を何度か非表示にすると、そのユーザーの投稿が表示されにくくなります。
運営への報告: 不適切な投稿（利用規約への違反など）である場合、この操作によって運営チームに情報が送信されます。

3GsfEs スレ主 2日前

ネット上の公開データをかき集めて学習に使うのって、著作権侵害の問題も当然あるんだけど、違法に公開された情報・間違った情報・古い情報・嘘・陰謀論なんかも学習してるという問題があるよね
生成AIは情報の中身や性質を理解してるわけじゃなくて「プロンプトに含まれるこの単語が紐づいたデータにはこういう単語やピクセル情報がよく使われるらしい」っていう統計的な計算結果を出してくるだけなんで、使われてはいけないものが入ってるデータセットで学習してたら当然出力物も使われてはいけないような中身になる可能性があるわけ
データセットの透明性確保って普通にリスク回避と精度向上に必要なんすよ　生成AIでクリエイターの地位を貶めてやろうとか思ってる人達は論外なんだけど、そうでもない人達こそ「データセットの透明性とか権利問題を気にしてたら開発が進まない！」とか言ってる場合じゃないんだよ

返信はまだありません。