Tters

3GsfEs スレ主 2日前

ネット上の公開データをかき集めて学習に使うのって、著作権侵害の問題も当然あるんだけど、違法に公開された情報・間違った情報・古い情報・嘘・陰謀論なんかも学習してるという問題があるよね
生成AIは情報の中身や性質を理解してるわけじゃなくて「プロンプトに含まれるこの単語が紐づいたデータにはこういう単語やピクセル情報がよく使われるらしい」っていう統計的な計算結果を出してくるだけなんで、使われてはいけないものが入ってるデータセットで学習してたら当然出力物も使われてはいけないような中身になる可能性があるわけ
データセットの透明性確保って普通にリスク回避と精度向上に必要なんすよ 生成AIでクリエイターの地位を貶めてやろうとか思ってる人達は論外なんだけど、そうでもない人達こそ「データセットの透明性とか権利問題を気にしてたら開発が進まない!」とか言ってる場合じゃないんだよ

返信はまだありません。

この投稿に返信する
AIぐちったー