クレイジーで、人間の脳の字幕のような狂気でさえありません。触手が濡れている" からストレンジャーシングスから安全ですパイルスロップがあります。新しいからの報告大西洋 脚本家は自分の勤勉さと独自のコンテンツが仕事をしようとしているものを訓練するために使用されていることを心配していると断言します。それはただ使用しています字幕それは彼らが彼らの人間の心や人間の脳で書いた言語を捉えていますが、脚本自体ではありません。見る?もっと良い!
アウトレットによると、Apple、Anthropic、Meta、Nvidia、Salesforce、Bloombergなどが使用する大規模なAIトレーニングデータセットで、約53,000の映画と85,000のテレビエピソードの字幕が見つかりました。これらのタイトルの中には、1950年から2016年までのベストピクチャーにノミネートされたすべての映画があり、少なくとも616のエピソードがあります。シンプソンズ、170のエピソードサインフェルド、45のエピソードツインピーク、およびのすべてのエピソードワイヤー、ソプラノ、 そしてブレイキングバッド。セットにはからのデータも含まれています本、YouTubeのビデオキャプション、さらにはさまざまな賞ショーから事前に作られた対話をキャプチャする字幕もあります。
お気に入りの映画やショーがセットに含まれているかどうかを確認したいですか?大西洋レポートには検索ツールが含まれています。 (おそらくそうです。)
このデータはすべて、Googleの翻訳やその他の翻訳ツールを支援するための高貴な目的で始まったOpenSubTitles.orgというサイトから来ていますが、常に少し大ざっぱな著作権であるようです。少なくとも誰かがこの開発に満足しています。データセットの作成者の1人であるJörgTiedemannは伝えられるところによると大西洋彼は、それが彼の当初の意図ではなかったにもかかわらず、作家の部屋の大変な仕事をさらに侵食するために使用されているOpenSubTitlesが使用されていることで、彼が完全にうまくいったことです。
では、実際の脚本の代わりに字幕を使用するのはなぜですか?アウトレットによると、字幕は「書かれた対話の生の形態であるため、価値があります」。 「よく書かれたスピーチは、AIトレーニングデータの世界ではまれな商品であり、チャットボットをトレーニングするために自然に「話す」ために特に価値があるかもしれません」とレポートは続けています。これらはすべて、このテクノロジーが独自の声を使用するために他人の「よく書かれたスピーチ」を盗む必要がある場合、それが本当に話す必要がある場合、質問を請います。