dairy

AI によるコンテンツ収集を止める効果的な手段はない? 懐疑の目を向けるメディアたち

ブルームバーグ(Bloomberg)、ニューヨーク・タイムズ(The New York Times)を含む多くのパブリッシャーがオープンAI(OpenAI)のウェブクローラーによる自社サイトへのアクセスをいち早くブロックし、コンテンツが収集され、大規模言語モデル(LLM)に利用されるのを阻止した。しかし、5人のパブリッシャー幹部によれば、この戦術が有効かどうかは議論の余地がありそうだ。

あるメディア企業のテクノロジー担当上級幹部は匿名を条件に取材に応じ、「これは象徴的な意思表示だ」と語った。

多様なコンテンツ配信が裏目に

オープンAIは8月、パブリッシャーはウェブクローラーGPTBotによるウェブコンテンツへのアクセスをブロックできるようになったと発表した。オリジナリティーAI(Originality.ai)によれば、以来、最もアクセス数の多い100サイトのうち26サイト(上位1000サイトのうち242サイト)がウェブコンテンツへのアクセスをブロックしたという。

しかし、パブリッシャーのコンテンツ配信モデルがこうした保護戦略を無意味なものにしているかもしれない。あるパブリッシャー幹部はDIGIDAYの取材に対し、合わせて8つのシンジケーションアプリ、ウェブサイトでコンテンツを配信していると述べている。コンテンツはすでに発見しやすくなっているため、オープンAIのウェブクローラーをブロックするという保護策は無駄な努力だったように感じられるとパブリッシャー幹部は口をそろえる。

前述のパブリッシャー幹部は、米国フロリダ州キービスケーンで9月に開催されたDIGIDAYパブリッシングサミットの非公開セッションで、「私は無駄な努力だったと思う。コンテンツがウェブクローラーに取り込まれ、学習に使われることは不可避だ」と語った。

パブリッシャーは、オープンAIのチャットボットChatGPTのようなジェネレーティブAIツールがLLMを訓練するため、ペイウォールを迂回(うかい)し、コンテンツを収集することを防ぐのに苦労してきた。オープンAIのウェブクローラーはブロックできるようになったものの、一部のパブリッシャー幹部は、それが自社のIPを守るのに十分だとは確信していない。

ガーディアン・メディア・グループ(Guardian Media Group)のパブリックポリシー担当ディレクター、マット・ロジャーソン氏は、「これは長期的な問題であり、短期的な解決策は存在しない」と話す。「これは、パブリッシャーがもう少しコントロールを取り戻し、さまざまな目的でコンテンツを収集する他の人々に対し、より多くのコントロールを求め始める兆候だ」。

Googleとマイクロソフトは耳を傾けている

オープンAIは、AIツールやシステムのLLMを訓練するためにウェブクローラーを使っているテクノロジー企業のひとつにすぎない。Googleやマイクロソフト(Microsoft)のウェブクローラーは、パブリッシャーのコンテンツをインデックス化し、Google検索やBingの検索結果に表示するのに不可欠なものだ。しかし、これらのウェブクローラーは、自社のLLMやAIチャットボットを訓練するためのコンテンツも収集している。ガーディアンのロジャーソン氏はこれらを「バンドル・スクレーパー」と呼ぶ。

前述のテクノロジー担当幹部は、「彼らはすべてを1つの大きな検索製品として取り扱っている」と話す。「彼らは『粒度の選択はできないが、オプトアウトの機会は与える』という感じだが、当然ながら、我々はすべてのウェブクローラーをオプトアウトしたいわけではない」。

The post AI によるコンテンツ収集を止める効果的な手段はない? 懐疑の目を向けるメディアたち appeared first on DIGIDAY[日本版].

Source: New feed

ABOUT ME
wpmaster
wpmaster
英語大好き人間のenglisheaterです。このブログではこのような英語に関する情報提供をしていきたいと思います。よろしくお願いします。