
- AIボットの主流は訓練用からRAG用へ移行し、検出困難なケースも増加している。
- robots.txtの効果は限定的で、収益に直結しないアクセスと参照流入の乖離が顕著。
- 一括契約以外にも、RAG利用への課金など収益化の新たな仕組みが模索されている。
リアルタイム性の高い情報を求め、パブリッシャーサイトからデータを自動収集するAIボットの活動、スクレイピングが、今や大規模言語モデル(LLM)の訓練に用いるボットのスクレイピングを上回り、検出もより困難になっている。
これは、パブリッシャーとAI企業を結ぶプラットフォームであるトールビット(Tollbit)が発表した最新報告書によるものだ。2024年第4四半期から2025年第1四半期にかけ、RAG(検索拡張生成)用ボットによるスクレイピングは、サイトあたりで49%増加した。同期間におけるLLM訓練用ボットのスクレイピング増加率(18%増)の約2.5倍にあたる。
パブリッシャーのコンテンツを収集するボットの増加は、パブリッシャー側の事業にとって脅威となる。しかし、AI訓練用のスクレイピングと、リアルタイム応答目的のスクレイピングとでは、パブリッシャーの直面する問題点といくらかの機会が異なる。そして、それらはまだ完全に理解されているわけではない。
AIおよびメディアコンサルタントのジョシュ・ジャフィ氏は、「LLM訓練用のスクレイピングとは、AIモデルに一般的な知識を与えるための、一度きりのプロセスだ」と語る。同氏は以前、パブリッシャーのインジェニオ(Ingenio)でメディア部門のトップを務めた人物だ。
一方で、RAG用スクレイピングは継続的であり、AIチャットボットや検索エンジンにおいてユーザーの質問に対する応答を常に支え続ける必要があると、ジャフィ氏は指摘する。
「自社コンテンツを一度きりで販売するのと、継続的な情報配信の一部になることの違いだ。一方は有限だが、もう一方はパブリッシャーが上手に活用するならば、福利的に価値が増す可能性がある」と同氏は語る。
ここで、いくつかの誤解を挙げてみよう。
誤解1.AIボットによるスクレイピングに違いはない
AIボットには主に、RAG用AIボットと訓練用AIボットの2種類がある。
RAG用AIボットあるいはエージェントは、事実に基づく最新情報をリアルタイムで取得する。パープレキシティ(Perplexity)やChatGPTなどのAIサービスでは、Webを検索することでユーザーのプロンプトに応答する。その際、パブリッシャーのサイトなど、情報源のリンクや出典が示される。
RAGはコンテンツを訓練データに保存せず、内容を要約して提示するため、パブリッシャーにとってトラフィックと収益機会への脅威は、より直接的であり、規制も難しい。
フィナンシャルタイムズ(Financial Times)が6月に、メディアリテラシーに関する英貴族院の通信・デジタル特別委員会に提出した報告書には、次のような記述がある。
「RAGがAI開発企業に高い商業的価値をもたらす一方で、その大半は情報源であるパブリッシャーに対し、いかなる形の報酬、ライセンス契約、トラフィック誘導もなく、要約した複製物を作るのに必要な素材を入手している。これは多くのパブリッシャーの利用規約に違反し、公正さを欠くばかりか持続可能でもない」。
また同報告書は、パブリッシャーがこうした流れを止める術は、ほとんどないとも指摘している。
一方、訓練データ用ボットは、メタ(Meta)のラマ(Llama)やOpenAIのGPTといったLLMに供給するデータを求めて、Webをクロールする。この膨大なデータセットがモデルの訓練に用いられ、LLMがどのように応答を生成するか、すなわち「話し方」を学習する。
LLMが「話し方」を習得し、より賢くなれば、訓練用ボットがパブリッシャーサイトにアクセスする頻度は低下する。対照的に、RAGボットは最新情報を取得する必要があるため、継続的にパブリッシャーのサイトをクロールし続ける必要があり、これが活動頻度の高さにつながっている。
AI開発企業のなかには、こうしたボットを区別できるよう、自主的な定義づけを行う動きもある。たとえばOpenAIは、リアルタイム情報用のRAGボットを「ChatGPT-User」、LLM訓練用ボットを「GPTBot」と名付けている。
しかし、すべてのAI開発企業がこうした情報を公開しているわけではない。
[▼会員登録をして続きを読む▼]
The post 情報は奪われるが、利益にはならない AI スクレイピングの誤解と実態 appeared first on DIGIDAY[日本版].
Source: New feed
