パブリッシャー向けの AI ツール開発、オープンソースLLMか？企業開発のLLMか？

記事のポイント

パブリッシャーは、オープンソースの大規模言語モデル（LLM）を使うべきか、民間企業開発のLLMを使うべきかの選択肢があり、それぞれ利点・欠点が考えられる。

オープンソースは初期コストやデータの透明性についてメリットがあるが、自社開発には専門性のあるデータサイエンティストやエンジニアが必要となってくる。

一方で民間企業に開発を委託する場合は、自社の貴重なリソースを割かないで済む。しかし、問題は共有するデータの主導権をどこに置くかということだ。

パブリッシャーがニュースルームで使うジェネレーティブAIツールを開発する際、その基盤となる大規模言語モデル（LLM）には基本的に、オープンソースを使うか、民間企業開発のLLMを使うかという2つの選択肢がある。

オープンAI（OpenAI）のChatGPTやGoogleのバード（Bard）のようなチャットボットは、非公開のプロプライエタリLLMを使用して構築されている。LLMとは大量のデキストデータを学習し、文章生成を行うシステムのことだ。

オープンソースとは、インターネット上で誰でも自由に使用したり改変したりできるコンピュータコードをいう。オープンソースのLLMを活用すれば、パブリッシャーはコードをダウンロードし、独自のデータを使って特定タスク向けに基盤モデルをファインチューニングすることも、当初の学習に使用されたデータを確認して、潜在的な制限や偏りを調べることもできるのだ。

オープンソースのLLMが最適か？

7月、メタ（Meta）は自社開発の大規模言語モデル「Llama 2（ラマツー）」のコードを公開した。これにより、パブリッシャーを含むユーザーは、Llama 2モデルを無料で使用し、独自にカスタマイズしたチャットボットの開発などができるようになった。

「オープンソースはイノベーションを促進する。多くの開発者が新しい技術を用いてさまざまな開発を行うことができるからだ」と、メタのザッカーバーグ最高経営責任者（CEO）はFacebookに投稿している。「ソフトウェアがオープンであれば、それは安全やセキュリティの改善にも貢献する。より多くの人がそれを精査し、潜在的な問題を特定したり、修正したりできるからだ」。

ただし、無料で利用できるにもかかわらず、自社のニュースルームで使うジェネレーティブAIツールの開発にあたり、すべてのパブリッシャーがオープンソースのLLMを最適なモデルと判断するわけではない。本記事では、オープンソースLLMの活用をめぐる賛否両論を紹介する。

オープンソースLLMの活用を支持する意見

Llama 2のようなオープンソースモデルは無料で利用できる。対照的に、GPTやバードのような非公開のプロプライエタリLLMは従量制で課金される。

AIを活用してリアルタイム情報を収集するアプライドXL（AppliedXL）の共同設立者で、コンピュータジャーナリストのフランチェスコ・マルコーニ氏は、「オープンソースモデルなら、プライベートモデルの使用にかかる初期費用を回避しつつ、ジェネレーティブAIを活用したツールやプロダクトの開発を試みることができる」と説明する。

アプライドXLはジャーナリスト向けの言語モデル「AXL-1」をオープンソースで構築する道を選択したが、マルコーニ氏はその理由として、「初期コストがかからないこと」「オープンソースモデルならではの透明性」「リアルタイムデータとの接続性」を挙げた。具体的には、Amazonのクラウドサービスが提供するAWSで、Llama 2や「ファルコン（Falcon）」などのオープンソースモデルをファインチューニングした。

アプライドXLはこのモデルを活用して、米紙ボストングローブ（Boston Globe）が運営する健康、医療、科学に特化したニュースサイト「STAT（スタット）」と共同で、臨床試験のリアルタイムデータを分析、特定、要約するツールを開発した。このツールはデータを篩（ふるい）に掛けて選別し、ジャーナリストが設定したパラメータに基づいて、注目に値する臨床試験の最新情報を特定し、そのネタを記事化するという。

マルコーニ氏はオープンイノベーションのメリットについて、「多くの人々が協力して、モデルの改善に取り組むため、より深い精査を促し、偏りや透明性などの潜在的な問題に対処できる」と説明している。［続きを読む］

The post パブリッシャー向けの AI ツール開発、オープンソースLLMか？企業開発のLLMか？ appeared first on DIGIDAY［日本版］.

Source: New feed

パブリッシャー向けの AI ツール開発、オープンソースLLMか？企業開発のLLMか？

オープンソースのLLMが最適か？

オープンソースLLMの活用を支持する意見

X が広告主に必死で送るラブコール。その5つの内容を読み解く

求職者が「企業に求める」条件、コロナ禍の影響で変化：「チェック項目が大幅に増えた」

D2C 企業の決算発表は、新たなビジネスの「現実」を示す：「利益を圧迫している」

Googleのバッテリー式ドアベル「Google Nest Doorbell」フォトレビュー＆セットアップ、配電不要なインターホンは一体どんな風に取り付けられるのか？

WPP とエピックの提携は、メタバースの成熟を早めるか？：「ブロックチェーン／Web3の要素も絡んでいる」

「新たな世界観を創るには、クリエイティブが必要不可欠」：Deloitte Digital 熊見成浩 / 八代圭 / 余若帆 / 二澤平治仁

暗号化メッセンジャー「Signal」のCEOが「警察御用達のiPhone解析ツール」をハッキングしたと報告

ポルノコンテンツ断ちをすると身体にどんな異変が起こるのか？

ASUSのゲーミングヘッドセット「ROG STRIX GO BT」レビュー、ゲーミングを超える音質と使いやすさ＆フル充電で最大45時間使用可能

青森のりんごや福島のももなど東北6県の果実が大集合した「小岩井純水東北ミックス」を飲んでみた

WordPress公式プラグイン「Jetpack Social」でTwitterへの自動投稿が不可能に、API使用条件で折り合いつかず

米国最新メディアトレンド、「ショッパブル動画」の台頭：要点まとめ

TikTok の最新トレンド、「 #ArtTok 」とは何か？：ビューティインフルエンサーの急先鋒

オープンソースのLLMが最適か？

オープンソースLLMの活用を支持する意見

X が広告主に必死で送るラブコール。その5つの内容を読み解く

求職者が「企業に求める」条件、コロナ禍の影響で変化：「チェック項目が大幅に増えた」

D2C 企業の決算発表は、新たなビジネスの「現実」を示す：「利益を圧迫している」

Googleのバッテリー式ドアベル「Google Nest Doorbell」フォトレビュー＆セットアップ、配電不要なインターホンは一体どんな風に取り付けられるのか？

WPP と エピック の提携は、メタバース の成熟を早めるか？：「ブロックチェーン／Web3の要素も絡んでいる」

「新たな世界観を創るには、クリエイティブが必要不可欠」：Deloitte Digital 熊見成浩 / 八代圭 / 余若帆 / 二澤平治仁

暗号化メッセンジャー「Signal」のCEOが「警察御用達のiPhone解析ツール」をハッキングしたと報告

ポルノコンテンツ断ちをすると身体にどんな異変が起こるのか？

ASUSのゲーミングヘッドセット「ROG STRIX GO BT」レビュー、ゲーミングを超える音質と使いやすさ＆フル充電で最大45時間使用可能

青森のりんごや福島のももなど東北6県の果実が大集合した「小岩井 純水東北ミックス」を飲んでみた

WordPress公式プラグイン「Jetpack Social」でTwitterへの自動投稿が不可能に、API使用条件で折り合いつかず

米国最新メディアトレンド、「ショッパブル動画」の台頭：要点まとめ

TikTok の最新トレンド、「 #ArtTok 」とは何か？：ビューティインフルエンサーの急先鋒

WPP とエピックの提携は、メタバースの成熟を早めるか？：「ブロックチェーン／Web3の要素も絡んでいる」

青森のりんごや福島のももなど東北6県の果実が大集合した「小岩井純水東北ミックス」を飲んでみた