ガジェット

最高でも回答精度9％程度だった「人類最後の試験」でOpenAIのDeep researchが26％以上を記録

wpmaster 2025-02-05

AIの性能を定量化する評価試験のうち「これまでで最も難しい」とされる「人類最後の試験(Humanity’s Last Exam)」について、OpenAIのAIエージェント「Deep research」が早くも26.6％という高いスコアを記録したことがわかりました。試験の公開から10日もたたずに最高スコアが183％増加したことになります。

続きを読む…

Source: gize

ロボタクシー事業を停止したGM傘下の自動運転車企業・Cruiseが従業員...

新しいリテールメディアネットワークがスタート。空港広告を再構築する...

最高でも回答精度9％程度だった「人類最後の試験」でOpenAIのDeep researchが26％以上を記録

たった1枚の画像をから高品質なアニメーションを作成できる技術が登場、人型のイラストや...

講演「ソフトウェアは再び変化している」が海外で大反響、その衝撃的な内容とは？

価格の安定した暗号資産・ステーブルコインの規制に向けてアメリカ政府が情報収集を開始

Googleのバッテリー式ドアベル「Google Nest Doorbell」フォトレビュー＆セットアップ、配電不要なインターホンは一体どんな風に取り付けられるのか？

WPP とエピックの提携は、メタバースの成熟を早めるか？：「ブロックチェーン／Web3の要素も絡んでいる」

「新たな世界観を創るには、クリエイティブが必要不可欠」：Deloitte Digital 熊見成浩 / 八代圭 / 余若帆 / 二澤平治仁

暗号化メッセンジャー「Signal」のCEOが「警察御用達のiPhone解析ツール」をハッキングしたと報告

ポルノコンテンツ断ちをすると身体にどんな異変が起こるのか？

ASUSのゲーミングヘッドセット「ROG STRIX GO BT」レビュー、ゲーミングを超える音質と使いやすさ＆フル充電で最大45時間使用可能

青森のりんごや福島のももなど東北6県の果実が大集合した「小岩井純水東北ミックス」を飲んでみた

WordPress公式プラグイン「Jetpack Social」でTwitterへの自動投稿が不可能に、API使用条件で折り合いつかず

米国最新メディアトレンド、「ショッパブル動画」の台頭：要点まとめ

TikTok の最新トレンド、「 #ArtTok 」とは何か？：ビューティインフルエンサーの急先鋒