ガジェット

OpenAIがAIの論文理解＆再現能力を評価するベンチマーク「PaperBench」を発表、人間とAIのどちらが研究開発力が高いのか？

wpmaster 2025-04-03

OpenAIが、AIが最先端の研究論文を理解して再現できるかを評価する新しいベンチマーク「PaperBench」を発表しました。PaperBenchは、AIエージェントに20本の最新AI研究論文を一から再現させ、論文内容の理解やコード開発、実験実行の全てを評価します。

Source: gize

「執拗なAIスクレイピングがインフラストラクチャに負担をかけている」とW...

Nintendo Switch 2のパッケージ版ソフトにはゲームを起動す...

ブラックホールが銀河を「飢えさせている」ことが判明