AI企業のAnthropicは、2025年2月25日に発表した推論モデル「Claude 3.7 Sonnet」がベンチマークでOpenAIのo1やo3-mini、DeepSeek-R1を超える性能を示したと報告しました。さらに、AnthropicはClaude 3.7 Sonnetの性能を示すベンチマークの一環で、1996年に発売されたゲームボーイ用ソフト「ポケットモンスター 赤」をプレイさせ、ジムリーダー3人を倒したことをアピールしています。そして、Anthropicはこのポケモンによるベンチマークを実演するべく、ゲーム実況プラットフォームのTwitchで「ClaudePlaysPokemon」の配信を開始しました。
Source: gize
ABOUT ME
