6月6日に公開されたAppleの研究論文は、大きな推論モデル(LRMS)がベンチマークのパフォーマンスの向上を示したが、問題がより複雑になったときに正確さに苦しんだと述べた。
研究者たちは、大規模な言語モデルの中からClaude 3.7 SonnetとDeepseek-V3を選び、Claude 3.7 Sonnetを考えて、大きな推論モデルの中からDeepSeek-R1を選びました。