ذكرت ورقة بحثية من Apple المنشورة في 6 يونيو أنه على الرغم من أن نماذج التفكير الكبيرة (LRMS) أظهرت أداءً محسّنًا على المعايير ، فقد ناضلوا بدقة عندما أصبحت المشكلات أكثر تعقيدًا.
اختار الباحثون كلود 3.7 Sonnet و Deepseek-V3 من بين نماذج اللغة الكبيرة و Claude 3.7 Sonnet مع التفكير و Deepseek-R1 من بين نماذج التفكير الكبيرة.