مطالعه جدید منتشر شده توسط تیم تحقیقاتی اپل در حوزه یادگیری ماشین، نگرش غالب درباره توانایی استدلال در مدلهای زبانی بزرگ مانند او1 و نسخههای تفکری کلود را به چالش کشیده است. این پژوهش نشان میدهد که این سیستمها در واقع فاقد توانایی استدلال واقعی هستند و محدودیتهای بنیادی در آنها وجود دارد.
در این مطالعه، به جای استفاده از معیارهای ریاضی مرسوم که ممکن است با دادههای نادرست آلوده شوند، محققان اپل محیطهای پازلی قابل کنترل مانند برج هانوی و عبور از رودخانه را طراحی کردند. این رویکرد امکان تحلیل دقیق نتایج نهایی و مسیرهای استدلال داخلی در سطوح مختلف پیچیدگی را فراهم کرد.
نتایج این تحقیق بسیار قابل توجه است. تمامی مدلهای استدلال آزمایش شده، از جمله o3-mini، DeepSeek-R1 و Claude 3.7 Sonnet، پس از عبور از آستانههای خاصی در پیچیدگی، دچار افت کامل در دقت شدند و نرخ موفقیت آنها به صفر رسید، هرچند منابع محاسباتی کافی در اختیار داشتند. نکته جالب این است که برخلاف انتظار، این مدلها در مواجهه با مسائل پیچیدهتر، تلاش کمتری برای استدلال نشان دادند، که نشاندهنده محدودیتهای اساسی در مقیاسپذیری این سیستمها است، نه کمبود منابع.
از دیگر یافتههای مهم، این است که حتی زمانی که محققان الگوریتمهای کامل حل مسئله را در اختیار مدلها قرار دادند، باز هم در همان نقاط پیچیدگی، شکست خوردند. این موضوع نشان میدهد مشکل در اجرای گامهای منطقی پایه است، نه در استراتژی حل مسئله.
علاوه بر این، مدلها در برخی موارد در حل مسائل نیازمند بیش از ۱۰۰ حرکت موفق بودند، در حالی که در مسائل سادهتر تنها با ۱۱ حرکت شکست میخوردند، که نشاندهنده ناسازگاری و تناقض در عملکرد آنها است.
تحقیقات نشان میدهد که سه دوره عملکرد مجزا وجود دارد: در سطوح پایین پیچیدگی، مدلهای مرسوم بهتر عمل میکنند؛ در سطوح متوسط، مدلهای استدلال برتری دارند؛ و در سطوح بالا، هر دو نوع مدل با شکست مواجه میشوند. تحلیل مسیرهای استدلال نشان داد که مدلها اغلب درگیر «تفکر بیش از حد» هستند، یعنی در ابتدای حل مسئله راهحل صحیح را پیدا میکنند اما در ادامه، منابع محاسباتی را صرف بررسی گزینههای نادرست میکنند.
نتیجهگیری اصلی مطالعه اپل این است که مدلهای «استدلال» فعلی بر پایه تطابق الگوهای پیچیده ساخته شدهاند و توانایی استدلال واقعی ندارند. این یافته نشان میدهد که هوش مصنوعی زبانی بزرگ، برخلاف انسانها، در استدلالهای پیچیده، بیش از حد درگیر مسائل ساده میشود و در مسائل دشوار، کمتر فکر میکند.
انتشار این تحقیق در زمانی صورت گرفت که تنها چند روز به کنفرانس جهانی توسعهدهندگان WWDC 2025 باقی مانده است، جایی که اپل انتظار میرود تمرکز خود را بیشتر بر طراحیهای نرمافزاری و ویژگیهای جدید بگذارد، نه فناوریهای هوش مصنوعی.