اپل چند روز قبل از کنفرانس جهانی توسعه‌دهندگان (WWDC) به بررسی سوالات تحقیقاتی مرتبط با هوش مصنوعی و مدل‌های استدلالی در این حوزه پرداخت.

MacSpots

مطالعه جدید منتشر شده توسط تیم تحقیقاتی اپل در حوزه یادگیری ماشین، نگرش غالب درباره توانایی استدلال در مدل‌های زبانی بزرگ مانند او1 و نسخه‌های تفکری کلود را به چالش کشیده است. این پژوهش نشان می‌دهد که این سیستم‌ها در واقع فاقد توانایی استدلال واقعی هستند و محدودیت‌های بنیادی در آن‌ها وجود دارد.

در این مطالعه، به جای استفاده از معیارهای ریاضی مرسوم که ممکن است با داده‌های نادرست آلوده شوند، محققان اپل محیط‌های پازلی قابل کنترل مانند برج هانوی و عبور از رودخانه را طراحی کردند. این رویکرد امکان تحلیل دقیق نتایج نهایی و مسیرهای استدلال داخلی در سطوح مختلف پیچیدگی را فراهم کرد.

نتایج این تحقیق بسیار قابل توجه است. تمامی مدل‌های استدلال آزمایش شده، از جمله o3-mini، DeepSeek-R1 و Claude 3.7 Sonnet، پس از عبور از آستانه‌های خاصی در پیچیدگی، دچار افت کامل در دقت شدند و نرخ موفقیت آن‌ها به صفر رسید، هرچند منابع محاسباتی کافی در اختیار داشتند. نکته جالب این است که برخلاف انتظار، این مدل‌ها در مواجهه با مسائل پیچیده‌تر، تلاش کمتری برای استدلال نشان دادند، که نشان‌دهنده محدودیت‌های اساسی در مقیاس‌پذیری این سیستم‌ها است، نه کمبود منابع.

از دیگر یافته‌های مهم، این است که حتی زمانی که محققان الگوریتم‌های کامل حل مسئله را در اختیار مدل‌ها قرار دادند، باز هم در همان نقاط پیچیدگی، شکست خوردند. این موضوع نشان می‌دهد مشکل در اجرای گام‌های منطقی پایه است، نه در استراتژی حل مسئله.

علاوه بر این، مدل‌ها در برخی موارد در حل مسائل نیازمند بیش از ۱۰۰ حرکت موفق بودند، در حالی که در مسائل ساده‌تر تنها با ۱۱ حرکت شکست می‌خوردند، که نشان‌دهنده ناسازگاری و تناقض در عملکرد آن‌ها است.

تحقیقات نشان می‌دهد که سه دوره عملکرد مجزا وجود دارد: در سطوح پایین پیچیدگی، مدل‌های مرسوم بهتر عمل می‌کنند؛ در سطوح متوسط، مدل‌های استدلال برتری دارند؛ و در سطوح بالا، هر دو نوع مدل با شکست مواجه می‌شوند. تحلیل مسیرهای استدلال نشان داد که مدل‌ها اغلب درگیر «تفکر بیش از حد» هستند، یعنی در ابتدای حل مسئله راه‌حل صحیح را پیدا می‌کنند اما در ادامه، منابع محاسباتی را صرف بررسی گزینه‌های نادرست می‌کنند.

نتیجه‌گیری اصلی مطالعه اپل این است که مدل‌های «استدلال» فعلی بر پایه تطابق الگوهای پیچیده ساخته شده‌اند و توانایی استدلال واقعی ندارند. این یافته نشان می‌دهد که هوش مصنوعی زبانی بزرگ، برخلاف انسان‌ها، در استدلال‌های پیچیده، بیش از حد درگیر مسائل ساده می‌شود و در مسائل دشوار، کمتر فکر می‌کند.

انتشار این تحقیق در زمانی صورت گرفت که تنها چند روز به کنفرانس جهانی توسعه‌دهندگان WWDC 2025 باقی مانده است، جایی که اپل انتظار می‌رود تمرکز خود را بیشتر بر طراحی‌های نرم‌افزاری و ویژگی‌های جدید بگذارد، نه فناوری‌های هوش مصنوعی.

4 بازدید

برچسب ها :

0

دیدگاهتان را بنویسید