DeepSeek R1 چیست؟
DeepSeek R1 یک مدل استدلالی نسل اول است که توسط DeepSeek AI توسعه داده شده و در انجام کارهای پیچیده استدلال، عملکردی مشابه مدل OpenAI-o1 دارد. این مدل در ژانویه 2025 منتشر شده و با استفاده از تکنیکهای پیشرفته یادگیری تقویتی (RL) برای تقویت قدرت استدلال آموزش دیده است. مقاله تحقیقاتی معرفی این مدل را میتوانید در arXiv:2501.12948↗ پیدا کنید.
ویژگی منحصر به فرد DeepSeek R1 چیست؟
آنچه DeepSeek R1 را خاص میکند، روش آموزشی آن است. این مدل از طریق یادگیری تقویتی مقیاس بزرگ با کمترین وابستگی به تنظیمات نظارتی آموزش دیده، که باعث شد به طور طبیعی قدرتهای استدلالی قویتری پیدا کند. مدل اولیه DeepSeek-R1-Zero که کاملاً با RL آموزش داده شده بود، عملکرد استدلالی خوبی داشت، ولی با مشکلاتی در تکرار و خوانایی روبرو بود. مدل نهایی DeepSeek R1 این مشکلات را با استفاده از برخی دادههای نظارتی قبل از آموزش RL حل کرده است.
مزایای اجرای مدل DeepSeek R1 به صورت محلی
اجرای DeepSeek R1 به صورت محلی روی مک شما چندین مزیت دارد:
- حریم خصوصی: دادههای شما روی دستگاه شما باقی میماند و از سرورها خارجی عبور نمیکند.
- استفاده آفلاین: پس از دانلود مدلها، نیازی به اتصال اینترنتی ندارید.
- مقرون به صرفه: هیچ هزینهای برای API یا محدودیتهای استفاده وجود ندارد.
- تاخیر کم: دسترسی مستقیم به مدل بدون تاخیرهای شبکه.
- سفارشیسازی: کنترل کامل روی پارامترها و تنظیمات مدل.
برای کاربران macOS، پلتفرمهایی مانند Ollama یا LM Studio وجود دارند که امکان دانلود و اجرای مدلها مانند DeepSeek R1 را به راحتی فراهم میکنند، بدون نیاز به تنظیمات پیچیده.
درک انواع مدلها
مدلهای تقطیر شده (Distilled Models)
تقطیر مدل یک تکنیک است که در آن یک مدل کوچکتر (دانشآموز) برای تقلید رفتار یک مدل بزرگتر (معلم) آموزش داده میشود. در مورد DeepSeek R1، محققان نشان دادند که الگوهای استدلالی مدل 671B پارامتری بزرگ میتواند به طور مؤثر به مدلهای کوچکتر منتقل شود، به طوری که این مدلها در دسترستر بوده و در عین حال عملکرد قویتری را حفظ میکنند. این فرآیند باعث میشود که مدلهای کوچکتر در مقایسه با مدلهایی که به طور مستقیم از طریق یادگیری تقویتی در همان ابعاد آموزش داده میشوند، نتایج بهتری بدست آورند.
مدلهای Llama در مقابل مدلهای Qwen
مدلهای تقطیر شده DeepSeek R1 بر اساس دو معماری مختلف مدل پایه ساخته شدهاند که هرکدام ویژگیهای خاص خود را دارند:
مدلهای مبتنی بر Llama (نسخههای 8B و 70B):
این مدلها بر اساس معماری Llama 3 شرکت Meta ساخته شدهاند که از معماری ترنسفورمر سنتی با بهینهسازیهایی برای کارایی محاسباتی استفاده میکند.
ویژگیهای کلیدی:
- روتاری پوزیشنال امبدینگ (RoPE) برای بهبود پردازش دادههای ترتیبی
- گروه پرسوجو توجه (GQA) برای پردازش موازی بهتر
- اسلایدینگ ویندو توجه برای پردازش دنبالههای طولانیتر
- عملکرد قوی در وظایف زبان انگلیسی و کدنویسی
- آزمایشهای گسترده و پذیرش وسیع در جامعه منبعباز
مدلهای مبتنی بر Qwen (نسخههای 1.5B، 7B، 14B و 32B):
این مدلها بر اساس معماری Qwen 2.5 شرکت Alibaba ساخته شدهاند که چندین نوآوری معماری را معرفی میکند.
ویژگیهای کلیدی:
- مکانیسم توجه چندپرسوجو که بهینهسازی شده برای زبانهای انگلیسی و چینی
- پنجره زمینه ارتقا یافته (تا 32K توکن)
- پشتیبانی بومی از تقسیمبندی متن چینی
- عملکرد بهتر در پردازش محتوای ترکیبی چینی-انگلیسی
- عملکرد بهبود یافته در وظایف استدلال ریاضی
- بهینهشده برای کاربردهای علمی و تجاری
انتخاب بین مدلهای Llama و Qwen بستگی به نیاز خاص شما دارد:
نسخههای Llama را برای موارد زیر انتخاب کنید:
- کاربردهای عمدتاً زبان انگلیسی
- تولید و تحلیل کد
- پروژههایی که به پشتیبانی گسترده جامعه نیاز دارند
- برنامههایی که به ثبات اثباتشده نیاز دارند
نسخههای Qwen را برای موارد زیر انتخاب کنید:
- برنامههای چندزبانه، به ویژه مواردی که شامل زبان چینی هستند
- وظایف ریاضی و علمی
- پروژههایی که به پنجره زمینه طولانیتری نیاز دارند
- برنامههایی که به عملکرد متوازن در دامنههای مختلف نیاز دارند
نیازهای سختافزاری
در اینجا یک تجزیه و تحلیل از مدلهای محبوب DeepSeek R1 موجود در Ollama آمده است، همراه با اندازههای تقریبی و توصیههای سختافزاری:
Model | Parameters | Size | VRAM (Approx.) | Recommended Mac |
---|---|---|---|---|
deepseek-r1:1.5b | 1.5B | 1.1 GB | ~2 GB | M2/M3 MacBook Air (8GB RAM+) |
deepseek-r1:7b | 7B | 4.7 GB | ~5 GB | M2/M3/M4 MacBook Pro (16GB RAM+) |
deepseek-r1:8b | 8B | 4.9 GB | ~6 GB | M2/M3/M4 MacBook Pro (16GB RAM+) |
deepseek-r1:14b | 14B | 9.0 GB | ~10 GB | M2/M3/M4 Pro MacBook Pro (32GB RAM+) |
deepseek-r1:32b | 32B | 20 GB | ~22 GB | M2 Max/Ultra Mac Studio |
deepseek-r1:70b | 70B | 43 GB | ~45 GB | M2 Ultra Mac Studio |
deepseek-r1:1.5b-qwen-distill-q4_K_M | 1.5B | 1.1 GB | ~2 GB | M2/M3 MacBook Air (8GB RAM+) |
deepseek-r1:7b-qwen-distill-q4_K_M | 7B | 4.7 GB | ~5 GB | M2/M3/M4 MacBook Pro (16GB RAM+) |
deepseek-r1:8b-llama-distill-q4_K_M | 8B | 4.9 GB | ~6 GB | M2/M3/M4 MacBook Pro (16GB RAM+) |
deepseek-r1:14b-qwen-distill-q4_K_M | 14B | 9.0 GB | ~10 GB | M2/M3/M4 Pro MacBook Pro (32GB RAM+) |
deepseek-r1:32b-qwen-distill-q4_K_M | 32B | 20 GB | ~22 GB | M2 Max/Ultra Mac Studio |
deepseek-r1:70b-llama-distill-q4_K_M | 70B | 43 GB | ~45 GB | M2 Ultra Mac Studio |
توجه: استفاده از VRAM (حافظه ویدئویی) بسته به مدل، وظیفه و کمفشاری (quantization) میتواند متفاوت باشد. موارد ذکر شده در بالا تخمینی هستند. مدلهایی که با q4_K_M تمام میشوند، برای استفاده کمتر از منابع با کمفشاری (quantization) بهینه شدهاند.
این به این معناست که مدلهای کمفشار شده (مثل q4_K_M) به طور معمول به منابع کمتری برای اجرا نیاز دارند، بنابراین میتوانند با حافظه ویدئویی (VRAM) پایینتری به راحتی اجرا شوند، اما ممکن است در دقت و سرعت کمی تفاوت داشته باشند.
راهنمای گام به گام برای اجرای DeepSeek R1 به صورت محلی روی macOS با استفاده از Ollama و Kerlig
نصب و اجرای Ollama
- به وبسایت ollama.com بروید و نصبکننده macOS را دانلود کنید.
- Ollama را روی مک خود نصب کنید.
- پس از نصب، Ollama را باز کنید.
اضافه کردن مدل DeepSeek R1 به Kerlig
- Kerlig را دانلود کرده و آن را باز کنید.
- به بخش Settings → Integrations → Ollama بروید.
- در قسمت Add Custom Model:
- یک نام نمایشی وارد کنید (مثلاً “DeepSeek R1 7B”).
- نام مدل را وارد کنید (مثلاً
deepseek-r1:7b
). - روی Add کلیک کنید.
- سوئیچ را برای فعالسازی مدل تغییر دهید و صبر کنید تا دانلود تمام شود (میتوانید در حین دانلود تنظیمات را ببندید).
اجرای DeepSeek R1
- Kerlig را باز کنید.
- پرسش خود را وارد کنید – هر سوالی که میخواهید بپرسید.
- مدل DeepSeek R1 7B را که اخیراً اضافه کردهاید، انتخاب کنید.
- روی Run کلیک کنید یا دکمه Enter را فشار دهید.
توصیههای استفاده
برای عملکرد بهینه با مدلهای DeepSeek R1:
- مدل متناسب با مشخصات مک خود را انتخاب کنید.
- ابتدا از مدلهای کوچکتر شروع کنید تا عملکرد را آزمایش کنید.
- در طول استفاده اولیه منابع سیستم را نظارت کنید.
- فضای ذخیرهسازی کافی برای دانلود مدلها فراهم کنید.
- در هنگام استفاده از Kerlig، Ollama را در پسزمینه باز نگه دارید.
- از افزودن دستورات سیستم خودداری کنید و تمام دستورالعملها را داخل پرسش کاربر وارد کنید.
- برای مسائل ریاضی، دستوراتی مانند: “لطفاً گام به گام استدلال کنید و پاسخ نهایی خود را در داخل \boxed قرار دهید” را اضافه کنید.