خلاصه مقاله:
شرکت DeepSeek AI مدل جدیدی به نام **DeepSeek-Prover-V2** را معرفی کرده که بهطور خاص برای اثبات خودکار قضایا در محیط **Lean 4** طراحی شده است. این مدل با ترکیب استدلال غیررسمی و اثبات فرمولهای دقیق، عملکرد بینهایت قویتری نسبت به مدلهای قبلی دارد. فرآیند آموزشی آن ابتدا با استفاده از مدل قدرتمند DeepSeek-V3 انجام میشود تا قضایای پیچیده به زیرمسائل سادهتر تقسیم شوند و سپس با استفاده از یک مدل کوچکتر (7B)، اثبات هر زیرمسأله انجام میگیرد. این دادههای تولیدشده ساختگی به عنوان پایه آموزش مدل نهایی استفاده میشوند. در نهایت، مدل 671 میلیارد پارامتری DeepSeek-Prover-V2 رتبه اول جهانی را در اثبات نورونی قضایا کسب کرده و مجموعه معیار جدیدی به نام **ProverBench** را معرفی کرده که ارزیابی دقیقتری از تواناییهای استدلال ریاضی مدلها فراهم میکند.
—
مقدمه
DeepSeek-Prover-V2 مدلی انقلابی در حوزه هوش مصنوعی و ریاضیات فرمال است. این مدل با قابلیت اثبات خودکار قضایای پیچیده ریاضی در محیط Lean 4 طراحی شده است. با ترکیب هوش غیررسمی و استدلال دقیق فرمولمحور، این مدل جایگاه ویژهای در پیشرفت هوش مصنوعی برای ریاضیات دارد.
—
معماری و رویکرد آموزشی منحصربهفرد
فرآیند شروع سرد (Cold-Start)
آموزش این مدل با یک روش خلاقانه شروع میشود که “شروع سرد” نام دارد. در این روش ابتدا مدل بزرگتر **DeepSeek-V3** به تجزیه قضایای پیچیده به زیرمسائل کوچکتر میپردازد.
هر یک از این مراحل، بهصورت غیررسمی و با استدلال زنجیرهای (chain-of-thought) توضیح داده میشود. در موازات این استدلال، مراحل به زبان فرمال **Lean 4** تبدیل میشوند.
این دو لایه از دانش — استدلال انسانی و فرمالسازی دقیق — بعداً به عنوان داده آموزشی قوی مورد استفاده قرار میگیرند.
استفاده از مدل کمتر در جستجوی اثبات
برای کاهش محاسبات، یک مدل کوچکتر (7B پارامتری) برای جستجوی اثبات هر زیرمسأله به کار میرود. این مدل سعی میکند هر زیرمسأله را با روشهای فرمال در Lean 4 حل کند.
وقتی تمام زیرمسائل یک قضیه اثبات میشوند، اثبات کامل آن با استدلال زنجیرهای DeepSeek-V3 ترکیب میشود. این ترکیب یک نمونه آموزشی غنی و دقیق ایجاد میکند.
ساخت دادههای آموزشی با استفاده از ترکیب استدلال و اثبات
دادههای جدید شامل دو بخش هستند:
– استدلال غیررسمی (مثل آنچه یک ریاضیدان میگوید)
– اثبات فرمال (کد دقیق Lean 4)
این دادهها به مدل آموزش میدهند که چگونه از ایدههای شهودی به اثباتهای دقیق دست پیدا کند.
—
آموزش نهایی: تنظیم و یادگیری تقویتی
مرحله تنظیم (Fine-tuning)
مدل ابتکاری ابتدا روی این دادههای ساختگی آموزش دیده میشود. این مرحله پایهای قوی برای شروع یادگیری ایجاد میکند.
یادگیری تقویتی با بازخورد دودویی
بعد از تنظیم، مدل وارد مرحله **یادگیری تقویتی (Reinforcement Learning)** میشود. در این مرحله، فقط دو نوع بازخورد وجود دارد:
– ✅ اثبات صحیح
– ❌ اثبات ناقص یا نادرست
این بازخورد دودویی به مدل کمک میکند تا چگونگی پردازش قضایا و جلوگیری از اشتباه را بهتر یاد بگیرد.
—
مدل نهایی: DeepSeek-Prover-V2 با 671 میلیارد پارامتر
نتیجه نهایی این فرآیند، یک مدل عظیم با 671 میلیارد پارامتر است که به نام **DeepSeek-Prover-V2–671B** شناخته میشود. این مدل بر پایه DeepSeek-V3-Base ساخته شده و قدرتمندترین مدل موجود در زمینه اثبات قضایا محسوب میشود.
عملکرد برجسته در معیارهای استاندارد
این مدل در معیارهای مهم، عملکردی بینظیر داشته است:
معیار | نتیجه | توضیح |
---|---|---|
MiniF2F-test | 88.9% | بیشترین نرخ موفقیت در میان تمام مدلها |
PutnamBench | 49 مسئله از 658 | مسائل بسیار چالشبرانگیز ریاضی دانشگاهی |
همچنین، تمام اثباتهای تولیدشده برای مجموعه MiniF2F به صورت عمومی در دسترس هستند.
—
معرفی ProverBench: معیار جدید ارزیابی
DeepSeek AI همچنین یک مجموعه معیار جدید به نام **ProverBench** را منتشر کرده که شامل **325 مسئله فرمالشده** است.
ترکیب مناسب از سطوح دشواری
این مجموعه از دو بخش تشکیل شده:
- 15 مسئله از AIME 24 و 25: مسائل رقابتی سطح مدارس متوسطه آمریکا
- 310 مسئله از کتابهای درسی و آموزشهای دانشگاهی: مسائل پایه در منطق، جبر، آنالیز، نظریه اعداد و…
این ترکیب، امکان ارزیابی دقیق از تواناییهای ریاضی مدلها را از سطح مقدماتی تا پیشرفته فراهم میکند.
—
دو نسخه از مدل برای تمام کاربران
DeepSeek دو نسخه از مدل را عرضه کرده تا همه کاربران بتوانند از آن استفاده کنند:
1. DeepSeek-Prover-V2–671B (بزرگ)
— مبتنی بر DeepSeek-V3-Base
— 671 میلیارد پارامتر
— بالاترین دقت و توانایی در اثبات قضایا
2. DeepSeek-Prover-V2–7B (کوچک)
— مبتنی بر DeepSeek-Prover-V1.5-Base
— 7 میلیارد پارامتر
— پشتیبانی از 32 هزار توکن (متن طولانی)
— مناسب برای سیستمهای با منابع محدود
هر دو مدل بهصورت **متنباز** در دسترس هستند و توسعهدهندگان میتوانند از آنها برای پژوهش و توسعه استفاده کنند.
—
تأثیر و آینده اثبات نورونی قضایا
راهاندازی DeepSeek-Prover-V2 و معرفی ProverBench، نقطه عطفی در پیشرفت هوش مصنوعی برای ریاضیات فرمال است.
این پروژه به محققان کمک میکند تا:
– هوش مصنوعی را بهتر در فهم و اثبات قضایا آموزش دهند
– از ترکیب استدلال انسانی و دقت ماشین بهره ببرند
– سیستمهای مطمئنتری برای اعتبارسنجی ریاضیات بسازند
همچنین، وجود معیار استاندارد جدید (ProverBench)، مقایسه عادلانه بین مدلهای مختلف را ممکن میکند و رقابت سالمی در جامعه تحقیقاتی ایجاد میکند.
این حرکت DeepSeek، گام بزرگی به سوی هوش مصنوعی تفکرکننده در سطح ریاضیات پیشرفته است.