انقلاب 671 میلیارد پارامتری در اثبات خودکار قضایا

خلاصه مقاله:
شرکت DeepSeek AI مدل جدیدی به نام **DeepSeek-Prover-V2** را معرفی کرده که به‌طور خاص برای اثبات خودکار قضایا در محیط **Lean 4** طراحی شده است. این مدل با ترکیب استدلال غیررسمی و اثبات فرمول‌های دقیق، عملکرد بی‌نهایت قوی‌تری نسبت به مدل‌های قبلی دارد. فرآیند آموزشی آن ابتدا با استفاده از مدل قدرتمند DeepSeek-V3 انجام می‌شود تا قضایای پیچیده به زیرمسائل ساده‌تر تقسیم شوند و سپس با استفاده از یک مدل کوچک‌تر (7B)، اثبات هر زیرمسأله انجام می‌گیرد. این داده‌های تولیدشده ساختگی به عنوان پایه آموزش مدل نهایی استفاده می‌شوند. در نهایت، مدل 671 میلیارد پارامتری DeepSeek-Prover-V2 رتبه اول جهانی را در اثبات نورونی قضایا کسب کرده و مجموعه معیار جدیدی به نام **ProverBench** را معرفی کرده که ارزیابی دقیق‌تری از توانایی‌های استدلال ریاضی مدل‌ها فراهم می‌کند.

مقدمه

DeepSeek-Prover-V2 مدلی انقلابی در حوزه هوش مصنوعی و ریاضیات فرمال است. این مدل با قابلیت اثبات خودکار قضایای پیچیده ریاضی در محیط Lean 4 طراحی شده است. با ترکیب هوش غیررسمی و استدلال دقیق فرمول‌محور، این مدل جایگاه ویژه‌ای در پیشرفت هوش مصنوعی برای ریاضیات دارد.

معماری و رویکرد آموزشی منحصربه‌فرد

فرآیند شروع سرد (Cold-Start)

آموزش این مدل با یک روش خلاقانه شروع می‌شود که “شروع سرد” نام دارد. در این روش ابتدا مدل بزرگ‌تر **DeepSeek-V3** به تجزیه قضایای پیچیده به زیرمسائل کوچک‌تر می‌پردازد.

هر یک از این مراحل، به‌صورت غیررسمی و با استدلال زنجیره‌ای (chain-of-thought) توضیح داده می‌شود. در موازات این استدلال، مراحل به زبان فرمال **Lean 4** تبدیل می‌شوند.

این دو لایه از دانش — استدلال انسانی و فرمال‌سازی دقیق — بعداً به عنوان داده آموزشی قوی مورد استفاده قرار می‌گیرند.

استفاده از مدل کمتر در جستجوی اثبات

برای کاهش محاسبات، یک مدل کوچک‌تر (7B پارامتری) برای جستجوی اثبات هر زیرمسأله به کار می‌رود. این مدل سعی می‌کند هر زیرمسأله را با روش‌های فرمال در Lean 4 حل کند.

وقتی تمام زیرمسائل یک قضیه اثبات می‌شوند، اثبات کامل آن با استدلال زنجیره‌ای DeepSeek-V3 ترکیب می‌شود. این ترکیب یک نمونه آموزشی غنی و دقیق ایجاد می‌کند.

ساخت داده‌های آموزشی با استفاده از ترکیب استدلال و اثبات

داده‌های جدید شامل دو بخش هستند:
– استدلال غیررسمی (مثل آنچه یک ریاضیدان می‌گوید)
– اثبات فرمال (کد دقیق Lean 4)

این داده‌ها به مدل آموزش می‌دهند که چگونه از ایده‌های شهودی به اثبات‌های دقیق دست پیدا کند.

آموزش نهایی: تنظیم و یادگیری تقویتی

مرحله تنظیم (Fine-tuning)

مدل ابتکاری ابتدا روی این داده‌های ساختگی آموزش دیده می‌شود. این مرحله پایه‌ای قوی برای شروع یادگیری ایجاد می‌کند.

یادگیری تقویتی با بازخورد دودویی

بعد از تنظیم، مدل وارد مرحله **یادگیری تقویتی (Reinforcement Learning)** می‌شود. در این مرحله، فقط دو نوع بازخورد وجود دارد:
– ✅ اثبات صحیح
– ❌ اثبات ناقص یا نادرست

این بازخورد دودویی به مدل کمک می‌کند تا چگونگی پردازش قضایا و جلوگیری از اشتباه را بهتر یاد بگیرد.

مدل نهایی: DeepSeek-Prover-V2 با 671 میلیارد پارامتر

نتیجه نهایی این فرآیند، یک مدل عظیم با 671 میلیارد پارامتر است که به نام **DeepSeek-Prover-V2–671B** شناخته می‌شود. این مدل بر پایه DeepSeek-V3-Base ساخته شده و قدرتمندترین مدل موجود در زمینه اثبات قضایا محسوب می‌شود.

عملکرد برجسته در معیارهای استاندارد

این مدل در معیارهای مهم، عملکردی بی‌نظیر داشته است:

معیارنتیجهتوضیح
MiniF2F-test88.9%بیشترین نرخ موفقیت در میان تمام مدل‌ها
PutnamBench49 مسئله از 658مسائل بسیار چالش‌برانگیز ریاضی دانشگاهی

همچنین، تمام اثبات‌های تولیدشده برای مجموعه MiniF2F به صورت عمومی در دسترس هستند.

معرفی ProverBench: معیار جدید ارزیابی

DeepSeek AI همچنین یک مجموعه معیار جدید به نام **ProverBench** را منتشر کرده که شامل **325 مسئله فرمال‌شده** است.

ترکیب مناسب از سطوح دشواری

این مجموعه از دو بخش تشکیل شده:

  • 15 مسئله از AIME 24 و 25: مسائل رقابتی سطح مدارس متوسطه آمریکا
  • 310 مسئله از کتاب‌های درسی و آموزش‌های دانشگاهی: مسائل پایه در منطق، جبر، آنالیز، نظریه اعداد و…

این ترکیب، امکان ارزیابی دقیق از توانایی‌های ریاضی مدل‌ها را از سطح مقدماتی تا پیشرفته فراهم می‌کند.

دو نسخه از مدل برای تمام کاربران

DeepSeek دو نسخه از مدل را عرضه کرده تا همه کاربران بتوانند از آن استفاده کنند:

1. DeepSeek-Prover-V2–671B (بزرگ)

— مبتنی بر DeepSeek-V3-Base

— 671 میلیارد پارامتر

— بالاترین دقت و توانایی در اثبات قضایا

2. DeepSeek-Prover-V2–7B (کوچک)

— مبتنی بر DeepSeek-Prover-V1.5-Base

— 7 میلیارد پارامتر

— پشتیبانی از 32 هزار توکن (متن طولانی)

— مناسب برای سیستم‌های با منابع محدود

هر دو مدل به‌صورت **متن‌باز** در دسترس هستند و توسعه‌دهندگان می‌توانند از آنها برای پژوهش و توسعه استفاده کنند.

تأثیر و آینده اثبات نورونی قضایا

راه‌اندازی DeepSeek-Prover-V2 و معرفی ProverBench، نقطه عطفی در پیشرفت هوش مصنوعی برای ریاضیات فرمال است.

این پروژه به محققان کمک می‌کند تا:
– هوش مصنوعی را بهتر در فهم و اثبات قضایا آموزش دهند
– از ترکیب استدلال انسانی و دقت ماشین بهره ببرند
– سیستم‌های مطمئن‌تری برای اعتبارسنجی ریاضیات بسازند

همچنین، وجود معیار استاندارد جدید (ProverBench)، مقایسه عادلانه بین مدل‌های مختلف را ممکن می‌کند و رقابت سالمی در جامعه تحقیقاتی ایجاد می‌کند.

این حرکت DeepSeek، گام بزرگی به سوی هوش مصنوعی تفکرکننده در سطح ریاضیات پیشرفته است.

اشتراک گذاری

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *