Who&When: تشخیص خودکار چه کسی و کی در شکست سیستم‌های چندعاملی هوشمند

خلاصه مقاله:
در سیستم‌های چندعامله مبتنی بر مدل‌های زبانی بزرگ (LLM)، تشخیص علت شکست یک کار بسیار دشوار است. محققان از دانشگاه ایالتی پنسیلوانیا و دوک با همکاری نهادهایی مانند گوگل دیپ‌مایند، اولین تلاش رسمی در راستای «تشخیص خودکار علت شکست» را ارائه کرده‌اند. آن‌ها مسئله «کی و چه زمانی شکست رخ داد؟» را تعریف کرده، داده‌مجموعه معیار **Who&When** را ساخته و سه روش خودکار برای یافتن عامل و مرحلهٔ خطای تصمیم‌گیرنده طراحی کرده‌اند. نتایج نشان می‌دهد این مسئله بسیار چالش‌برانگیز است: بهترین روش تنها در ۵۳٫۵٪ موارد «عامل مسئول» و در ۱۴٫۲٪ موارد «مرحلهٔ خطا» را درست تشخیص داده است.

—

مقدمه

سیستم‌های چندعامله با بهره‌گیری از مدل‌های زبانی بزرگ، برای حل مسائل پیچیده همکاری می‌کنند.
اما این همکاری اغلب بدون موفقیت است و تشخیص علت شکست بسیار سخت می‌شود.
این تحقیق راهی جدید برای پاسخ به سوال «چه کسی و در چه مرحله‌ای باعث شکست شد؟» ارائه می‌دهد.

—

چالش تشخیص شکست در سیستم‌های چندعامله

در سیستم‌های چندعامله، هر عامل به صورت خودمختار تصمیم می‌گیرد.
خطای یک عامل یا سوءتفاهم بین آن‌ها می‌تواند کل مأموریت را خراب کند.
با این حال، تعیین دقیق منبع خطا در لاگ‌های طولانی و پیچیده مثل یافتن سوزن در کومه کاه است.

—

روش‌های دستی فعلی برای عیب‌یابی

توسعه‌دهندگان اغلب از روش‌های دستی برای بررسی علت شکست استفاده می‌کنند.
این شامل بررسی خط به خط لاگ‌های تعاملی بین عامل‌هاست.
این روش زمان‌بر، خسته‌کننده و وابسته به تخصص بالای توسعه‌دهنده است.

—

مسئله جدید: تشخیص خودکار علت شکست

این تحقیق اولین تلاش رسمی برای تعریف مسئله «تشخیص خودکار علت شکست» است.
هدف، شناسایی دو مورد است: **عامل مسئول شکست** و **مرحلهٔ تصمیم‌گیری خطا**.
این رویکرد پلی بین «ارزیابی نتایج» و «بهبود سیستم» می‌سازد.

—

داده‌مجموعه معیار: Who&When

محققان اولین داده‌مجموعه آزمون برای این مسئله را با نام **Who&When** ایجاد کرده‌اند.
این مجموعه شامل 127 شکست واقعی از سیستم‌های چندعامله است.
هر مورد شامل سه بخش است:

کی؟ عاملی که خطا را ایجاد کرده
چه زمانی؟ مرحلهٔ دقیق انجام خطا
چرا؟ توضیح طبیعی از دلیل شکست

داده‌ها توسط کارشناسان دستی برچسب‌گذاری شده یا با دقت شبیه‌سازی شده‌اند.

—

سه روش خودکار برای تشخیص خطا

با استفاده از داده‌مجموعه Who&When، سه روش برای تشخیص خودکار طراحی شد:

1. همه‌چیز دف一次 (All-at-Once)

مدل کل لاگ و سوال را یک‌جا می‌بیند و در یک مرحله «کی» و «چه زمانی» را مشخص می‌کند.
مزیت: کم‌هزینه و سریع.
معایب: در موارد طولانی دچار خطا می‌شود.

2. مرحله به مرحله (Step-by-Step)

مدل لاگ را مرحله به مرحله بررسی می‌کند و در هر قدم تصمیم می‌گیرد آیا خطا رخ داده.
شبیه رفتار انسان در دیباگ کردن است.
مزیت: دقت بالاتر در یافتن زمان دقیق خطا.
معایب: پرهزینه و احتمال تجمع خطا وجود دارد.

3. جستجوی دودویی (Binary Search)

مدل ابتدا لاگ را نصف می‌کند و بررسی می‌کند کدام نیمه شامل خطا است.
سپس به صورت بازگشتی ادامه می‌دهد.
مزیت: تعادل خوبی بین دقت و هزینه دارد.
معایب: همچنان پیچیدگی محاسباتی دارد.

—

نتایج آزمایش‌ها

همه روش‌ها با مدل GPT-4o و در دو حالت آزمایش شدند:
– با دانش از پاسخ درست (With Ground Truth)
– بدون دانش از پاسخ (Without Ground Truth)

جدول زیر خلاصه عملکرد را نشان می‌دهد:

روش	دقت (عامل مسئول)	دقت (مرحلهٔ خطا)
همه‌چیز دف一次	~53.5%	~14.2%
مرحله به مرحله	متوسط	немتناسب بهتر
جستجوی دودویی	متوسط	متوسط

—

یافته‌های کلیدی

هنوز راه طولانی در پیش است: دقت کمتر از 55٪ نشان می‌دهد این مسئله بسیار سخت است.
هیچ روشی به تنهایی برتر نیست: هر روش نقاط قوت و ضعف خود را دارد.
ترکیب روش‌ها ممکن است بهتر باشد: مثلاً ابتدا «همه‌چیز دف一次» برای یافتن عامل، سپس «مرحله به مرحله» برای یافتن زمان — اما هزینه بسیار بالا می‌رود.
مدل‌های پیشرفته هم ضعف دارند: حتی مدل‌های قدرتمند مثل OpenAI o1 و DeepSeek R1 در این وظیفه مشکل دارند.
توضیح منطق مدل کمک می‌کند: اگر از مدل بخواهیم دلیل تصمیم خود را بگوید، عملکردش بهبود می‌یابد.
طول متن تأثیر منفی دارد: هرچه لاگ طولانی‌تر باشد، دقت تشخیص، به‌ویژه برای «چه زمانی»، کاهش می‌یابد.

—

جمع‌بندی و کارهای آینده

این تحقیق پایه‌ای برای تشخیص خودکار علت شکست در سیستم‌های چندعامله گذاشته است.
داده‌مجموعه Who&When و روش‌های ارائه شده، راه را برای توسعه سیستم‌های قابل اعتمادتر باز می‌کند.
تحقیقات آینده می‌توانند روی الگوریتم‌های هوشمندتر، استفاده از حافظه، یا یادگیری تقویتی تمرکز کنند تا هم دقت و هم بهره‌وری را افزایش دهند.