چه کسی و چه زمانی؟ WHOWHEN نخستین راهکار هوشمند برای یافتن مسئول خطا در سیستم‌های چندعاملی هوش مصنوعی

گیلان پلاس

3 هفته پیش

خلاصه مقاله:
در سیستم‌های چندعاملی مبتنی بر مدل‌های بزرگ زبانی (LLM)، خطاهای فردی یک عامل یا انتقال اشتباه اطلاعات می‌تواند منجر به شکست کلی ماموریت شود. اما تشخیص اینکه کدام عامل و در کدام مرحله باعث خطا شده، بسیار دشوار است. این مقاله مسئله جدید «نسبت‌دهی خودکار خطا» را تعریف می‌کند، اولین مجموعه داده بنچمارک **Who&When** را ارائه می‌دهد و سه روش خودکار برای شناسایی عامل و زمان خطا ارزیابی می‌کند. نتایج نشان می‌دهد که هرچند هنوز راه زیادی در پیش است، اما این رویکرد می‌تواند به بهبود قابلیت اطمینان سیستم‌های چندعاملی کمک کند.

—

مقدمه

سیستم‌های چندعاملی مبتنی بر هوش مصنوعی به‌سرعت در حال گسترش هستند.
این سیستم‌ها با همکاری چندین عامل، وظایف پیچیده را انجام می‌دهند.
اما زمانی که کار شکست می‌خورد، پیدا کردن منشأ خطا بسیار دشوار است.

—

چالش اصلی: شکست بدون دلیل مشخص

سیستم‌های چندعاملی اغلب در مأموریت‌های پیچیده دچار شکست می‌شوند.
این شکست‌ها ناشی از اشتباه یک عامل، سوءتفاهم بین عامل‌ها یا انتقال نادرست داده است.
اما تعیین «کدام عامل» و «در کدام مرحله» باعث خطا شده، مانند یافتن سوزن در کومه کاه است.

—

روش دستی موجود: بازخوانی دستی لاگ‌ها

در حال حاضر، توسعه‌دهندگان باید دستی لاگ‌های طولانی را بررسی کنند.
این روش بسیار زمان‌بر و وابسته به تخصص فرد است.
هرچه سیستم پیچیده‌تر باشد، این فرآیند سخت‌تر می‌شود.

—

راه‌حل جدید: نسبت‌دهی خودکار خطا

محققان اولین بار مسئله «نسبت‌دهی خودکار خطا» را به‌صورت رسمی تعریف کرده‌اند.
هدف: شناسایی دقیق «عامل مسبب» و «مرحله بحرانی خطا».
این رویکرد پلی بین ارزیابی و بهبود سیستم است.

—

مجموعه داده Who&When: اولین بنچمارک جهان

این مجموعه داده شامل 127 سیستم چندعاملی است که دچار شکست شده‌اند.
داده‌ها از طریق روش‌های خودکار و دستی تولید شده و واقع‌گرایانه هستند.
هر نمونه شامل سه بخش اصلی است:

بخش	توضیح
Who	عامل مسئول خطا
When	مرحله دقیق وقوع خطا
Why	توضیح طبیعی علت خطا

—

سه روش اولیه برای نسبت‌دهی خودکار

تحقیق سه استراتژی مختلف را برای خودکارسازی این فرآیند طراحی و آزمایش کرد.

روش All-at-Once (همه‌چیز یک‌جا)

LLM لاگ کامل و پرسش کاربر را دریافت می‌کند و یک‌باره «چه کسی» و «کی» خطا کرد را پیش‌بینی می‌کند.
مزیت: پایین‌بودن هزینه محاسباتی.
معایب: در موارد لاگ طولانی دقت کمی دارد.

روش Step-by-Step (مرحله‌به‌مرحله)

LLM لاگ را مرتب سریالی بررسی می‌کند تا به خطا برسد.
مزیت: دقت بالاتر در یافتن «کی».
معایب: هزینه محاسباتی بالا و امکان انباشته شدن خطا.

روش Binary Search (جستجوی دودویی)

فرآیند را به دو نیمه تقسیم می‌کند و به‌صورت بازگشتی منطقه حاوی خطا را می‌یابد.
مزیت: تعادل بین دقت و هزینه.
معایب: هنوز از نظر دقت ضعیف است.

—

نتایج آزمایش‌ها: هنوز راه زیادی داریم

آزمایش‌ها با GPT-4o و سایر مدل‌های پیشرفته انجام شد.
نتایج کلیدی به‌صورت زیر خلاصه می‌شوند:

بهترین روش تنها در 53.5٪ موارد «عامل مسئول» را درست تشخیص داد.
دقت در یافتن «مرحله خطا» تنها 14.2٪ بود — اندک‌تر از حد انتظار.
برخی روش‌ها حتی از حدس تصادفی هم ضعیف‌تر بودند.
حتی مدل‌های پیشرفته مثل OpenAI o1 و DeepSeek R1 هم در این وظیفه ضعیف عمل کردند.

—

چرا این کار اینقدر دشوار است؟

این مسئله تنها نیاز به درک متن ندارد، بلکه نیاز به استدلال عمیق دارد.
عامل‌ها می‌توانند اطلاعات را تحویل دهند، تفسیر کنند یا دچار سوءتفاهم شوند.
LLM باید بتواند زنجیره منطقی خطا را از پایان به ابتدا دنبال کند.

—

راهکارهای بهبود عملکرد

ترکیب روش‌ها (رویکردهای ترکیبی)

ترکیب دو روش کمک می‌کند.
مثلاً ابتدا «All-at-Once» عامل مظنون را پیدا می‌کند، سپس «Step-by-Step» آن عامل را دقیق بررسی می‌کند.
اما این کار هزینه محاسباتی را به‌شکل چشمگیری افزایش می‌دهد.

زنجیره استدلال (Reasoning Prompt)

درخواست از مدل برای «توضیح دلیل تصمیم‌گیری» دقت را بهبود می‌دهد.
استدلال ضمنی کافی نیست؛ نیاز به هدایت صریح دارد.

—

طول متن (Context Length) محدودیت بزرگی است

هرچه لاگ‌ها طولانی‌تر می‌شوند، عملکرد تمام روش‌ها کاهش می‌یابد.
این کاهش در تشخیص «مرحله خطا» بسیار بیشتر است.
مدل‌های فعلی در مدیریت زنجیره بلند دارای محدودیت ذاتی هستند.

—

چشم‌انداز آینده: سیستم‌های مطمئن‌تر و هوشمندتر

این کار اولین گام در راستای قابلیت اطمینان سیستم‌های چندعاملی است.
با ابزارهای نسبت‌دهی خطا، می‌توانیم به‌جای حدس، بهبود سیستم را با داده پیش ببریم.
هدف نهایی: ساخت سیستم‌هایی که نه‌تنها هوشمندند، بلکه قابل اعتماد نیز هستند.