نماد سایت گیلان پلاس رسانه هوش مصنوعی و کارآفرینی گیلان

چرا RAG باز هم توهم زایی می‌کند و چطور آن را ارزیابی کنیم؟

خلاصه

حتی با وجود RAG، مدل‌ها ممکن است پاسخی بدهند که سند بازیابی‌شده آن را تأیید نکند. این مقاله نشان می‌دهد چهار نوع توهم RAG چیست و چطور با چارچوب دوستاره‌ای «بازیابی درست» و «پاسخ وفادار» آن را در n8n اندازه‌گیری کنید.

مقدمه

شما فکر می‌کنید با متصل کردن اسناد شرکت به LLM دیگر خبری از اطلاعات اشتباه نیست؛ اما تجربه نشان می‌دهد مدل هنوز هم می‌تواند دلیل‌سازی‌های بی‌پایه کند. بیایید ببینیم چرا این اتفاق می‌افتد و چطور آن را بسنجیم.

چهار نوع توهم در RAG

۱. تضاد آشکار

پاسخ مستقیماً با اطلاعات سند تناقض دارد؛ مثلاً عدد یا نام را اشتباه می‌گوید.

۲. تضاد پنهان

کلمه‌ای جایگزین می‌شود که معنای کلی را عوض می‌کند؛ مثلاً «کاهش موقت» به «سقوط شدید» تبدیل می‌شود.

۳. افزودن بی‌مورد آشکار

مدل اطلاعاتی می‌سازد که در سند نیست؛ مثلاً دلیل افت درآمد را بلوک کانال سوئز می‌نامد درحالی‌که سند چیزی درباره آن نگفته.

۴. افزودن بی‌مورد پنهان

با استنباط شخصی جمله را کامل می‌کند؛ مثلاً می‌گوید «احتمالاً مشتریان ناراضی بوده‌اند» بدون اینکه سند اشاره‌ای به رضایت مشتری کرده باشد.

چارچوب دوستاره ارزیابی RAG

ستون اول: بازیابی درست (Document Relevance)

هر دو معیار را می‌توان با قاضی-LLM یا بدون LLM (شباهت معنایی، Levenshtein) محاسبه کرد.

ستون دوم: پاسخ وفادار (Groundedness)

ارزیابی در n8w بدون کدنویسی

گام ۱: مجموعه تست آماده کنید

چند سؤال واقعی همراه پاسخ طلایی بنویسید و ذخیره کنید.

گام ۲: workflow ارزیابی را اجرا کنید

در n8n دو تمپلیت آماده است:

گام ۳: نتایج را مقایسه کنید

هر اجرا نمره‌ای ارائه می‌دهد؛ با تغییر پرامپت یا پارامترهای بازیابی ببینید چه‌قدر بالا یا پایین می‌رود.

چک‌لیست سریع بهینه‌سازی RAG

خروج از نسخه موبایل