خلاصهی سریع
LangSmith با ارزیابی چندمرحلهای کل گفتوگو را بررسی میکند، نه فقط یک جمله؛ در نتیجه متوجه میشوید کاربر کجا ناامید شده و ربات پشتیبانی کجا گیر کرده است.
چرا یکباره کل مکالمه را بسنجیم؟
ارزیابی تکگفتوگویی فقط یک پیام را میبیند، اما ارزیابی چندمرحلهای کل مسیر را روایت میکند؛ همین باعث میشود بفهمید چرا کاربر بعد از سهبار تکرار سوال هنوز پاسش را نگرفته است.
سه شاخص طلایی
- دستهبندی قصد: سوالاتی که بهظاهر متفاوتاند ولی یک جواب مشترک میخواهند را کنار هم میگذارد.
- نتیجهی کلی گفتوگو: رضایت و احساس کاربر را در پایان مکالمه میسنجد.
- مسیر تعامل: میفهمد کجا ربات درگیر حلقهی تکراری شده یا اطلاعات اشتباه خوانده است.
راهاندازی در چند کلیک
در پنل LangSmith، تیک Multi-turn را بزنید، بازهی idle time (مثلاً ۱۰ دقیقه) را تعیین کنید تا سیستم بداند گفتوگو تمام شده است.
فیلترهای سریع
| حالت ارزیابی | کاربرد |
|---|---|
| همهی پیامها | بررسی دقیق گفتوگوهای پیچیده |
| فقط جفت انسان-ماشین | سنجش دقت پاسخ در هر دور |
| اولین سوال و آخرین جواب | بررسی کیفیت کلی بدون جزئیات |
کاربرد واقعی
با داشبورد LangSmith میبینید کدامیک از feedback keyها مثل «رضایت» یا «تکمیلنشدن کار» بیشترین امتیاز منفی گرفتهاند؛ همان نقطه را اصلاح کنید و هفته بعد دوباره بسنجید تا پیشرفت عددی را جلوی چشمتان ببینید.
نتیجهگیری
ارزیابی چندمرحلهای دیگر آپشن نیست؛ برای هر چتباتی که میخواهد واقعاً مفید باشد یک الزام است. با LangSmith تنها چند دقیقه طول میکشد تا دلیل ناامیدی کاربر را پیدا و با چند تغییر کوچک تجربهاش را لذتبخش کنید.
