خلاصه
بررسی اتحادیه رادیو و تلویزیونهای اروپا و بیبیسی روی چهار دستیار هوش مصنوعی رایگان نشان داد ۴۵٪ پاسخها حاوی مشکل اساسی و ۸۱٪ دستکم یک خطا بودند. منبعدهی نادرست شایعترین ایراد بود و جیمنی گوگل بدترین عملکرد را داشت.
مقدمه
وقتی از چتباتها درباره آخرین اخبار سوال میکنیم، تصور میکنیم پاسخ دقیق است. اما یک آزمون بزرگ در ۱۸ کشور خلاف این را ثابت کرد.
جزئیات مطالعه
سؤالات و زبانها
۳۰ سؤال مشترک به ۱۴ زبان مطرح شد و ۲۷۰۹ پاسخ ارزیابی گردید. نسخه رایگان چتجیپیتی، کوپیلوت، جیمنی و پرپلکسیتی بررسی شدند.
میزان خطا
- ۴۵٪ پاسخ دستکم یک مشکل اساسی داشت.
- ۸۱٪ پاسخ حاوی نوعی خطا بود.
- ۳۱٪ پاسخ در «منبعدهی» دچار مشکل جدی شدند.
رتبهبندی دستیارها
| دستیار | درصد پاسخهای با مشکل اساسی |
|---|---|
| جیمنی (گوگل) | ۷۶٪ |
| چتجیپیتی | ۳۷٪ |
| کوپیلوت | ۳۲٪ |
| پرپلکسیتی | ۲۸٪ |
نمونه خطاها
پاپ فرانسیس
در اواخر مه ۲۰۲۴ چند دستیار او را همچنان «پاپ فعلی» معرفی کردند، در حالی که او در آوریل درگذشته بود.
قانون ویپ
جیمنی تغییرات قانون یکبارمصرفهای الکترونیکی را وارونه توصیف کرد.
چرا باید نگران باشیم؟
خطای بالا اعتماد عمومی را میخورد و در جوامع دموکراتیک مشارکت را کاهش میدهد. ناشران هم ممکن است محتوایشان نادرست نقل شود.
راهنمای جدید
ابزار «News Integrity in AI Assistants Toolkit» منتشر شده تا شرکتها و رسانهها بتوانند خطاها را شناسایی و کاهش دهند.
نتیجهگیری
تا زمانی که دستیارها دقیق نشدهاند، همیشه اصل منبع را چک کنید. هوش مصنوعی هنوز جایگزین خبرنگار نیست.
