خلاصه مقاله
محققان با بررسی ۴۴۵ آزمون رایج درباره مدلهای زبانی بزرگ دریافتند تقریباً همه آنها نقص دارند. در نتیجه، مدیران IT که بدون ارزیابی داخلی تصمیم میگیرند ممکن است روی «دادههای گمراهکننده» میلیاردها تومان هزینه کنند.
مقدمه
سرمایهگذاریهای کلان شرکتها روی AI اغلب بر پایه جدولهای امتیاز عمومی انجام میشود؛ جدولهایی که حالا یک پژوهش علمی نشان داده ساختار استاندارد ندارند و برای تصمیمهای حیاتی قابلاعتماد نیستند.
مسئلهی «اعتبار ساختاری» چیست؟
اعتبار ساختاری یعنی اینکه تست واقعاً همان چیزی را اندازه میگیرد که ادعا دارد؛ اگر این اعتبار پایین باشد، رتبهی بالا میتواند کاملاً بیمعنی یا حتی فریبدهنده باشد.
چرا بنچمارکهای AI در شرکتها شکست میخورند؟
تعاریف مبهم
بیش از ۴۷٪ معیارها اصطلاحاتی مثل «بیآسیببودن» را بدون تعریف واضح میسنجند؛ این تفاوت تعریف باعث میشود مقایسهی امتیاز دو مدل عملاً بیفایده باشد.
فقدان ریاضیات آماری
فقط ۱۶٪ آزمونها برای مقایسهی نتایج از آمار (برآورد خطا یا آزمون معنیداری) استفاده کردهاند؛ بنابراین تفاوت اندک ۲٪ میتواند بهسادگی اثر تصادف باشد.
دادههای لورفته
درست در آزمونهای استدلالی مثل GSM8K، سؤالات معمولاً در دادههای آموزشی آنلاین وجود دارد؛ در این حالت مدل فقط حافظهاش را نشان میدهد نه توان استدلال.
دادههای نماینده نبودن
۲۷٪ بنچمارکها صرفاً برای راحتی از دادههای آماده مثل آزمونهاى انسانی قدیمی استفاده کردهاند؛ این مسائل اغلب اعداد کوچکی دارند که با حالت واقعی در کسبوکار تفاوت دارد.
راهحلهای عملی برای شرکتها
- تعریف دقیق پدیده: قبل از هر ارزیابی، «مفهومی» مثل پاسخ «مفید بهرهور» را برای حوزهی خودتان بنویسید.
- ساخت مجموعهدادهی واقعی: نمونههای خود را از دادههای مشتریان، فرمها و فرآیندهای داخل سازمان بسازید.
- تحلیل خطا: بهجای تنها دیدن نمره، بررسی کنید دقیقاً در چه سناریوهایی مدل میلغزد.
- مدرکسازی اعتبار: برای هر ارزیابی دلیل بنویسید چرا این تست نشاندهندهی عملکرد کسبوکار شماست.
جایگزین چیست؟
بهجای اعتماد به جدولهای عمومی، چارچوب ۵ اصلِ ISO/IEC 42001:2023 را اجرا کنید: پاسخگویی، انصاف، شفافیت، امنیت، و حق تجدیدنظر. همین حالا ارزیابی داخلی را با استانداردهای باز و گفتگوی مستمر با دانشگاه و ناظران آغاز کنید تا نوآوری مسئولانه جایگزین «بازی اعداد» شود.
