خلاصه
ERNIE-4.5-VL-28B-A3B-Thinking یک مدل چندحسی سبک از بایدو است که فقط ۳ میلیارد پارامتر فعال دارد و در آزمونهای ChartQA، MathVista و VLMs Are Blind از GPT-۵ و جمینی ۲.۵ پیشی گرفته؛ هدفش تحلیل تصاویر صنعتی، ویدئوهای امنیتی و دیاگرامهای فنی است تا شرکتها بتوانند بدون هزینهی فراوان، بینش بگیرند و فرآیندها را خودکار کنند.
مدل با لایسنس Apache ۲.۰ عرضه شده و ERNIEKit امکان فاینتون روی دادهی اختصاصی را میدهد، ولی برای استقرار تککارت نیاز به ۸۰ گیگابایت حافظهی GPU دارد.
مقدمه
بسیاری از سازمانها اطلاعات ارزشمندشان را در قالب نقشهی مهندسی، ویدئوی خط تولید یا عکس اشعهای نگه میدارند و متنمحورها به این دادهها دست نمییابند؛ ERNIE ۴.۵ قرار است همین شکاف را پر کند.
ویژگیهای کلیدی مدل
۱. معماری سبک و کمهزینه
- ۲۸ میلیارد پارامتر کلّی دارد ولی فقط ۳ میلیارد آنها در زمان اجرا فعال میشود.
- مصرف انرژی و هزینهی استنتاج پایینتر میشود و پروژههای بزرگمقیاس متوقف نمیمانند.
۲. چندحسی بودن واقعی
متن، تصویر و ویدئو را همزمان میفهمد؛ میتواند یک نقشهی مدار پل را با قوانین اهم و کیرشدف حل کند یا بهترین ساعت اوج مراجعه را از نمودار استخراج کند.
۳. توانایی خودکارسازی
موقعیت لباسرسمیها در تصویر را به JSON برمیگرداند، روی متنهای ریز زوم میکند و اگر شیئی ناشناس ببیند تصویر را سرچ میکند تا آن را شناسایی کند.
عملکرد در بنچمارکها
| آزمون | ERNIE ۴.۵ | Gemini ۲.۵ Pro | GPT-۵ High |
|---|---|---|---|
| ChartQA | ۸۷٫۱ | ۷۶٫۳ | ۷۸٫۲ |
| MathVista | ۸۲٫۵ | ۸۲٫۳ | ۸۱٫۳ |
| VLMs Are Blind | ۷۷٫۳ | ۷۶٫۵ | ۶۹٫۶ |
کاربرد عملی در شرکتها
۱. بازرسی بصری خط تولید
مدل نقصها را شناسایی میکند و در قالب مختصات یا کد JSON تحویل میدهد تا سیستم PLC بتواند مستقیماً اقدام کند.
۲. جستوجوی هوشمند در آرشیو ویدئو
زیرنویسهای روی تصویر را با timestamps جفت میکند؛ کاربر میتواند بگوید «صحنهای روی پل» و مدل همان بخش را پیدا میکند.
۳. کمک به R&D
طراحی مهندسی را میخواند و برای تازهکارها توضیح میدهد یا خطای احتمالی را پیش از ساخت پیشبینی میکند.
نیازمندیهای سختافزاری
- حداقل یک GPU با ۸۰ گیگابایت حافظه برای استقرار تککارت.
- پشتیبانی از vLLM، FastDeploy و ترنسفورمرز.
- ERNIEKit امکان فاینتون روی دادهی اختصاصی میدهد.
نتیجهگیری
ERNIE ۴.۵ نشان میدهد هوش مصنوعی چندحسی دیگر فقط یک نمایش نیست؛ با عملکرد بهتر در بنچمارکهای تصویری، مصرف کمتر و لایسنس تجاری آمادهی کمک به صنعت است. سازمانهایی که زیرساخت سنگین GPU دارند میتوانند همین امروز از دادههای دیداری خود بهرهبرداری کنند و فرآیندهای کلیدیشان را خودکار کنند.
