ERNIE 4.5 Baidu؛ هوش مصنوعی چشم‌باز برای صنعت و پایپ پروژه‌های پلاس

خلاصه

ERNIE-4.5-VL-28B-A3B-Thinking یک مدل چند‌حسی سبک از بایدو است که فقط ۳ میلیارد پارامتر فعال دارد و در آزمون‌های ChartQA، MathVista و VLMs Are Blind از GPT-۵ و جمینی ۲.۵ پیشی گرفته؛ هدفش تحلیل تصاویر صنعتی، ویدئوهای امنیتی و دیاگرام‌های فنی است تا شرکت‌ها بتوانند بدون هزینه‌ی فراوان، بینش بگیرند و فرآیندها را خودکار کنند.

مدل با لایسنس Apache ۲.۰ عرضه شده و ERNIEKit امکان فاین‌تون روی داده‌ی اختصاصی را می‌دهد، ولی برای استقرار تک‌کارت نیاز به ۸۰ گیگابایت حافظه‌ی GPU دارد.

مقدمه

بسیاری از سازمان‌ها اطلاعات ارزشمندشان را در قالب نقشه‌ی مهندسی، ویدئوی خط تولید یا عکس‌ اشعه‌ای نگه می‌دارند و متن‌محورها به این داده‌ها دست نمی‌یابند؛ ERNIE ۴.۵ قرار است همین شکاف را پر کند.

ویژگی‌های کلیدی مدل

۱. معماری سبک و کم‌هزینه

۲۸ میلیارد پارامتر کلّی دارد ولی فقط ۳ میلیارد آن‌ها در زمان اجرا فعال می‌شود.
مصرف انرژی و هزینه‌ی استنتاج پایین‌تر می‌شود و پروژه‌های بزرگ‌مقیاس متوقف نمی‌مانند.

۲. چند‌حسی بودن واقعی

متن، تصویر و ویدئو را هم‌زمان می‌فهمد؛ می‌تواند یک نقشه‌ی مدار پل را با قوانین اهم و کیرشدف حل کند یا بهترین ساعت اوج مراجعه را از نمودار استخراج کند.

۳. توانایی خودکارسازی

موقعیت لباس‌رسمی‌ها در تصویر را به JSON برمی‌گرداند، روی متن‌های ریز زوم می‌کند و اگر شیئی ناشناس ببیند تصویر را سرچ می‌کند تا آن را شناسایی کند.

عملکرد در بنچ‌مارک‌ها

آزمون	ERNIE ۴.۵	Gemini ۲.۵ Pro	GPT-۵ High
ChartQA	۸۷٫۱	۷۶٫۳	۷۸٫۲
MathVista	۸۲٫۵	۸۲٫۳	۸۱٫۳
VLMs Are Blind	۷۷٫۳	۷۶٫۵	۶۹٫۶

کاربرد عملی در شرکت‌ها

۱. بازرسی بصری خط تولید

مدل نقص‌ها را شناسایی می‌کند و در قالب مختصات یا کد JSON تحویل می‌دهد تا سیستم PLC بتواند مستقیماً اقدام کند.

۲. جست‌وجوی هوشمند در آرشیو ویدئو

زیرنویس‌های روی تصویر را با timestamps جفت می‌کند؛ کاربر می‌تواند بگوید «صحنه‌ای روی پل» و مدل همان بخش را پیدا می‌کند.

۳. کمک به R&D

طراحی مهندسی را می‌خواند و برای تازه‌کارها توضیح می‌دهد یا خطای احتمالی را پیش از ساخت پیش‌بینی می‌کند.

نیازمندی‌های سخت‌افزاری

حداقل یک GPU با ۸۰ گیگابایت حافظه برای استقرار تک‌کارت.
پشتیبانی از vLLM، FastDeploy و ترنسفورمرز.
ERNIEKit امکان فاین‌تون روی داده‌ی اختصاصی می‌دهد.

نتیجه‌گیری

ERNIE ۴.۵ نشان می‌دهد هوش مصنوعی چند‌حسی دیگر فقط یک نمایش نیست؛ با عملکرد بهتر در بنچ‌مارک‌های تصویری، مصرف کم‌تر و لایسنس تجاری آماده‌ی کمک به صنعت است. سازمان‌هایی که زیرساخت سنگین GPU دارند می‌توانند همین امروز از داده‌های دیداری خود بهره‌برداری کنند و فرآیندهای کلیدی‌شان را خودکار کنند.