خلاصه مقاله
مدل Qwen3-ASR-Flash از تیم Qwen علیبابا، پیشرفتی چشمگیر در حوزه رونویسی گفتار با هوش مصنوعی محسوب میشود. این مدل با بهرهگیری از هوش Qwen3-Omni و آموزش بر روی دهها میلیون ساعت داده گفتار، دقت بالایی را حتی در محیطهای آکوستیکی دشوار و الگوهای زبانی پیچیده ارائه میدهد. Qwen3-ASR-Flash در تستهای انجامشده، بهویژه در زبان چینی و انگلیسی، عملکردی خیرهکننده از خود نشان داده و رقبای بزرگی چون Gemini و GPT4o را پشت سر گذاشته است. قابلیت رونویسی دقیق موسیقی و پشتیبانی از ۱۱ زبان، از جمله زبانها و لهجههای متعدد چینی، از دیگر ویژگیهای برجسته این مدل است که آن را به ابزاری قدرتمند و انعطافپذیر در حوزه رونویسی گفتار تبدیل میکند.
مقدمه
رونویسی گفتار با هوش مصنوعی، عرصهای با رقابت فزاینده است. با معرفی مدل Qwen3-ASR-Flash توسط تیم Qwen علیبابا، این رقابت وارد مرحله جدیدی شده است. این مدل با هدف ارائه دقت بینظیر، حتی در پیچیدهترین شرایط، طراحی شده است.
Qwen3-ASR-Flash: مدلی با دقت بینظیر
Qwen3-ASR-Flash بر پایه هوش قدرتمند Qwen3-Omni ساخته شده است. این مدل با استفاده از مجموعه دادهای عظیم شامل دهها میلیون ساعت داده گفتار آموزش دیده است. هدف اصلی آن، ارائه عملکردی بسیار دقیق، حتی در محیطهای آکوستیکی دشوار و الگوهای زبانی پیچیده است.
رقابتپذیری مدل در برابر رقبا
دادههای عملکردی، که از تستهای انجام شده در آگوست ۲۰۲۵ بهدست آمدهاند، نشاندهنده چشمگیر بودن این مدل هستند.
عملکرد در زبان چینی استاندارد
در یک آزمون عمومی برای زبان چینی استاندارد، Qwen3-ASR-Flash نرخ خطای تنها ۳.۹۷ درصد را به دست آورد. این نتیجه به مراتب بهتر از رقبایی مانند Gemini-2.5-Pro (۸.۹۸٪) و GPT4o-Transcribe (۱۵.۷۲٪) است.
رونویسی لهجههای چینی و زبان انگلیسی
Qwen3-ASR-Flash همچنین در مدیریت لهجههای چینی با نرخ خطای ۳.۴۸ درصد بسیار ماهر عمل کرده است. در زبان انگلیسی، با نرخ ۳.۸۱ درصد، به راحتی Gemini (۷.۶۳٪) و GPT4o (۸.۴۵٪) را شکست داده است.
رونویسی موسیقی: چالش بزرگ و موفقیت چشمگیر
یکی از نقاط قوت اصلی این مدل، توانایی آن در رونویسی دقیق موسیقی است. این حوزه به طور سنتی برای مدلهای رونویسی گفتار بسیار چالشبرانگیز بوده است. Qwen3-ASR-Flash در رونویسی متن ترانهها، نرخ خطای تنها ۴.۵۱ درصد را ثبت کرده است که بسیار بهتر از رقبای آن است.
مقایسه عملکرد در رونویسی موسیقی
مدل | نرخ خطا در رونویسی موسیقی |
---|---|
Qwen3-ASR-Flash | ۴.۵۱% (تست عمومی) |
Qwen3-ASR-Flash | ۹.۹۶% (تستهای داخلی بر روی آهنگهای کامل) |
Gemini-2.5-Pro | ۳۲.۷۹% (تستهای داخلی) |
GPT4o-Transcribe | ۵۸.۵۹% (تستهای داخلی) |
این نتیجه، نشاندهنده پیشرفت چشمگیر Qwen3-ASR-Flash در مقایسه با Gemini-2.5-Pro و GPT4o-Transcribe در رونویسی موسیقی است.
ویژگیهای نوآورانه و قابلیتهای چندزبانه
فراتر از دقت چشمگیر، این مدل ویژگیهای نوآورانهای را برای ابزارهای رونویسی گفتار نسل بعدی به ارمغان میآورد. یکی از مهمترین آنها، قابلیت انعطافپذیر BIASING کانتکسچوال (Contextual Biasing) است.
Contextual Biasing انعطافپذیر
این سیستم به کاربران اجازه میدهد تا متن پسزمینه را در هر فرمتی به مدل ارائه دهند تا نتایج سفارشی شده دریافت کنند. شما میتوانید لیستی ساده از کلمات کلیدی، اسناد کامل یا حتی ترکیبی از هر دو را ارائه دهید. این فرآیند، نیاز به پیشپردازش پیچیده اطلاعات متنی را از بین میبرد.
پشتیبانی از زبانها و لهجههای متعدد
Qwen3-ASR-Flash با پشتیبانی از ۱۱ زبان و لهجههای متعدد، به عنوان یک ابزار رونویسی گفتار جهانی مطرح شده است. پشتیبانی عمیق از زبان چینی، شامل ماندارین و لهجههای اصلی مانند کانتونی، سیچوان، میننان (هاکین) و وو، بسیار جامع است.
برای انگلیسیزبانان، این مدل لهجههای بریتانیایی، آمریکایی و سایر لهجههای منطقهای را مدیریت میکند. فهرست چشمگیر سایر زبانهای پشتیبانی شده شامل فرانسوی، آلمانی، اسپانیایی، ایتالیایی، پرتغالی، روسی، ژاپنی، کرهای و عربی است.
شناسایی زبان و حذف نویز
این مدل میتواند بهطور دقیق زبان مورد استفاده را از میان ۱۱ زبان شناسایی کند. همچنین در رد segments های غیر گفتاری مانند سکوت یا نویز پسزمینه بسیار ماهر است و خروجی تمیزتری را نسبت به ابزارهای رونویسی گفتار هوش مصنوعی گذشته تضمین میکند.