انقلاب در رونویسی گفتار: مدل Qwen3-ASR-Flash و برتری آن

خلاصه مقاله

مدل Qwen3-ASR-Flash از تیم Qwen علی‌بابا، پیشرفتی چشمگیر در حوزه رونویسی گفتار با هوش مصنوعی محسوب می‌شود. این مدل با بهره‌گیری از هوش Qwen3-Omni و آموزش بر روی ده‌ها میلیون ساعت داده گفتار، دقت بالایی را حتی در محیط‌های آکوستیکی دشوار و الگوهای زبانی پیچیده ارائه می‌دهد. Qwen3-ASR-Flash در تست‌های انجام‌شده، به‌ویژه در زبان چینی و انگلیسی، عملکردی خیره‌کننده از خود نشان داده و رقبای بزرگی چون Gemini و GPT4o را پشت سر گذاشته است. قابلیت رونویسی دقیق موسیقی و پشتیبانی از ۱۱ زبان، از جمله زبان‌ها و لهجه‌های متعدد چینی، از دیگر ویژگی‌های برجسته این مدل است که آن را به ابزاری قدرتمند و انعطاف‌پذیر در حوزه رونویسی گفتار تبدیل می‌کند.

مقدمه

رونویسی گفتار با هوش مصنوعی، عرصه‌ای با رقابت فزاینده است. با معرفی مدل Qwen3-ASR-Flash توسط تیم Qwen علی‌بابا، این رقابت وارد مرحله جدیدی شده است. این مدل با هدف ارائه دقت بی‌نظیر، حتی در پیچیده‌ترین شرایط، طراحی شده است.

Qwen3-ASR-Flash: مدلی با دقت بی‌نظیر

Qwen3-ASR-Flash بر پایه هوش قدرتمند Qwen3-Omni ساخته شده است. این مدل با استفاده از مجموعه داده‌ای عظیم شامل ده‌ها میلیون ساعت داده گفتار آموزش دیده است. هدف اصلی آن، ارائه عملکردی بسیار دقیق، حتی در محیط‌های آکوستیکی دشوار و الگوهای زبانی پیچیده است.

رقابت‌پذیری مدل در برابر رقبا

داده‌های عملکردی، که از تست‌های انجام شده در آگوست ۲۰۲۵ به‌دست آمده‌اند، نشان‌دهنده چشمگیر بودن این مدل هستند.

عملکرد در زبان چینی استاندارد

در یک آزمون عمومی برای زبان چینی استاندارد، Qwen3-ASR-Flash نرخ خطای تنها ۳.۹۷ درصد را به دست آورد. این نتیجه به مراتب بهتر از رقبایی مانند Gemini-2.5-Pro (۸.۹۸٪) و GPT4o-Transcribe (۱۵.۷۲٪) است.

رونویسی لهجه‌های چینی و زبان انگلیسی

Qwen3-ASR-Flash همچنین در مدیریت لهجه‌های چینی با نرخ خطای ۳.۴۸ درصد بسیار ماهر عمل کرده است. در زبان انگلیسی، با نرخ ۳.۸۱ درصد، به راحتی Gemini (۷.۶۳٪) و GPT4o (۸.۴۵٪) را شکست داده است.

رونویسی موسیقی: چالش بزرگ و موفقیت چشمگیر

یکی از نقاط قوت اصلی این مدل، توانایی آن در رونویسی دقیق موسیقی است. این حوزه به طور سنتی برای مدل‌های رونویسی گفتار بسیار چالش‌برانگیز بوده است. Qwen3-ASR-Flash در رونویسی متن ترانه‌ها، نرخ خطای تنها ۴.۵۱ درصد را ثبت کرده است که بسیار بهتر از رقبای آن است.

مقایسه عملکرد در رونویسی موسیقی

مدلنرخ خطا در رونویسی موسیقی
Qwen3-ASR-Flash۴.۵۱% (تست عمومی)
Qwen3-ASR-Flash۹.۹۶% (تست‌های داخلی بر روی آهنگ‌های کامل)
Gemini-2.5-Pro۳۲.۷۹% (تست‌های داخلی)
GPT4o-Transcribe۵۸.۵۹% (تست‌های داخلی)

این نتیجه، نشان‌دهنده پیشرفت چشمگیر Qwen3-ASR-Flash در مقایسه با Gemini-2.5-Pro و GPT4o-Transcribe در رونویسی موسیقی است.

ویژگی‌های نوآورانه و قابلیت‌های چندزبانه

فراتر از دقت چشمگیر، این مدل ویژگی‌های نوآورانه‌ای را برای ابزارهای رونویسی گفتار نسل بعدی به ارمغان می‌آورد. یکی از مهم‌ترین آن‌ها، قابلیت انعطاف‌پذیر BIASING کانتکسچوال (Contextual Biasing) است.

Contextual Biasing انعطاف‌پذیر

این سیستم به کاربران اجازه می‌دهد تا متن پس‌زمینه را در هر فرمتی به مدل ارائه دهند تا نتایج سفارشی شده دریافت کنند. شما می‌توانید لیستی ساده از کلمات کلیدی، اسناد کامل یا حتی ترکیبی از هر دو را ارائه دهید. این فرآیند، نیاز به پیش‌پردازش پیچیده اطلاعات متنی را از بین می‌برد.

پشتیبانی از زبان‌ها و لهجه‌های متعدد

Qwen3-ASR-Flash با پشتیبانی از ۱۱ زبان و لهجه‌های متعدد، به عنوان یک ابزار رونویسی گفتار جهانی مطرح شده است. پشتیبانی عمیق از زبان چینی، شامل ماندارین و لهجه‌های اصلی مانند کانتونی، سیچوان، مین‌نان (هاکین) و وو، بسیار جامع است.

برای انگلیسی‌زبانان، این مدل لهجه‌های بریتانیایی، آمریکایی و سایر لهجه‌های منطقه‌ای را مدیریت می‌کند. فهرست چشمگیر سایر زبان‌های پشتیبانی شده شامل فرانسوی، آلمانی، اسپانیایی، ایتالیایی، پرتغالی، روسی، ژاپنی، کره‌ای و عربی است.

شناسایی زبان و حذف نویز

این مدل می‌تواند به‌طور دقیق زبان مورد استفاده را از میان ۱۱ زبان شناسایی کند. همچنین در رد segments های غیر گفتاری مانند سکوت یا نویز پس‌زمینه بسیار ماهر است و خروجی تمیزتری را نسبت به ابزارهای رونویسی گفتار هوش مصنوعی گذشته تضمین می‌کند.

اشتراک گذاری

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *