جست‌وجوی صوتی جدید گوگل بدون تبدیل به متن!

خلاصه

گوگل سیستم جست‌وجوی صوتی خود را بازنویسی کرده است. حالا صدای شما مستقیم به معنا تبدیل می‌شود و نیازی به تبدیل گفتار به متن نیست؛ نتیجه سریع‌تر و دقیق‌تر است.

مقدمه

تا حالا وقتی با گوگل صحبت می‌کردید، ابتدا صدای‌تان به متن تبدیل می‌شد و بعد جست‌وجو انجام می‌گرفت. این روش «Cascade ASR» نام داشت و گاهی اشتباه می‌کرد.

تفاوت روش جدید چیست؟

در حالت جدید، یعنی Speech-to-Retrieval یا S2R، صدای شما بدون تبدیل به متن، مستقیم وارد سیستم می‌شود و همان لحظه با معنای اسناد مطابقت داده می‌شود.

دو بخش اصلی S2R

رمزگذار صوتی

این شبکه صدای شما را به اعداد (بردار) تبدیل می‌کند که معنای جمله را نشان می‌دهد؛ مثلاً اگر بگویید «تابلوی جیغ»، بردار شما نزدیک اطلاعات مونک در موزه قرار می‌گیرد.

رمزگذار متنی

هم‌زمان، صفحات وب هم به بردارهایی مشابه تبدیل می‌شوند. اگر بردار صوتی و متنی به هم نزدیک باشند، یعنی معنای مشترکی دارند و در نتایج بالا می‌آیند.

مزیت روش بردار غنی

کلمات دقیق اهمیت ندارند؛ معنا مهم است.
اگر بگویید «تابلوی صورت فریادزا» باز هم همان نتیجه ظاهر می‌شود.
اشتباهات تایپی یا تلفظی دیگر مشکل‌ساز نیست.

مرحله رتبه‌بندی

بعد از یافتن صفحات مشابه، سیگنال‌های دیگر کیفیت و تازگی هم به فرمول اضافه می‌شود تا نتیجه نهایی مرتب شود.

سرعت و دقت عملی

تست‌های گوگل نشان داده S2R از روش قبلی دقیق‌تر است و تقریباً به دقت نسخه بی‌نقص Cascade می‌رسد؛ این سیستم همین حالا هم به زبان‌های مختلف از جمله فارسی فعال است.

چه چیزی برای من تغییر می‌کند؟

جواب سریع‌تر می‌گیرید.
دیگر نگران تلفظ اشتباه یا لهجه نباشید.
نتایج به معنای واقعی نزدیک‌تر است.