خلاصه
گوگل سیستم جستوجوی صوتی خود را بازنویسی کرده است. حالا صدای شما مستقیم به معنا تبدیل میشود و نیازی به تبدیل گفتار به متن نیست؛ نتیجه سریعتر و دقیقتر است.
مقدمه
تا حالا وقتی با گوگل صحبت میکردید، ابتدا صدایتان به متن تبدیل میشد و بعد جستوجو انجام میگرفت. این روش «Cascade ASR» نام داشت و گاهی اشتباه میکرد.
تفاوت روش جدید چیست؟
در حالت جدید، یعنی Speech-to-Retrieval یا S2R، صدای شما بدون تبدیل به متن، مستقیم وارد سیستم میشود و همان لحظه با معنای اسناد مطابقت داده میشود.
دو بخش اصلی S2R
رمزگذار صوتی
این شبکه صدای شما را به اعداد (بردار) تبدیل میکند که معنای جمله را نشان میدهد؛ مثلاً اگر بگویید «تابلوی جیغ»، بردار شما نزدیک اطلاعات مونک در موزه قرار میگیرد.
رمزگذار متنی
همزمان، صفحات وب هم به بردارهایی مشابه تبدیل میشوند. اگر بردار صوتی و متنی به هم نزدیک باشند، یعنی معنای مشترکی دارند و در نتایج بالا میآیند.
مزیت روش بردار غنی
- کلمات دقیق اهمیت ندارند؛ معنا مهم است.
- اگر بگویید «تابلوی صورت فریادزا» باز هم همان نتیجه ظاهر میشود.
- اشتباهات تایپی یا تلفظی دیگر مشکلساز نیست.
مرحله رتبهبندی
بعد از یافتن صفحات مشابه، سیگنالهای دیگر کیفیت و تازگی هم به فرمول اضافه میشود تا نتیجه نهایی مرتب شود.
سرعت و دقت عملی
تستهای گوگل نشان داده S2R از روش قبلی دقیقتر است و تقریباً به دقت نسخه بینقص Cascade میرسد؛ این سیستم همین حالا هم به زبانهای مختلف از جمله فارسی فعال است.
چه چیزی برای من تغییر میکند؟
- جواب سریعتر میگیرید.
- دیگر نگران تلفظ اشتباه یا لهجه نباشید.
- نتایج به معنای واقعی نزدیکتر است.
