خلاصهی مقاله
تیم هونیوان تنسنت هوش مصنوعی جدیدی به نام «هونیوان ویدئو-فولی» ساخته که میتواند برای ویدئوهای تولید شده، صدایی واقعگرایانه و همگام با تصاویر، فراهم کند. این نوآوری مشکل صداگذاری ضعیف در ویدئوهای هوش مصنوعی را با آموزش وسیع روی دادههای با کیفیت، معماری هوشمند برای همگامسازی صدا و تصویر، و تضمین کیفیت صوتی با روش REPA حل کرده است. نتایج نشان میدهد که این هوش مصنوعی، صدای باکیفیتتر و هماهنگتری تولید میکند که میتواند در فیلمسازی و تولید محتوا تحول ایجاد کند.
مقدمه
تا به حال ویدئوهای ساخته شده با هوش مصنوعی را دیدهاید که با وجود تصاویر خیرهکننده، حس سکوت و بیجان بودن به شما میدهند؟ این سکوت ناشی از نبود صداهای طبیعی مانند صدای پای عابر، وزش باد یا برخورد اجسام است که در صنعت فیلمسازی به آن «هنر فولی» میگویند. صداگذاری دقیق و همزمان در ویدئوهای هوش مصنوعی یک چالش بزرگ بوده، اما اکنون با نوآوری جدید تنسنت، این مشکل در حال حل شدن است.
چالش اصلی صداگذاری ویدئو با هوش مصنوعی
یکی از دلایل اصلی ضعف مدلهای هوش مصنوعی در تولید صدای ویدئو، عدم تعادل بین متن و تصویر بود. یعنی هوش مصنوعی بیشتر به توصیفات متنی توجه میکرد تا به صحنههای بصری ویدئو. برای مثال، اگر به هوش مصنوعی ویدئوی ساحلی شلوغ با پرندگان دریایی را میدادید ولی فقط درخواست «صدای امواج اقیانوس» را مطرح میکردید، تنها صدای امواج را میشنیدید و جزئیات دیگر نادیده گرفته میشد.
علاوه بر این، کیفیت صدای تولید شده اغلب پایین بود و منابع کافی از ویدئوهای با کیفیت همراه با صدای مناسب برای آموزش مدلها در دسترس نبود.
راه حل تنسنت: هوش مصنوعی هونیوان ویدئو-فولی
تیم هونیوان تنسنت برای حل این مشکلات، از سه راهکار اصلی استفاده کرده است:
1. آموزش گسترده و با کیفیت
- تنسنت یک کتابخانه عظیم 100,000 ساعته از ویدئو، صدا و توضیحات متنی جمعآوری کرد.
- آنها با یک سیستم خودکار، محتوای بیکیفیت و صداهای فشرده را فیلتر کردند.
- این کار باعث شد که هوش مصنوعی تنها از بهترین و باکیفیتترین دادهها آموزش ببیند.
2. معماری هوشمند هوش مصنوعی
- طراحی جدید هوش مصنوعی کمک میکند تا بر همگامسازی دقیق بصری-صوتی متمرکز شود.
- این سیستم ابتدا ارتباطات بصری-صوتی را برای زمانبندی دقیق بررسی میکند، مانند همگامسازی صدای پا با لحظه تماس کفش با زمین.
- سپس، با استفاده از توصیف متنی، حال و هوای کلی صحنه را درک میکند.
- این رویکرد دوگانه تضمین میکند که جزئیات بصری هیچگاه نادیده گرفته نمیشوند.
3. تضمین کیفیت صدای بالا
- برای اطمینان از کیفیت بالای صدا، از استراتژی آموزشی «همترازی بازنمایی» (REPA) استفاده شد.
- این روش مانند حضور یک مهندس صدای حرفهای در طول آموزش هوش مصنوعی عمل میکند.
- REPA کار هوش مصنوعی را با ویژگیهای یک مدل صوتی حرفهای از پیش آموزشدیده مقایسه میکند تا صدایی شفافتر، غنیتر و باثباتتر تولید شود.
نتایج چشمگیر
هنگامی که تنسنت هوش مصنوعی هونیوان ویدئو-فولی را با مدلهای پیشرو دیگر مقایسه کرد، نتایج صوتی واضح بود. نه تنها معیارهای محاسباتی بهتر بودند، بلکه شنوندگان انسانی نیز بهطور مداوم خروجی آن را با کیفیتتر، هماهنگتر با ویدئو و زمانبندی دقیقتر ارزیابی کردند.
در جدول زیر، نتایج ارزیابی هونیوان ویدئو-فولی در مقایسه با سایر مدلهای هوش مصنوعی دیده میشود:
مدل هوش مصنوعی | امتیاز انسانی (کیفیت کلی) | همگامسازی بصری-صوتی | کیفیت صدا |
---|---|---|---|
هونیوان ویدئو-فولی | بالا | عالی | بسیار خوب |
مدلهای دیگر | متوسط | متوسط | متوسط |
کار تنسنت شکاف بین ویدئوهای هوش مصنوعی بیصدا و تجربه مشاهده فراگیر با صدای با کیفیت را پر میکند. این نوآوری جادوی هنر فولی را به دنیای تولید محتوای خودکار میآورد که میتواند قابلیت قدرتمندی برای فیلمسازان، انیماتورها و تمام تولیدکنندگان محتوا باشد.
دیدگاهتان را بنویسید