هوش مصنوعی تنسنت: پایان سکوت ویدئوهای ساخته شده با هوش مصنوعی با صداگذاری واقعی

خلاصه‌ی مقاله

تیم هونیوان تنسنت هوش مصنوعی جدیدی به نام «هونیوان ویدئو-فولی» ساخته که می‌تواند برای ویدئوهای تولید شده، صدایی واقع‌گرایانه و همگام با تصاویر، فراهم کند. این نوآوری مشکل صداگذاری ضعیف در ویدئوهای هوش مصنوعی را با آموزش وسیع روی داده‌های با کیفیت، معماری هوشمند برای همگام‌سازی صدا و تصویر، و تضمین کیفیت صوتی با روش REPA حل کرده است. نتایج نشان می‌دهد که این هوش مصنوعی، صدای باکیفیت‌تر و هماهنگ‌تری تولید می‌کند که می‌تواند در فیلم‌سازی و تولید محتوا تحول ایجاد کند.

مقدمه

تا به حال ویدئوهای ساخته شده با هوش مصنوعی را دیده‌اید که با وجود تصاویر خیره‌کننده، حس سکوت و بی‌جان بودن به شما می‌دهند؟ این سکوت ناشی از نبود صداهای طبیعی مانند صدای پای عابر، وزش باد یا برخورد اجسام است که در صنعت فیلم‌سازی به آن «هنر فولی» می‌گویند. صداگذاری دقیق و هم‌زمان در ویدئوهای هوش مصنوعی یک چالش بزرگ بوده، اما اکنون با نوآوری جدید تنسنت، این مشکل در حال حل شدن است.

چالش اصلی صداگذاری ویدئو با هوش مصنوعی

یکی از دلایل اصلی ضعف مدل‌های هوش مصنوعی در تولید صدای ویدئو، عدم تعادل بین متن و تصویر بود. یعنی هوش مصنوعی بیشتر به توصیفات متنی توجه می‌کرد تا به صحنه‌های بصری ویدئو. برای مثال، اگر به هوش مصنوعی ویدئوی ساحلی شلوغ با پرندگان دریایی را می‌دادید ولی فقط درخواست «صدای امواج اقیانوس» را مطرح می‌کردید، تنها صدای امواج را می‌شنیدید و جزئیات دیگر نادیده گرفته می‌شد.

علاوه بر این، کیفیت صدای تولید شده اغلب پایین بود و منابع کافی از ویدئوهای با کیفیت همراه با صدای مناسب برای آموزش مدل‌ها در دسترس نبود.

راه حل تنسنت: هوش مصنوعی هونیوان ویدئو-فولی

تیم هونیوان تنسنت برای حل این مشکلات، از سه راهکار اصلی استفاده کرده است:

1. آموزش گسترده و با کیفیت

  • تنسنت یک کتابخانه عظیم 100,000 ساعته از ویدئو، صدا و توضیحات متنی جمع‌آوری کرد.
  • آن‌ها با یک سیستم خودکار، محتوای بی‌کیفیت و صداهای فشرده را فیلتر کردند.
  • این کار باعث شد که هوش مصنوعی تنها از بهترین و باکیفیت‌ترین داده‌ها آموزش ببیند.

2. معماری هوشمند هوش مصنوعی

  • طراحی جدید هوش مصنوعی کمک می‌کند تا بر همگام‌سازی دقیق بصری-صوتی متمرکز شود.
  • این سیستم ابتدا ارتباطات بصری-صوتی را برای زمان‌بندی دقیق بررسی می‌کند، مانند همگام‌سازی صدای پا با لحظه تماس کفش با زمین.
  • سپس، با استفاده از توصیف متنی، حال و هوای کلی صحنه را درک می‌کند.
  • این رویکرد دوگانه تضمین می‌کند که جزئیات بصری هیچگاه نادیده گرفته نمی‌شوند.

3. تضمین کیفیت صدای بالا

  • برای اطمینان از کیفیت بالای صدا، از استراتژی آموزشی «همترازی بازنمایی» (REPA) استفاده شد.
  • این روش مانند حضور یک مهندس صدای حرفه‌ای در طول آموزش هوش مصنوعی عمل می‌کند.
  • REPA کار هوش مصنوعی را با ویژگی‌های یک مدل صوتی حرفه‌ای از پیش آموزش‌دیده مقایسه می‌کند تا صدایی شفاف‌تر، غنی‌تر و باثبات‌تر تولید شود.

نتایج چشمگیر

هنگامی که تنسنت هوش مصنوعی هونیوان ویدئو-فولی را با مدل‌های پیشرو دیگر مقایسه کرد، نتایج صوتی واضح بود. نه تنها معیارهای محاسباتی بهتر بودند، بلکه شنوندگان انسانی نیز به‌طور مداوم خروجی آن را با کیفیت‌تر، هماهنگ‌تر با ویدئو و زمان‌بندی دقیق‌تر ارزیابی کردند.

در جدول زیر، نتایج ارزیابی هونیوان ویدئو-فولی در مقایسه با سایر مدل‌های هوش مصنوعی دیده می‌شود:

مدل هوش مصنوعیامتیاز انسانی (کیفیت کلی)همگام‌سازی بصری-صوتیکیفیت صدا
هونیوان ویدئو-فولیبالاعالیبسیار خوب
مدل‌های دیگرمتوسطمتوسطمتوسط

کار تنسنت شکاف بین ویدئوهای هوش مصنوعی بی‌صدا و تجربه مشاهده فراگیر با صدای با کیفیت را پر می‌کند. این نوآوری جادوی هنر فولی را به دنیای تولید محتوای خودکار می‌آورد که می‌تواند قابلیت قدرتمندی برای فیلم‌سازان، انیماتورها و تمام تولیدکنندگان محتوا باشد.

اشتراک گذاری

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *