نماد سایت گیلان پلاس رسانه هوش مصنوعی و کارآفرینی گیلان

هوش مصنوعی تنسنت: پایان سکوت ویدئوهای ساخته شده با هوش مصنوعی با صداگذاری واقعی

خلاصه‌ی مقاله

تیم هونیوان تنسنت هوش مصنوعی جدیدی به نام «هونیوان ویدئو-فولی» ساخته که می‌تواند برای ویدئوهای تولید شده، صدایی واقع‌گرایانه و همگام با تصاویر، فراهم کند. این نوآوری مشکل صداگذاری ضعیف در ویدئوهای هوش مصنوعی را با آموزش وسیع روی داده‌های با کیفیت، معماری هوشمند برای همگام‌سازی صدا و تصویر، و تضمین کیفیت صوتی با روش REPA حل کرده است. نتایج نشان می‌دهد که این هوش مصنوعی، صدای باکیفیت‌تر و هماهنگ‌تری تولید می‌کند که می‌تواند در فیلم‌سازی و تولید محتوا تحول ایجاد کند.

مقدمه

تا به حال ویدئوهای ساخته شده با هوش مصنوعی را دیده‌اید که با وجود تصاویر خیره‌کننده، حس سکوت و بی‌جان بودن به شما می‌دهند؟ این سکوت ناشی از نبود صداهای طبیعی مانند صدای پای عابر، وزش باد یا برخورد اجسام است که در صنعت فیلم‌سازی به آن «هنر فولی» می‌گویند. صداگذاری دقیق و هم‌زمان در ویدئوهای هوش مصنوعی یک چالش بزرگ بوده، اما اکنون با نوآوری جدید تنسنت، این مشکل در حال حل شدن است.

چالش اصلی صداگذاری ویدئو با هوش مصنوعی

یکی از دلایل اصلی ضعف مدل‌های هوش مصنوعی در تولید صدای ویدئو، عدم تعادل بین متن و تصویر بود. یعنی هوش مصنوعی بیشتر به توصیفات متنی توجه می‌کرد تا به صحنه‌های بصری ویدئو. برای مثال، اگر به هوش مصنوعی ویدئوی ساحلی شلوغ با پرندگان دریایی را می‌دادید ولی فقط درخواست «صدای امواج اقیانوس» را مطرح می‌کردید، تنها صدای امواج را می‌شنیدید و جزئیات دیگر نادیده گرفته می‌شد.

علاوه بر این، کیفیت صدای تولید شده اغلب پایین بود و منابع کافی از ویدئوهای با کیفیت همراه با صدای مناسب برای آموزش مدل‌ها در دسترس نبود.

راه حل تنسنت: هوش مصنوعی هونیوان ویدئو-فولی

تیم هونیوان تنسنت برای حل این مشکلات، از سه راهکار اصلی استفاده کرده است:

1. آموزش گسترده و با کیفیت

2. معماری هوشمند هوش مصنوعی

3. تضمین کیفیت صدای بالا

نتایج چشمگیر

هنگامی که تنسنت هوش مصنوعی هونیوان ویدئو-فولی را با مدل‌های پیشرو دیگر مقایسه کرد، نتایج صوتی واضح بود. نه تنها معیارهای محاسباتی بهتر بودند، بلکه شنوندگان انسانی نیز به‌طور مداوم خروجی آن را با کیفیت‌تر، هماهنگ‌تر با ویدئو و زمان‌بندی دقیق‌تر ارزیابی کردند.

در جدول زیر، نتایج ارزیابی هونیوان ویدئو-فولی در مقایسه با سایر مدل‌های هوش مصنوعی دیده می‌شود:

مدل هوش مصنوعی امتیاز انسانی (کیفیت کلی) همگام‌سازی بصری-صوتی کیفیت صدا
هونیوان ویدئو-فولی بالا عالی بسیار خوب
مدل‌های دیگر متوسط متوسط متوسط

کار تنسنت شکاف بین ویدئوهای هوش مصنوعی بی‌صدا و تجربه مشاهده فراگیر با صدای با کیفیت را پر می‌کند. این نوآوری جادوی هنر فولی را به دنیای تولید محتوای خودکار می‌آورد که می‌تواند قابلیت قدرتمندی برای فیلم‌سازان، انیماتورها و تمام تولیدکنندگان محتوا باشد.

خروج از نسخه موبایل