خلاصه
کیوان ۳ اومنی یک مدل متنباز است که همزمان متن، تصویر، صدا و ویدیو را درک میکند و به ۱۱۹ زبان پاسخ میدهد. با معماری «تینکر-تاکر» و تاخیر کمتر از نیمثانیه، میتواند ۳۰ دقیقه ویدیو را تحلیل کند یا مکالمهای چندزبانه را ترانسکریپت و ترجمه کند.
مقدمهای سریع
دیگر لازم نیست برای هر رسانهای یک هوش جدا بخرید. کیوان ۳ اومنی با یک API، همه کارها را یکجا انجام میدهد؛ از تبدیل صدای جلسه به متن گرفته تا تحلیل ویدیوی آموزشی.
ویژگیهای کلیدی
- پردازش چهاررسانهای: متن، تصویر، صدا و ویدیو
- پشتیبانی از ۱۱۹ زبان نوشتاری و ۱۹ زبان گفتاری
- پاسخدهی کمتر از ۲۱۱ میلیثانیه برای فقط صدا
- پنجره حافظه ۱۰۰ هزار توکن برای مکالمه طولانی
معماری تینکر-تاکر چیست؟
بخش «تینکر» استدلال میکند، بخش «تاکر» پاسخ تولید میکند. این جداسازی باعث میشود مدل در کارهای پیچیده دقت بیشتری داشته باشد و در عین حال سریعتر پاسخ دهد.
سریعترین حالت استفاده
- صوت به صوت: ۲۱۱ ms
- صوت+ویدیو: ۵۰۰ ms
- ترانسکریپت زنده جلسه ۳۰ دقیقهای بدون افت کیفیت
کاربردهای عملی
آموزش آنلاین
ویدیوی کلاس را همزمان زیرنویس کنید، نکات مهم را جدا کنید و تمرین بسازید.
خدمات مشتری
تماس صوتی مشتری را دریافت، زبانش را تشخیص و پاسخ متناسب بدهید.
رسانه و خبر
گزارش ویدیویی ۳۰ دقیقهای را خلاصه و به چند زبان منتشر کنید.
منابع توسعهدهنده
- کتابخانه GitHub با نمونهکد فارسی
- راهنمای گامبهگام OCR و استخراج فرمول ریاضی
- اسکریپت آماده تبدیل صدای جلسه به متن با زمانبندی
محدودیتهایی که باید بدانید
- گاهی زبان پاسخ عوض یا اشیاء را اشتباه نام میبرد.
- چت ویدیویی بیشتر از ۱۰ دقیقه پشتیبانی نمیشود.
- برای ویدیوی بالای ۳۰ دقیقه نیاز به تقسیم فایل دارید.
جمعبندی
کیوان ۳ اومنی مرز بین مدلهای انحصاری و متنباز را از بین برده. اگر به دنبال راهحلی یکپارچه برای چندزبانه و چندرسانهای بودن هستید، این مدل هماکنون رایگان قابل آزمایش است و فقط یک خط کد نیاز دارد.
