انتشار مدل پیشرفته تولید ویدیوی متن‌باز HunyuanVideo توسط تنسنت

شرکت تنسنت مدل ویدئویی جدیدی به نام HunyuanVideo را به صورت متن باز منتشر کرده است. این مدل پیشرفته قادر به تولید ویدئوهای با کیفیت بالا بر اساس ورودی‌های متنی است. به گزارش تکناک، HunyuanVideo با بهره‌گیری از آخرین دستاوردهای هوش مصنوعی، می‌تواند ویدئوهایی با جزئیات بالا و انیمیشن‌های روان ایجاد کند. انتشار این مدل […]

شرکت تنسنت مدل ویدئویی جدیدی به نام HunyuanVideo را به صورت متن باز منتشر کرده است. این مدل پیشرفته قادر به تولید ویدئوهای با کیفیت بالا بر اساس ورودی‌های متنی است.

به گزارش تکناک، HunyuanVideo با بهره‌گیری از آخرین دستاوردهای هوش مصنوعی، می‌تواند ویدئوهایی با جزئیات بالا و انیمیشن‌های روان ایجاد کند. انتشار این مدل گامی مهم در مسیر دموکراتیزه کردن فناوری تولید ویدیو مبتنی بر هوش مصنوعی محسوب می‌شود.

رقابت در حوزه تولید ویدیو با هوش مصنوعی

به نقل از نئووین، اوایل سال جاری، OpenAI با معرفی مدل Sora نوید تحولاتی در حوزه تولید ویدیو را داد. این مدل توانایی ایجاد صحنه‌های واقعی و خلاقانه بر اساس دستورات متنی را داشت. با این حال، عرضه عمومی آن به تعویق افتاد. در همین زمان، شرکت‌هایی نظیر Runway و Luma مدل‌های خاص خود را روانه بازار کردند و وارد این رقابت شدند.

اما امروز Tencent با معرفی HunyuanVideo گامی فراتر گذاشت و این فناوری را به صورت متن‌باز در دسترس همگان قرار داد. این مدل، اولین نمونه مهم در زمینه تولید ویدیوی متن‌باز است که کدهای استنتاج و وزن‌های مدل آن به طور عمومی منتشر شده است.

ویژگی‌های کلیدی HunyuanVideo

این مدل دارای بیش از ۱۳ میلیارد پارامتر است که آن را به بزرگ‌ترین مدل متن‌باز در حوزه تولید ویدیو تبدیل کرده است. HunyuanVideo نه‌تنها ویدیوهایی با کیفیت بصری بالا تولید می‌کند، بلکه از تنوع حرکتی، تطابق دقیق متن با ویدیو و پایداری در فرآیند تولید برخوردار است. این مدل از یک چارچوب پیشرفته بهره می‌برد که تنظیم داده‌ها، آموزش مشترک مدل‌های تصویر و ویدیو و زیرساخت‌های کارآمد را در یک سیستم واحد یکپارچه می‌کند.

طراحی نوآورانه و عملکرد بی‌نظیر

Tencent برای بهبود کیفیت ویدیو از طراحی Transformer و مکانیزم Full Attention استفاده کرده است. این طراحی با بهره‌گیری از مدل هیبریدی “جریان دوگانه به جریان تک” برای تولید ویدیو، به مدل اجازه می‌دهد توکن‌های متن و ویدیو را ابتدا به‌صورت جداگانه پردازش و سپس برای ترکیب اطلاعات بصری و معنایی ادغام کند. این رویکرد، تعاملات پیچیده بین داده‌های تصویری و متنی را به‌خوبی شبیه‌سازی می‌کند و عملکرد کلی مدل را بهبود می‌بخشد.

نتایج ارزیابی حرفه‌ای

مدل HunyuanVideo از طریق ارزیابی‌های انسانی حرفه‌ای مورد آزمایش قرار گرفته است. نتایج نشان می‌دهد که این مدل از تمامی مدل‌های پیشرفته بسته پیشرو، نظیر Runway Gen-3 و Luma 1.6، عملکرد بهتری داشته و کیفیت ویدیوهای تولیدی آن بالاتر است.

تأثیر بر صنعت هوش مصنوعی

انتشار متن‌باز HunyuanVideo فرصتی استثنایی برای محققان و توسعه‌دهندگان در سراسر جهان فراهم می‌کند تا از این فناوری استفاده کرده و آن را ارتقا دهند. Tencent با این اقدام، نه‌تنها انقلابی در اکوسیستم تولید ویدیوی هوش مصنوعی ایجاد کرده، بلکه دسترسی عموم به این فناوری پیشرفته را نیز فراهم ساخته است.

برای اطلاعات بیشتر درباره مدل HunyuanVideo و دسترسی به کدها و وزن‌های آن، به منابع رسمی Tencent مراجعه کنید.

منبع: تکنک

ارسال : jamnews

برچسب ها

این مطلب بدون برچسب می باشد.

آیفون ۱۷ ایر چقدر نازک‌تر خواهد بود؟

غزال زیاری: اخیراً تصاویر جدیدی منتشر شده که در آن مدل آیفون ۱۷ ایر به نمایش در آمده است. در یکی از این تصاویر، با قرار گرفتن این مدل در کنار آیفون ۱۶ پرومکس ، مشخص است که جدیدترین مدل آیفون چقدر باریک‌تر خواهد بود. البته با دیدن این تصویر باید در نظر داشته باشید […]

همکاری ستاره‌شناس ایرانی با ناسا در پروژه مشترک عکاسی زمین و فضا /عکس

به گزارش خبرگزاری خبرآنلاین، بابک تفرشی، ستاره‌شناس آماتور ایرانی و مدیر پروژه عکاسی «جهان در شب» (TWAN)، در صفحه اینستاگرام خود اعلام کرد که امشب یک خسوف کامل از بخش‌های مختلف جهان قابل مشاهده خواهد بود. این پدیده نجومی حوالی نیمه‌شب در قاره آمریکا، هنگام طلوع خورشید در غرب اروپا و غرب آفریقا، و همزمان با […]

کوهنوردی ساده که تبدیل به کاشف گنجینه‌ای تاریخی شد!

به گزارش خبرگزاری خبرآنلاین، یک کوهنورد در جمهوری چک به‌صورت تصادفی گنجینه‌ای شامل بیش از ۲۱۵۰ سکه نقره‌ای قرون‌وسطایی را کشف کرد. این سکه‌ها که در نزدیکی شهر کوتنا هورا در یک کوزه سفالی دفن شده بودند، یکی از بزرگ‌ترین اکتشافات تاریخی دهه اخیر محسوب می‌شوند. پژوهشگران معتقدند این سکه‌ها در قرن دوازدهم و در دوران […]

از توقف مهم‌ترین پروژه دانشجویی دانشگاه تهران تا تاثیر سیگار بر ژنتیک نوزادان

توقف پروژه برج سه قلوی دانشگاه تهران و هشدار محققان در خصوص تاثیر سیگار کشیدن مادران باردار بر ژنتیک نوزادان از جمله اخبار مهم امروز دنیای علم، فناوری و دانشگاه‌ها بود که در این گزارش به اختصار به آنها پرداخته است. به گزارش ایسنا، دنیای آموزش، علم و فناوری ایران و جهان امروز پنج شنبه […]

لینک کوتاه

لـیـنـک زیـر را کـپـی کـنـیـد !

https://jam.tamasnews.ir/?p=8864

رقابت در حوزه تولید ویدیو با هوش مصنوعی

ویژگی‌های کلیدی HunyuanVideo

طراحی نوآورانه و عملکرد بی‌نظیر

نتایج ارزیابی حرفه‌ای

تأثیر بر صنعت هوش مصنوعی

نوشته های مشابه

ارسال دیدگاه

ویژه خبری

سیـاسی

اقتـصادی

مذهـبی

فرهنگـی

اجـتماعی