نام کاربری یا نشانی ایمیل
رمز عبور
مرا به خاطر بسپار
شرکت تنسنت مدل ویدئویی جدیدی به نام HunyuanVideo را به صورت متن باز منتشر کرده است. این مدل پیشرفته قادر به تولید ویدئوهای با کیفیت بالا بر اساس ورودیهای متنی است. به گزارش تکناک، HunyuanVideo با بهرهگیری از آخرین دستاوردهای هوش مصنوعی، میتواند ویدئوهایی با جزئیات بالا و انیمیشنهای روان ایجاد کند. انتشار این مدل […]
شرکت تنسنت مدل ویدئویی جدیدی به نام HunyuanVideo را به صورت متن باز منتشر کرده است. این مدل پیشرفته قادر به تولید ویدئوهای با کیفیت بالا بر اساس ورودیهای متنی است.
به گزارش تکناک، HunyuanVideo با بهرهگیری از آخرین دستاوردهای هوش مصنوعی، میتواند ویدئوهایی با جزئیات بالا و انیمیشنهای روان ایجاد کند. انتشار این مدل گامی مهم در مسیر دموکراتیزه کردن فناوری تولید ویدیو مبتنی بر هوش مصنوعی محسوب میشود.
به نقل از نئووین، اوایل سال جاری، OpenAI با معرفی مدل Sora نوید تحولاتی در حوزه تولید ویدیو را داد. این مدل توانایی ایجاد صحنههای واقعی و خلاقانه بر اساس دستورات متنی را داشت. با این حال، عرضه عمومی آن به تعویق افتاد. در همین زمان، شرکتهایی نظیر Runway و Luma مدلهای خاص خود را روانه بازار کردند و وارد این رقابت شدند.
اما امروز Tencent با معرفی HunyuanVideo گامی فراتر گذاشت و این فناوری را به صورت متنباز در دسترس همگان قرار داد. این مدل، اولین نمونه مهم در زمینه تولید ویدیوی متنباز است که کدهای استنتاج و وزنهای مدل آن به طور عمومی منتشر شده است.
این مدل دارای بیش از ۱۳ میلیارد پارامتر است که آن را به بزرگترین مدل متنباز در حوزه تولید ویدیو تبدیل کرده است. HunyuanVideo نهتنها ویدیوهایی با کیفیت بصری بالا تولید میکند، بلکه از تنوع حرکتی، تطابق دقیق متن با ویدیو و پایداری در فرآیند تولید برخوردار است. این مدل از یک چارچوب پیشرفته بهره میبرد که تنظیم دادهها، آموزش مشترک مدلهای تصویر و ویدیو و زیرساختهای کارآمد را در یک سیستم واحد یکپارچه میکند.
Tencent برای بهبود کیفیت ویدیو از طراحی Transformer و مکانیزم Full Attention استفاده کرده است. این طراحی با بهرهگیری از مدل هیبریدی “جریان دوگانه به جریان تک” برای تولید ویدیو، به مدل اجازه میدهد توکنهای متن و ویدیو را ابتدا بهصورت جداگانه پردازش و سپس برای ترکیب اطلاعات بصری و معنایی ادغام کند. این رویکرد، تعاملات پیچیده بین دادههای تصویری و متنی را بهخوبی شبیهسازی میکند و عملکرد کلی مدل را بهبود میبخشد.
مدل HunyuanVideo از طریق ارزیابیهای انسانی حرفهای مورد آزمایش قرار گرفته است. نتایج نشان میدهد که این مدل از تمامی مدلهای پیشرفته بسته پیشرو، نظیر Runway Gen-3 و Luma 1.6، عملکرد بهتری داشته و کیفیت ویدیوهای تولیدی آن بالاتر است.
انتشار متنباز HunyuanVideo فرصتی استثنایی برای محققان و توسعهدهندگان در سراسر جهان فراهم میکند تا از این فناوری استفاده کرده و آن را ارتقا دهند. Tencent با این اقدام، نهتنها انقلابی در اکوسیستم تولید ویدیوی هوش مصنوعی ایجاد کرده، بلکه دسترسی عموم به این فناوری پیشرفته را نیز فراهم ساخته است.
برای اطلاعات بیشتر درباره مدل HunyuanVideo و دسترسی به کدها و وزنهای آن، به منابع رسمی Tencent مراجعه کنید.
منبع: تکنک
این مطلب بدون برچسب می باشد.
غزال زیاری: اخیراً تصاویر جدیدی منتشر شده که در آن مدل آیفون ۱۷ ایر به نمایش در آمده است. در یکی از این تصاویر، با قرار گرفتن این مدل در کنار آیفون ۱۶ پرومکس ، مشخص است که جدیدترین مدل آیفون چقدر باریکتر خواهد بود. البته با دیدن این تصویر باید در نظر داشته باشید […]
به گزارش خبرگزاری خبرآنلاین، بابک تفرشی، ستارهشناس آماتور ایرانی و مدیر پروژه عکاسی «جهان در شب» (TWAN)، در صفحه اینستاگرام خود اعلام کرد که امشب یک خسوف کامل از بخشهای مختلف جهان قابل مشاهده خواهد بود. این پدیده نجومی حوالی نیمهشب در قاره آمریکا، هنگام طلوع خورشید در غرب اروپا و غرب آفریقا، و همزمان با […]
به گزارش خبرگزاری خبرآنلاین، یک کوهنورد در جمهوری چک بهصورت تصادفی گنجینهای شامل بیش از ۲۱۵۰ سکه نقرهای قرونوسطایی را کشف کرد. این سکهها که در نزدیکی شهر کوتنا هورا در یک کوزه سفالی دفن شده بودند، یکی از بزرگترین اکتشافات تاریخی دهه اخیر محسوب میشوند. پژوهشگران معتقدند این سکهها در قرن دوازدهم و در دوران […]
توقف پروژه برج سه قلوی دانشگاه تهران و هشدار محققان در خصوص تاثیر سیگار کشیدن مادران باردار بر ژنتیک نوزادان از جمله اخبار مهم امروز دنیای علم، فناوری و دانشگاهها بود که در این گزارش به اختصار به آنها پرداخته است. به گزارش ایسنا، دنیای آموزش، علم و فناوری ایران و جهان امروز پنج شنبه […]