نام کاربری یا نشانی ایمیل
رمز عبور
مرا به خاطر بسپار
مدل هوش مصنوعی جدید انویدیا به نام SANA میتواند تصاویر با کیفیت 4K و وضوح ۴۰۹۶ در ۴۰۹۶ پیکسل را در چند ثانیه تولید کند. محققان انویدیا و دانشگاه MIT و «دانشگاه چینهوا» مدل هوش مصنوعی جدیدی به نام Sana معرفی کردهاند که میتواند تصاویری با کیفیت عالی و هماهنگی قوی بین متن و تصویر […]
مدل هوش مصنوعی جدید انویدیا به نام SANA میتواند تصاویر با کیفیت 4K و وضوح ۴۰۹۶ در ۴۰۹۶ پیکسل را در چند ثانیه تولید کند.
محققان انویدیا و دانشگاه MIT و «دانشگاه چینهوا» مدل هوش مصنوعی جدیدی به نام Sana معرفی کردهاند که میتواند تصاویری با کیفیت عالی و هماهنگی قوی بین متن و تصویر را با سرعت بسیار زیاد تولید کند.
nvlabs مینویسد که ویژگیهای اصلی طراحی این مدل شامل فشردهسازی عمیق خودرمزگذار، استفاده از DiT خطی، کدگذاری متن با مدل کوچک فقط رمزگشا و بهینهسازی در مراحل آموزش و نمونهگیری است. Sana بهعنوان راهکاری برای تولید محتوای تصویری باکیفیت و هزینه ارزان، ابزار مهمی برای طراحان و محققان ارائه میدهد.
این فناوری با نام DC-AE، برخلاف خودرمزگذارهای سنتی که فشردهسازی را تا ۸ برابر انجام میدهند، مقیاس فشردهسازی را تا ۳۲ برابر افزایش داده است. خودرمزگذار DC-AE با فشردهسازی تصویر بهگونهای طراحی شده است که تعداد توکنهای نهفته (Latent Tokens) را ۱۶ برابر کاهش میدهد و در نتیجه، آموزش و تولید تصاویر با وضوح چشمگیر، همچون وضوح 4K، بهبود یافته است.
در این چهارچوب، DiT خطی جایگزین توجهات معمولی (Vanilla Attention) شده است و پیچیدگی محاسباتی را از مرتبه O(N²) به O(N) کاهش میدهد. DiT خطی با Mix-FFN همراه است که به کمک کانولوشنهای عمقی ۳ در ۳ در MLP، اطلاعات محلی توکنها را تقویت میکند. این روش بدون نیاز به کدگذاری موقعیت (NoPE) کیفیت تصویر را حفظ و زمان پردازش برای تولید تصاویر 4K را ۱/۷ برابر سریعتر میکند.
هوش مصنوعی Sana از مدل Gemma بهعنوان کدکننده متن استفاده میکند که برخلاف مدلهایی نظیر CLIP و T5، درک بهتری از متن و دستورها را ارائه میدهد. بهمنظور بهبود هماهنگی متن و تصویر، از طراحی دستورالعملهای پیچیده انسانی (CHI) در Gemma بهره گرفته شده و با استفاده از یادگیری در بافت، توانایی هماهنگی متن و تصویر افزایش یافته است.
هوش مصنوعی Sana با ارائه راهکارهایی مانند Flow-DPM-Solver، مراحل نمونهگیری را از ۲۸-۵۰ به ۱۴-۲۰ مرحله کاهش میدهد و عملکرد بهتری را درمقایسهبا روشهای سنتی مانند Flow-Euler-Solver به ارمغان میآورد. در این فرایند، چندین مدل VLM توضیحات متنوعی تولید میکنند و با استراتژی مبتنیبر امتیاز CLIP (CLIPScore)، توضیحاتی با امتیاز بیشتر انتخاب میشود تا همگرایی و هماهنگی متن و تصویر بهبود یابد.
آزمایشها نشان میدهد که هوش مصنوعی Sana-0.6B درمقایسهبا مدلهای بزرگتر مانند Flux-12B با وجود اندازه بسیار کوچکتر (۲۰ برابر)، تا بیش از ۱۰۰ برابر سریعتر عمل میکند. این مدل حتی روی یک GPU لپتاپ با حافظه ۱۶ گیگابایت به خوبی کار میکند و میتواند تصاویر با وضوح ۱۰۲۴ در ۱۰۲۴ را در کمتر از ۱ ثانیه تولید کند. Sana-0.6B با مدلهایی مانند PixArt-Σ که اندازه مشابهی دارند، تا ۵ برابر سریعتر است و در معیارهای FID، امتیاز CLIPو GenEval و DPG-Bench نیز بهطرز چشمگیری برتری دارد.
درمقایسهبا مدلهای پیشرفتهای مانند FLUX-dev و Sana-0.6B عملکردی رقابتی ارائه میدهد. برای مثال، در معیارهای DPG-Bench، این مدل دقتی معادل و در GenEval اندکی کمتر دارد؛ اما با بهرهوری درخورتوجه، Sana-0.6B در طول گذر ۳۹ برابر و Sana-1.6B نیز ۲۳ برابر سریعتر است.
این چهارچوب جدید نهتنها سرعت زیادی دارد؛ بلکه به تولید محتوای تصویری باکیفیت و هزینه کمتر کمک میکند و در آینده میتواند بهعنوان ابزاری مؤثر برای طراحان محتوا و محققان و توسعهدهندگان بهکار گرفته شود.
Source link
این مطلب بدون برچسب می باشد.
حافظه رم جدید شرکت جیاسکیل، Trident Z5 CK RGB، با دستیابی به سرعت ۱۲۶۶۶ مگاترانزفر بر ثانیه، تمامی رکوردهای قبلی اورکلاکینگ DDR5 را شکست. به گزارش تکناک، در دستاوردی چشمگیر در دنیای اورکلاکینگ حافظههای DDR5، حافظه رم Trident Z5 CK RGB CUDIMM شرکت جیاسکیل توانست رکورد جدیدی را با دستیابی به سرعت ۱۲,۶۶۶ مگاترانزفر بر […]
در هفته گذشته ۱۵ زلزله در شهرهای جایزان، هفتگل، مسجد سلیمان، قلعه تل و ایذه استان خوزستان به ثبت رسید که بزرگترین آن ۵.۶ بوده است. به گزارش ایسنا، در هفته گذشته تا زمان تهیه این گزارش ۱۵ زمینلرزه در استان خوزستان به ثبت رسید که به گفته محققان احتمالا گسیختگی گسل لهبری مسبب این […]
اداره فدرال تحقیقات (FBI) به تازگی هشدار جدی در مورد سوءاستفاده از هوش مصنوعی در کلاهبرداریهای آنلاین داده است. به گفته FBI، کلاهبرداران از این فناوری برای انجام اقدامات زیر بهره میبرند. به گزارش سرویس اخبار فناوری رسانه تکنولوژی تکنا، هوش مصنوعی میتواند تصاویر و ویدئوهای بسیار واقعگرایانهای از افراد ایجاد کند که حتی تشخیص […]
هواوی حدود دو هفته پیش از گوشیهای پرچمدار سری میت ۷۰ با فناوریهای جدید رونمایی کرد. اکنون بهنظر میرسد که تقاضا برای گوشیهای جدید هواوی، تأمینکنندگان را با مشکل مواجه کرده است. گزارش جدیدی از PhoneArena منتشرشده است که نشان میدهد زنجیره تأمین هواوی جهت پاسخگویی به تقاضای بسیار زیاد کاربران برای گوشیهای سری میت […]