انویدیا با همکاری دانشگاه MIT هوش مصنوعی SANA را منتشر کرد

مدل هوش مصنوعی جدید انویدیا به نام SANA می‌تواند تصاویر با کیفیت 4K و وضوح ۴۰۹۶ در ۴۰۹۶ پیکسل را در چند ثانیه تولید کند. محققان انویدیا و دانشگاه MIT و «دانشگاه چینهوا» مدل هوش مصنوعی جدیدی به نام Sana معرفی کرده‌اند که می‌تواند تصاویری با کیفیت عالی و هماهنگی قوی بین متن و تصویر […]

مدل هوش مصنوعی جدید انویدیا به نام SANA می‌تواند تصاویر با کیفیت 4K و وضوح ۴۰۹۶ در ۴۰۹۶ پیکسل را در چند ثانیه تولید کند.

محققان انویدیا و دانشگاه MIT و «دانشگاه چینهوا» مدل هوش مصنوعی جدیدی به نام Sana معرفی کرده‌اند که می‌تواند تصاویری با کیفیت عالی و هماهنگی قوی بین متن و تصویر را با سرعت بسیار زیاد تولید کند.

nvlabs می‌نویسد که ویژگی‌های اصلی طراحی این مدل شامل فشرده‌سازی عمیق خودرمزگذار، استفاده از DiT خطی، کدگذاری متن با مدل کوچک فقط رمزگشا و بهینه‌سازی در مراحل آموزش و نمونه‌گیری است. Sana به‌عنوان راهکاری برای تولید محتوای تصویری باکیفیت و هزینه ارزان، ابزار مهمی برای طراحان و محققان ارائه می‌دهد.

ویژگی‌های اصلی طراحی Sana

۱. فشرده‌سازی عمیق خودرمزگذار (Deep Compression Autoencoder)

این فناوری با نام DC-AE، برخلاف خودرمزگذارهای سنتی که فشرده‌سازی را تا ۸ برابر انجام می‌دهند، مقیاس فشرده‌سازی را تا ۳۲ برابر افزایش داده است. خودرمزگذار DC-AE با فشرده‌سازی تصویر به‌گونه‌ای طراحی شده است که تعداد توکن‌های نهفته (Latent Tokens) را ۱۶ برابر کاهش می‌دهد و در نتیجه، آموزش و تولید تصاویر با وضوح چشمگیر، همچون وضوح 4K، بهبود یافته است.

۲. DiT خطی کارآمد

در این چهارچوب، DiT خطی جایگزین توجهات معمولی (Vanilla Attention) شده است و پیچیدگی محاسباتی را از مرتبه O(N²) به O(N) کاهش می‌دهد. DiT خطی با Mix-FFN همراه است که به کمک کانولوشن‌های عمقی ۳ در ۳ در MLP، اطلاعات محلی توکن‌ها را تقویت می‌کند. این روش بدون نیاز به کدگذاری موقعیت (NoPE) کیفیت تصویر را حفظ و زمان پردازش برای تولید تصاویر 4K را ۱/۷ برابر سریع‌تر می‌کند.

۳. کدکننده متن با مدل کوچک فقط رمزگشا

هوش مصنوعی Sana از مدل Gemma به‌عنوان کدکننده متن استفاده می‌کند که برخلاف مدل‌هایی نظیر CLIP و T5، درک بهتری از متن و دستورها را ارائه می‌دهد. به‌منظور بهبود هماهنگی متن و تصویر، از طراحی دستورالعمل‌های پیچیده انسانی (CHI) در Gemma بهره گرفته شده و با استفاده از یادگیری در بافت، توانایی هماهنگی متن و تصویر افزایش یافته است.

۴. راهبردهای بهینه آموزش و استنتاج

هوش مصنوعی Sana با ارائه راهکارهایی مانند Flow-DPM-Solver، مراحل نمونه‌گیری را از ۲۸-۵۰ به ۱۴-۲۰ مرحله کاهش می‌دهد و عملکرد بهتری را در‌مقایسه‌با روش‌های سنتی مانند Flow-Euler-Solver به ارمغان می‌آورد. در این فرایند، چندین مدل VLM توضیحات متنوعی تولید می‌کنند و با استراتژی مبتنی‌بر امتیاز CLIP (CLIPScore)، توضیحاتی با امتیاز بیشتر انتخاب می‌شود تا همگرایی و هماهنگی متن و تصویر بهبود یابد.

برتری‌های عملکرد Sana در‌مقایسه‌با مدل‌های پیشرفته

آزمایش‌ها نشان می‌دهد که هوش مصنوعی Sana-0.6B در‌مقایسه‌با مدل‌های بزرگ‌تر مانند Flux-12B با وجود اندازه بسیار کوچک‌تر (۲۰ برابر)، تا بیش از ۱۰۰ برابر سریع‌تر عمل می‌کند. این مدل حتی روی یک GPU لپ‌تاپ با حافظه ۱۶ گیگابایت به خوبی کار می‌کند و می‌تواند تصاویر با وضوح ۱۰۲۴ در ۱۰۲۴ را در کمتر از ۱ ثانیه تولید کند. Sana-0.6B با مدل‌هایی مانند PixArt-Σ که اندازه مشابهی دارند، تا ۵ برابر سریع‌تر است و در معیارهای FID، امتیاز CLIPو GenEval و DPG-Bench نیز به‌طرز چشمگیری برتری دارد.

در‌مقایسه‌با مدل‌های پیشرفته‌ای مانند FLUX-dev و Sana-0.6B عملکردی رقابتی ارائه می‌دهد. برای مثال، در معیارهای DPG-Bench، این مدل دقتی معادل و در GenEval اندکی کمتر دارد؛ اما با بهره‌وری درخورتوجه، Sana-0.6B در طول گذر ۳۹ برابر و Sana-1.6B نیز ۲۳ برابر سریع‌تر است.

این چهارچوب جدید نه‌تنها سرعت زیادی دارد؛ بلکه به تولید محتوای تصویری باکیفیت و هزینه کمتر کمک می‌کند و در آینده می‌تواند به‌عنوان ابزاری مؤثر برای طراحان محتوا و محققان و توسعه‌دهندگان به‌کار گرفته شود.

Source link

ارسال : jamnews

برچسب ها

این مطلب بدون برچسب می باشد.

بالاخره بعد از ماه‌ها انتظار، مایکروسافت قابلیت جنجالی Recall را به نسخه پیش‌نمایش ویندوز ۱۱ اضافه کرد

به‌گزارش ویندوز‌سنترال، مایکروسافت بعد از ماه‌ها انتظار قابلیت جنجالی Recall را به‌همراه ویژگی Click To Do به پیش‌نمایش ویندوز ۱۱ (build 26120.2415) برای کاربران اینسایدر در کانال‌ Dev اضافه کرده است. مایکروسافت پس از نگرانی‌های به‌وجود آمده درباره‌ی امنیت ریکال انتشار این قابلیت را به‌تعویق انداخت تا مشکلات را حل کند. ردموندی‌ها اکنون نقص‌های امنیتی […]

تردز قابلیت خلاصه‌سازی موضوعات داغ با هوش مصنوعی را آزمایش می‌کند

تردز با الهام از شبکه اجتماعی ایکس، در حال آزمایش قابلیت جدیدی است که به کمک هوش مصنوعی، خلاصه‌هایی از موضوعات داغ و ترند روز را ارائه می‌دهد. به گزارش تک‌ناک، تردز، پلتفرم اجتماعی متعلق به متا و رقیب شبکه اجتماعی X، در جدیدترین اقدام خود قابلیت خلاصه‌سازی مبتنی‌بر هوش مصنوعی برای موضوعات داغ را […]

زنگ خطر؛ هوش مصنوعی دروغ می‌گوید

یک کارشناس اطلاعات در یک پرونده قضایی در مینه‌سوتا، خود را در مرکز توجهی غیرمنتظره قرار داده است. او در سوگندنامه‌ای که برای حمایت از قانونی علیه دیپ‌فیک‌ها ارائه کرده، به منابعی استناد کرده که وجود خارجی ندارند. این موضوع نگرانی‌هایی را درباره نقش رو به رشد هوش مصنوعی در تولید اطلاعات نادرست ایجاد کرده […]

اپل برای دوران مک‌بوک پرو‌های اولد آماده می‌شود؛ گزارش ترندفورس

گفته می‌شود اپل قصد دارد استفاده از نمایشگرهای OLED را برای مک‌بوک آغاز کند. به احتمال زیاد ال‌جی و سامسونگ دو تأمین‌کننده‌ی اصلی پنل‌های اولد برای لپ تاپ اپل خواهند بود. اپل امسال سری آیپد پرو ۲۰۲۴ خود را با پنل‌های اولد (RGB AMOLED) معرفی کرد که نشان‌دهنده‌ی گسترش این نوع نمایشگر کم‌مصرف به محصولاتی […]

لینک کوتاه

لـیـنـک زیـر را کـپـی کـنـیـد !

https://jam.tamasnews.ir/?p=1404

ویژگی‌های اصلی طراحی Sana

۱. فشرده‌سازی عمیق خودرمزگذار (Deep Compression Autoencoder)

۲. DiT خطی کارآمد

۳. کدکننده متن با مدل کوچک فقط رمزگشا

۴. راهبردهای بهینه آموزش و استنتاج

برتری‌های عملکرد Sana در‌مقایسه‌با مدل‌های پیشرفته

نوشته های مشابه

ارسال دیدگاه

ویژه خبری

سیـاسی

اقتـصادی

مذهـبی

فرهنگـی

اجـتماعی