نام کاربری یا نشانی ایمیل
رمز عبور
مرا به خاطر بسپار
مدل هوش مصنوعی جدید انویدیا به نام SANA میتواند تصاویر با کیفیت 4K و وضوح ۴۰۹۶ در ۴۰۹۶ پیکسل را در چند ثانیه تولید کند. محققان انویدیا و دانشگاه MIT و «دانشگاه چینهوا» مدل هوش مصنوعی جدیدی به نام Sana معرفی کردهاند که میتواند تصاویری با کیفیت عالی و هماهنگی قوی بین متن و تصویر […]
مدل هوش مصنوعی جدید انویدیا به نام SANA میتواند تصاویر با کیفیت 4K و وضوح ۴۰۹۶ در ۴۰۹۶ پیکسل را در چند ثانیه تولید کند.
محققان انویدیا و دانشگاه MIT و «دانشگاه چینهوا» مدل هوش مصنوعی جدیدی به نام Sana معرفی کردهاند که میتواند تصاویری با کیفیت عالی و هماهنگی قوی بین متن و تصویر را با سرعت بسیار زیاد تولید کند.
nvlabs مینویسد که ویژگیهای اصلی طراحی این مدل شامل فشردهسازی عمیق خودرمزگذار، استفاده از DiT خطی، کدگذاری متن با مدل کوچک فقط رمزگشا و بهینهسازی در مراحل آموزش و نمونهگیری است. Sana بهعنوان راهکاری برای تولید محتوای تصویری باکیفیت و هزینه ارزان، ابزار مهمی برای طراحان و محققان ارائه میدهد.
این فناوری با نام DC-AE، برخلاف خودرمزگذارهای سنتی که فشردهسازی را تا ۸ برابر انجام میدهند، مقیاس فشردهسازی را تا ۳۲ برابر افزایش داده است. خودرمزگذار DC-AE با فشردهسازی تصویر بهگونهای طراحی شده است که تعداد توکنهای نهفته (Latent Tokens) را ۱۶ برابر کاهش میدهد و در نتیجه، آموزش و تولید تصاویر با وضوح چشمگیر، همچون وضوح 4K، بهبود یافته است.
در این چهارچوب، DiT خطی جایگزین توجهات معمولی (Vanilla Attention) شده است و پیچیدگی محاسباتی را از مرتبه O(N²) به O(N) کاهش میدهد. DiT خطی با Mix-FFN همراه است که به کمک کانولوشنهای عمقی ۳ در ۳ در MLP، اطلاعات محلی توکنها را تقویت میکند. این روش بدون نیاز به کدگذاری موقعیت (NoPE) کیفیت تصویر را حفظ و زمان پردازش برای تولید تصاویر 4K را ۱/۷ برابر سریعتر میکند.
هوش مصنوعی Sana از مدل Gemma بهعنوان کدکننده متن استفاده میکند که برخلاف مدلهایی نظیر CLIP و T5، درک بهتری از متن و دستورها را ارائه میدهد. بهمنظور بهبود هماهنگی متن و تصویر، از طراحی دستورالعملهای پیچیده انسانی (CHI) در Gemma بهره گرفته شده و با استفاده از یادگیری در بافت، توانایی هماهنگی متن و تصویر افزایش یافته است.
هوش مصنوعی Sana با ارائه راهکارهایی مانند Flow-DPM-Solver، مراحل نمونهگیری را از ۲۸-۵۰ به ۱۴-۲۰ مرحله کاهش میدهد و عملکرد بهتری را درمقایسهبا روشهای سنتی مانند Flow-Euler-Solver به ارمغان میآورد. در این فرایند، چندین مدل VLM توضیحات متنوعی تولید میکنند و با استراتژی مبتنیبر امتیاز CLIP (CLIPScore)، توضیحاتی با امتیاز بیشتر انتخاب میشود تا همگرایی و هماهنگی متن و تصویر بهبود یابد.
آزمایشها نشان میدهد که هوش مصنوعی Sana-0.6B درمقایسهبا مدلهای بزرگتر مانند Flux-12B با وجود اندازه بسیار کوچکتر (۲۰ برابر)، تا بیش از ۱۰۰ برابر سریعتر عمل میکند. این مدل حتی روی یک GPU لپتاپ با حافظه ۱۶ گیگابایت به خوبی کار میکند و میتواند تصاویر با وضوح ۱۰۲۴ در ۱۰۲۴ را در کمتر از ۱ ثانیه تولید کند. Sana-0.6B با مدلهایی مانند PixArt-Σ که اندازه مشابهی دارند، تا ۵ برابر سریعتر است و در معیارهای FID، امتیاز CLIPو GenEval و DPG-Bench نیز بهطرز چشمگیری برتری دارد.
درمقایسهبا مدلهای پیشرفتهای مانند FLUX-dev و Sana-0.6B عملکردی رقابتی ارائه میدهد. برای مثال، در معیارهای DPG-Bench، این مدل دقتی معادل و در GenEval اندکی کمتر دارد؛ اما با بهرهوری درخورتوجه، Sana-0.6B در طول گذر ۳۹ برابر و Sana-1.6B نیز ۲۳ برابر سریعتر است.
این چهارچوب جدید نهتنها سرعت زیادی دارد؛ بلکه به تولید محتوای تصویری باکیفیت و هزینه کمتر کمک میکند و در آینده میتواند بهعنوان ابزاری مؤثر برای طراحان محتوا و محققان و توسعهدهندگان بهکار گرفته شود.
Source link
این مطلب بدون برچسب می باشد.
ظاهراً واتساپ تصمیم گرفته تا «نشانگر تایپ کردن» را در این پیامرسان تغییر دهد. اگر دقت کرده باشید، نشانگر تایپ در پیامرسان واتساپ در بالای صفحه و در کنار اسم گروه یا فردی که با آن گفتوگو میکردید نشان داده میشد. Artem Russakovskii حالا تیم توسعهدهندهی واتساپ تصمیم گرفته تا نشانگر گفتوگو را با روشی […]
دروازه کوانتومی ساخت پژوهشگران ژاپنی میتواند برای افزایش وفاداری دروازههای کوانتومی سودمند باشد. به گزارش ایسنا، پژوهشگران «مرکز محاسبات کوانتومی ریکن»(RQC) و شرکت «توشیبا»(Toshiba) موفق به ساخت یک دروازه کوانتومی جدید شدند. این دروازه کوانتومی بر فناوری «کوپلر دو ترانسمون»(DTC) مبتنی است که از نظر تئوری میتواند وفاداری دروازههای کوانتومی را به طور قابل توجهی […]
آپدیت KB5046740 ویندوز ۱۱ با ۱۴ تغییر و رفع مشکلات مربوط به File Explorer و Clipboard و PowerShell منتشر شد. به گزارش تکناک، مایکروسافت بهروزرسانی پیشنمایش تجمعی ماه نوامبر ۲۰۲۴ را برای کاربران ویندوز ۱۱ نسخه 24H2 منتشر کرد. این آپدیت ویندوز ۱۱ که با کد KB5046740 شناخته میشود، بخشی از برنامه بهروزرسانیهای اختیاری و […]
بهگزارش رویترز، پس از آنکه کوبو، یکی از ناشران کتاب الکترونیکی شکایت خود از اپل را پس گرفت، اتحادیهی اروپا تحقیقات پیرامون قوانین اپ استور اپل در قبال اپلیکیشنهای کتاب الکترونیکی و صوتی را به پایان رساند. کوبو ادعا کرده بود که کمیسیون ۳۰ درصدی اجباری اپل بر خریدهای اپ استور، فعالیت سودآور آنها را […]