نام کاربری یا نشانی ایمیل
رمز عبور
مرا به خاطر بسپار
مدل هوش مصنوعی جدید انویدیا به نام SANA میتواند تصاویر با کیفیت 4K و وضوح ۴۰۹۶ در ۴۰۹۶ پیکسل را در چند ثانیه تولید کند. محققان انویدیا و دانشگاه MIT و «دانشگاه چینهوا» مدل هوش مصنوعی جدیدی به نام Sana معرفی کردهاند که میتواند تصاویری با کیفیت عالی و هماهنگی قوی بین متن و تصویر […]
مدل هوش مصنوعی جدید انویدیا به نام SANA میتواند تصاویر با کیفیت 4K و وضوح ۴۰۹۶ در ۴۰۹۶ پیکسل را در چند ثانیه تولید کند.
محققان انویدیا و دانشگاه MIT و «دانشگاه چینهوا» مدل هوش مصنوعی جدیدی به نام Sana معرفی کردهاند که میتواند تصاویری با کیفیت عالی و هماهنگی قوی بین متن و تصویر را با سرعت بسیار زیاد تولید کند.
nvlabs مینویسد که ویژگیهای اصلی طراحی این مدل شامل فشردهسازی عمیق خودرمزگذار، استفاده از DiT خطی، کدگذاری متن با مدل کوچک فقط رمزگشا و بهینهسازی در مراحل آموزش و نمونهگیری است. Sana بهعنوان راهکاری برای تولید محتوای تصویری باکیفیت و هزینه ارزان، ابزار مهمی برای طراحان و محققان ارائه میدهد.
این فناوری با نام DC-AE، برخلاف خودرمزگذارهای سنتی که فشردهسازی را تا ۸ برابر انجام میدهند، مقیاس فشردهسازی را تا ۳۲ برابر افزایش داده است. خودرمزگذار DC-AE با فشردهسازی تصویر بهگونهای طراحی شده است که تعداد توکنهای نهفته (Latent Tokens) را ۱۶ برابر کاهش میدهد و در نتیجه، آموزش و تولید تصاویر با وضوح چشمگیر، همچون وضوح 4K، بهبود یافته است.
در این چهارچوب، DiT خطی جایگزین توجهات معمولی (Vanilla Attention) شده است و پیچیدگی محاسباتی را از مرتبه O(N²) به O(N) کاهش میدهد. DiT خطی با Mix-FFN همراه است که به کمک کانولوشنهای عمقی ۳ در ۳ در MLP، اطلاعات محلی توکنها را تقویت میکند. این روش بدون نیاز به کدگذاری موقعیت (NoPE) کیفیت تصویر را حفظ و زمان پردازش برای تولید تصاویر 4K را ۱/۷ برابر سریعتر میکند.
هوش مصنوعی Sana از مدل Gemma بهعنوان کدکننده متن استفاده میکند که برخلاف مدلهایی نظیر CLIP و T5، درک بهتری از متن و دستورها را ارائه میدهد. بهمنظور بهبود هماهنگی متن و تصویر، از طراحی دستورالعملهای پیچیده انسانی (CHI) در Gemma بهره گرفته شده و با استفاده از یادگیری در بافت، توانایی هماهنگی متن و تصویر افزایش یافته است.
هوش مصنوعی Sana با ارائه راهکارهایی مانند Flow-DPM-Solver، مراحل نمونهگیری را از ۲۸-۵۰ به ۱۴-۲۰ مرحله کاهش میدهد و عملکرد بهتری را درمقایسهبا روشهای سنتی مانند Flow-Euler-Solver به ارمغان میآورد. در این فرایند، چندین مدل VLM توضیحات متنوعی تولید میکنند و با استراتژی مبتنیبر امتیاز CLIP (CLIPScore)، توضیحاتی با امتیاز بیشتر انتخاب میشود تا همگرایی و هماهنگی متن و تصویر بهبود یابد.
آزمایشها نشان میدهد که هوش مصنوعی Sana-0.6B درمقایسهبا مدلهای بزرگتر مانند Flux-12B با وجود اندازه بسیار کوچکتر (۲۰ برابر)، تا بیش از ۱۰۰ برابر سریعتر عمل میکند. این مدل حتی روی یک GPU لپتاپ با حافظه ۱۶ گیگابایت به خوبی کار میکند و میتواند تصاویر با وضوح ۱۰۲۴ در ۱۰۲۴ را در کمتر از ۱ ثانیه تولید کند. Sana-0.6B با مدلهایی مانند PixArt-Σ که اندازه مشابهی دارند، تا ۵ برابر سریعتر است و در معیارهای FID، امتیاز CLIPو GenEval و DPG-Bench نیز بهطرز چشمگیری برتری دارد.
درمقایسهبا مدلهای پیشرفتهای مانند FLUX-dev و Sana-0.6B عملکردی رقابتی ارائه میدهد. برای مثال، در معیارهای DPG-Bench، این مدل دقتی معادل و در GenEval اندکی کمتر دارد؛ اما با بهرهوری درخورتوجه، Sana-0.6B در طول گذر ۳۹ برابر و Sana-1.6B نیز ۲۳ برابر سریعتر است.
این چهارچوب جدید نهتنها سرعت زیادی دارد؛ بلکه به تولید محتوای تصویری باکیفیت و هزینه کمتر کمک میکند و در آینده میتواند بهعنوان ابزاری مؤثر برای طراحان محتوا و محققان و توسعهدهندگان بهکار گرفته شود.
Source link
این مطلب بدون برچسب می باشد.
به گزارش خبرآنلاین، هوا سبکتر از بدن ما است؛ اما حجم عظیم هوای اطراف زمین درمجموع وزن بسیار زیادی دارد. کل جرم جو زمین بالغ بر ۵۱ میلیارد میلیارد کیلوگرم برآورد میشود. بروکلی به لایوساینس میگوید: «جرم یک ستون استوانهای از جو زمین با قطر ۰/۳ متر نزدیک به ۷۵۴ کیوگرم است.» بنابراین این سوال […]
احتمالاً آدرس را اشتباه تایپ کردهاید. شما به طور خودکار به صفحهٔ اول هدایت خواهید شد. برای دسترسی سریعتر بر روی خانه یا جستجو کلیک کنید. Source link
به گزارش خبرآنلاین، پنجشنبه ۲۳ اسفند ماه جلسه بررسی برنامه های کنترل پروژه و نقد و بررسی عملکرد شش ماهه “شرکت ملی پست” و “سازمان تنظیم مقررات و ارتباطات رادیویی” به ریاست سیدستار هاشمی، وزیر ارتباطات و فناوری اطلاعات و جمعی از معاونان ستادی وزارتخانه برگزار شد. تاکید وزیر ارتباطات بر ارتقای جایگاه تحقیق و […]
یک دانشجوی هندی که در آمریکا تحصیل میکند، موفق به ساخت یک زره ضد مارگزیدگی شده است که تنها ۵ دلار قیمت دارد و با ۱۸ هزار سفارش موجب شوکه شدن اهالی این صنعت شده است. به گزارش ایسنا، آنیش ایسواران(Anish Easwaran)، دانشجوی مهندسی زیست پزشکی در دانشگاه تگزاس A&M یک زره ضد مارگزیدگی ساخته […]