تبدیل متن به تصویر با ابزار Stable Diffusion

24 سپتامبر, 2022 تازه های هوش مصنوعی, تازه ها یک نظر

در دنیای مدل های هوش مصنوعی برای تبدیل متن به تصویر، Dall-E2 از OpenAI بهترین گزینه میان ابزارهایی است که در حال حاضر در دسترس قرار دارند.

با این حال در استفاده از آن محدودیت قابل توجهی وجود دارد: این ابزار قادر به تولید تصاویری از افراد شناخته شده، از جمله سیاستمداران و افراد مشهور نیست. علاوه بر این، استفاده از این سرویس دارای هزینه است.

اکنون یک رقیب کاملاً رایگان وجود دارد که عملکردی مشابه Dall-E2 دارد اما بدون فیلترهای زیاد. این رقیب Stable Diffusion نام دارد.

در ادامه این موارد را بررسی خواهیم کرد :

۱- Stable Diffusion چیست؟
۲- چگونه کار می کند؟
۳- نحوه دسترسی زودهنگام
۴- تصاویر تولید شده ما

۱- Stable Diffusion چیست؟

در وبسایت Stable Diffusion , Stability AI به عنوان یک مدل تبدیل متن به تصویر توصیف شده است که به میلیاردها کاربر این امکان را می دهد تا در عرض چند ثانیه آثاری زیبا تولید کنند.

نمونه تصویر های تولید شده با Stable Diffusion — نمونه تصاویر تولید شده توسط Stable Diffusion

این مدل از یک رمزگذار متنی CLIP ViT-L/14 انعطاف ناپذیر استفاده می کند تا مدل را با توصیفات متنی ارائه دهد، دقیقاً مانند Google’s Imagen. این مدل از یک پردازنده گرافیکی با حداقل ۱۰ گیگابایت VRAM استفاده می کند و وزن به نسبت کم ۸۶۰M برای UNet و ۱۲۳M برای رمزگذار متنی دارد.

۲- چگونه کار می کند؟

Stable Diffusion فرآیند تولید تصویر را در زمان اجرا به یک فرآیند “Diffusion” تفکیک می کند. ابتدا با نویز شروع به کار می کند و به تدریج تصویر را بهبود می بخشد تا زمانی که دیگر نویز باقی نماند و نتیجه را بیشتر و بیشتر به توضیحات متن ارائه شده نزدیک می کند.

تصاویر نمونه تولید شده توسط Stable Diffusion — نمونه تصاویر Stable Diffusion

در طول یک ماه، شرکت توسعه دهنده Stability ، هوش مصنوعی Stable Diffusion را روی خوشه ای متشکل از ۴۰۰۰ پردازنده گرافیکی Nvidia A100 که روی وب سرویس آمازون کار می کنند، آموزش داد. گروه تحقیقاتی بینایی ماشین و یادگیری CompVis دانشگاه لودویگ ماکسیمیلیان مونیخ انجام فرایند این آموزش را به کمک منابع محاسباتی هوش مصنوعی Stability بر عهده داشت.

شرکت Stability AI از طریق سرور Discord خود، مدل Stable Diffusion را تنها برای گروه منتخبی از کاربران در دسترس قرار داده است.

کانال دیسکورد Stability AI — کانال خوش آمدگویی Discord

۳- نحوه دسترسی زودهنگام

ابتدا به بخش ثبت نام بتا وب سایت رسمی Stability.ai بروید.

ورود به سایت Stability ai — اسکرین شات از Stability.ai

سپس مراحل ثبت نام را تکمیل کرده و منتظر ایمیل تایید باشید.

اگر ایمیلی مشاهده نکردید، پوشه هرزنامه خود را نیز بررسی کنید زیرا ممکن است پیام به آنجا منتقل شده باشد. ایمیل حاوی لینکی است که شما را به داشبورد Discord می برد. شرایط ارائه خدمات را در داشبورد بخوانید و دستورالعمل ها را دنبال کنید تا به کانال های Dream دسترسی پیدا کنید. هنگامی که به کانال های Dream دسترسی پیدا کردید، متن توصیفی خود را در کادر چت وارد کنید. درخواست باید به فرمت زیر باشد:

۴- تصاویر تولید شده ما

پس از این که ظرف مدت کوتاهی مورد تایید قرار گرفتید، می توانید از این ابزار هوش مصنوعی استفاده کنید. در اینجا چند نمونه از تصاویری که تولید کردیم آورده شده است.

Prompt: !dream “Old viking woman with braids in gray hair wearing fur and jewelry :: very detailed, symmetric, unreal engine, rim-light” -i -S 474323078

تصویر تولید شده با هوش مصنوعی Stable Diffiusion

اینکه ربات با چه سرعتی این تصویر ۵۱۲×۵۱۲ را تولید کرده واقعا حیرت انگیز است. این کار فقط پنج ثانیه طول کشید.

علاوه بر این، در مقایسه با سایر مدل های هوش مصنوعی تولیدکننده متن به تصویر مانند Disco Diffusion یا MidJourney ، مدل Stable Diffusion می تواند به خوبی تصاویر پرتره ایجاد کند. جزئیات کاملا دقیق و ویژگی های صورت متقارن هستند.

Prompt: !dream “HQ photo face picture of Shia Labeouf sitting on a throne wearing a golden crown”

تصویر تولید شده با هوش مصنوعی Stable Diffiusion 2

Stable Diffusion روی چهره های مشهور نیز عملکرد خوبی دارد و حتی می تواند چهره افراد مشهور را با هم ترکیب کند.

Prompt: !dream “jean-claude van damme as tyrion lannister”

تصویر تولید شده با هوش مصنوعی Stable Diffiusion 3

به نظر می رسد با این قدرتی که از این هوش مصنوعی شاهد هستیم، بازی های کامپیوتری نیز در شرف وقوع یک تحول عظیم هستند.

حیوانات چطور؟

Prompt: !dream “a photo of a dog studying for an exam”

تصویر تولید شده با هوش مصنوعی Stable Diffiusion 4

هیچ مشکلی نیست. در اینجا نمونه های بیشتری وجود دارد.

تصویر تولید شده با هوش مصنوعی Stable Diffiusion 5

تصویر تولید شده با هوش مصنوعی Stable Diffiusion 6

خوب، روند کار به همین سادگی است. اکنون شما هم دست به کار شوید و ثبت نام کنید تا دسترسی داشته باشید و خودتان ابزار را امتحان کنید. با این ابزار تخیل شما تنها محدودیت شما است.

کلام آخر

اگرچه ابزار Stable Diffusion ، تصاویر جذابی تولید می کند، اما به نظر می رسد که کار با آن نسبت به سایر رقبای خود آسان تر و کم دردسر تر باشد. هوش مصنوعی Stability سیاست مشخصی برای ممنوعیت عکس افراد مشهور ندارد و این ممکن است برای ساختن Deep Fake ها کار را ساده تر کند که می تواند در آینده دردسر ساز شود.

همچنین نبود برخی محدودیت ها به کاربران اجازه می دهد تا بتوانند تصاویر توهین آمیز یا ناهنجار نیز ایجاد کنند.

امیدواریم مهندسین پشت پرده این فناوری ، قبل از انتشار این سرویس برای عموم ، با تدوین ابزارهای نوآورانه برای کمک به کاهش آسیب های احتمالی ، اقدامات ایمنی لازم را اجرا کنند.

به روز رسانی :

اخیرا هوش مصنوعی Stable Diffusion در قالب سرویس DreamStudio در دسترس عموم قرار گرفته است. در مطلبی جداگانه به معرفی این سرویس خواهیم پرداخت.

بیشتر بخوانید :

منبع https://medium.com/codex/stable-diffusion-new-and-free-text-to-image-ai-tool-70f95ea14440