آیا ابزارهای تبدیل متن به تصویر هوش مصنوعی جایگزین هنرمندان می شود یا آنها را توانمند می کند؟
در طول تاریخ بشر، پیشرفت تکنولوژی باعث منسوخ شدن برخی از کارگران و در عین حال توانمندسازی برخی دیگر شده است. کارگران در صنایعی مانند حمل و نقل و تولید قبلاً به شدت تحت تأثیر پیشرفت های اتوماسیون و هوش مصنوعی قرار گرفته اند.
امروز، این بخش خلاق است که در خط است. هنرمندان تجسمی، طراحان، تصویرگران و بسیاری از خلاقان دیگر ورود تولیدکنندگان متن به تصویر هوش مصنوعی را با ترکیبی از هیبت و دلهره تماشا کردهاند.
این فناوری جدید بحث هایی را در مورد نقش هوش مصنوعی در هنرهای بصری و موضوعاتی مانند تخصیص سبک به راه انداخته است. سرعت و کارایی آن باعث ترس از افزونگی در میان برخی از هنرمندان شده است، در حالی که برخی دیگر آن را به عنوان یک ابزار جدید هیجان انگیز پذیرفته اند.
بحث های داغی در مورد اخلاقیات تولیدکنندگان متن به تصویر هوش مصنوعی و اینکه چه نقشی باید یا نباید در دنیای هنر داشته باشد وجود دارد. - Copyright Image created using DALL.E
مولد متن به تصویر هوش مصنوعی نرم افزاری است که تصویری را از ورودی متن کاربر ایجاد می کند که به آن اعلان گفته می شود. این ابزارهای هوش مصنوعی بر روی مجموعه داده های عظیمی از جفت متن و تصویر آموزش داده شده اند.
DALL-E 2 و Midjourney هنوز مجموعه داده های خود را عمومی نکرده اند. با این حال، ابزار منبع باز محبوب Stable Diffusion در مورد آنچه که هوش مصنوعی خود را بر روی آن آموزش می دهد شفاف تر است.
هنگامی که مجموعه داده های جفت تصویر-متن جمع آوری و سازماندهی شدند، مدل هوش مصنوعی بر روی آنها آموزش داده می شود. فرآیند آموزش به هوش مصنوعی می آموزد که بین ساختار بصری، ترکیب و هر داده بصری قابل تشخیص درون تصویر و نحوه ارتباط آن با متن همراه آن ارتباط برقرار کند.
اومر میگوید: «بنابراین وقتی این آموزش پس از مدتها و زمان زیادی که برای آموزش این مدلها صرف میشود، در نهایت تکمیل میشود، شما یک مدل قدرتمند دارید که بین متن و تصویر جابهجا میشود.»
مرحله بعدی در توسعه یک تولید کننده متن به تصویر، انتشار نام دارد.
در این فرآیند، نویز بصری گاوسی یا "تصادفی" به صورت تدریجی به تصویر اضافه می شود، در حالی که هوش مصنوعی در هر تکرار از تصویر به تدریج "پر سر و صدا" آموزش داده می شود.
سپس این فرآیند معکوس میشود و به هوش مصنوعی آموزش داده میشود که با شروع از پیکسلهای تصادفی، تصویری بسازد که از نظر بصری شبیه به تصویر آموزشی اصلی است.
اومر توضیح داد: "محصول نهایی هزار بار اضافه کردن کمی نویز به نظر می رسد که شما کابل آنتن را از تلویزیون خود بیرون آورده اید و (اینجا) فقط ثابت است، فقط نویز وجود دارد - دیگر سیگنالی باقی نمی ماند."
مدل هوش مصنوعی بر روی میلیاردها تصویر به این روش آموزش داده می شود، از یک تصویر به نویز می رود و سپس هر بار روند را معکوس می کند.
پس از این مرحله از فرآیند آموزش، هوش مصنوعی می تواند از نویز شروع به ایجاد تصاویری کند که قبلاً وجود نداشته است.
در عمل، این بدان معنی است که کاربر اکنون می تواند به یک تولید کننده متن به تصویر دسترسی داشته باشد، یک دستور متن را در یک جعبه متن ساده وارد کند و هوش مصنوعی یک تصویر کاملاً جدید را بر اساس ورودی متن ایجاد می کند.
هر هوش مصنوعی متن به تصویر دارای کلمات کلیدی است که کاربران آن را از طریق آزمون و خطا کشف کرده اند. کلمات کلیدی مانند «هنر دیجیتال»، «4k» یا «سینما» میتوانند تأثیر چشمگیری بر نتیجه داشته باشند و کاربران نکات و ترفندهای آنلاین را برای تولید هنر به سبک خاصی به اشتراک گذاشتهاند. یک اعلان معمولی ممکن است به عنوان "تصویر دیجیتالی از سیبی که کلاه گاوچرانی بر سر دارد، 4K، با جزئیات، پرطرفدار در ایستگاه هنری" خوانده شود.
اصول اخلاقی تولیدکنندگان متن به تصویر هوش مصنوعی موضوع بحث های زیادی بوده است. موضوع اصلی نگرانی این واقعیت است که این هوش مصنوعی ها را می توان بر روی کار هنرمندان واقعی، زنده و شاغل آموزش داد. این به طور بالقوه به هر کسی که از این ابزارها استفاده می کند اجازه می دهد تا آثار جدیدی را در سبک امضای این هنرمندان خلق کنند.
اریک وینکوفسکی هنرمند کلاژ ویدیویی گفت:
من فکر میکنم که باید راهی پیدا کنیم که هنرمندان اگر نام یا تصاویرشان در مجموعه دادهها ظاهر شد، غرامت دریافت کنند، یا اگر نمیخواهند چیزی داشته باشند، به طور کامل انصراف دهند.
ما باید راهی پیدا کنیم که هنرمندان در صورت نمایش نام یا تصاویرشان در مجموعه داده ها غرامت دریافت کنند، یا اینکه آنها به طور کامل از این مجموعه انصراف دهند.
اریک وینکوفسکی
هنرمند کلاژ ویدیو
او در رابطه با موضوع تخصیص سبک برای منافع مالی، افزود: «اگر یک کمپین برند به وضوح از آثار هنری یک فرد تخصیص داده شود، چه با هوش مصنوعی ساخته شده باشد و چه غیر از آن، چیز خوبی نیست. و من امیدوارم که آنها بصورت مردمی در برابر آن ایستادگی کنند.
در ماه نوامبر، جامعه هنری آنلاین Deviant Art اعلام کرد که ابزار تولید متن به تصویر هوش مصنوعی DreamUp را به وب سایت خود اضافه خواهد کرد.
تمام آثار هنری کاربران Deviant Arts در وب سایت به طور خودکار برای آموزش هوش مصنوعی در دسترس خواهد بود.
با این حال، در عرض 24 ساعت پس از اعلام، با واکنش شدید جامعه خود، Deviant Art سیاست خود را تغییر داد. در عوض، کاربران باید فعالانه انتخاب کنند که برای آموزش هوش مصنوعی شرکت کنند.
Shutterstock، یک بازار تصویر سهام، اکنون قصد دارد مولد متن به تصویر DALL-E را یکپارچه کند و به سازندگانی که کارشان برای آموزش هوش مصنوعی استفاده شده است، غرامت بدهد.
مولدهای متن به تصویر هوش مصنوعی به طور مداوم در حال بهبود هستند و برخی از محققان و شرکت های فناوری در حال توسعه مرحله بعدی هنرهای بصری مولد هستند.
متا نمونههایی از هوش مصنوعی متن به ویدئو خود را که در حال حاضر در حال توسعه است، منتشر کرده است که میتواند یک ویدئو از ورودی متن کاربر تولید کند.
در همین حال، گوگل DreamFusion را رونمایی کرده است، یک هوش مصنوعی تبدیل متن به تصویر سه بعدی است.
برخی از هنرمندان تجسمی مانند Winkowski قبلاً شروع به استفاده از ابزارهای مولد هوش مصنوعی در گردش کار خود کردهاند و این فناوری را برای ایجاد هنر متحرک پیش میبرند.
وینکوفسکی در فیلم کوتاه اخیر خود با عنوان "ترک خانه" فریم های خاصی را ترسیم کرد و به Stable Diffusion اجازه داد تا فریم های بین این دو را تولید کند.
او گفت: «این واقعاً مانند داشتن یک ابرقدرت به عنوان یک هنرمند است.
این واقعا هیجان انگیز است. و من فکر میکنم که شاید بتوانیم پروژههای بلندپروازانهتری از آنچه که تا به حال فکر میکردیم انجام دهیم.»
مجله ارم بلاگ