Midjourney, Dall-e, DeepDream, Stable Diffusion o'zi qanday imkoniyatlarga ega?
Biroz hozirda Text-to-Image nimalar qodirligini ko'rsatib o'tish uchun quyidagi misollarni ko'ring:
Ko‘rayotganingizday matnli so‘rovimdan haqiqiy sanʼat asari yaratildi. Ammo modul shunchaki matndan bunday chiroyli tasvirlarni qanday yaratganini tushunish uchun dastlab uni bunga qanday o‘qitilganini tushunish lozim.
Matndan tasvir yaratishni qanday o'rganish mumkin?
Men doim sun'iy idrok nimanidir o'rganishini yosh bolaga savollar berib o'rganishiga o'xshatishni taklif qilaman. Buning uchun bizga rasm va unga berilgan matn shaklidagi ta'rif zarur, misol uchun:
Modul ham yosh bola rasmni ko'rib demak mana shu mushuk ekan deb eslab qoladi. Ammo o'qitishda biz ko'proq xususiyatlarga ta'rif berishga harakat qilishimiz zarur, masalan:

Modul Rasm-Matn bog'lanishini hosil qilib eslab qoladi. Qanchalik ko'p ta'rif berilsa u rasmdan shunchalik ko'proq narsani o'rgana oladi.
Shu o'rinda sizda savol tug'ilishi mumkin, o'qitish vaqtida modul qanday qilib mushukni oqligi, yoki uni hafa ekani yoki umuman buni qayerdan mushuk ekanini o'qib olgani qiziq bo'lishi mumkin. Buning uchun o'qitish manbalarini ko'paytirish kerak.
Masalan, topingchi ushbu rasmlarda qanday umumiylik bor?
Hayolizga bir qancha narsalar kelishi mumkin narsalar: ko'z oynak, qora fon va kastyum bo'lishi mumkin. Keling bitta ko'z oynakni olamiz, gap shundaki biz ularni o'qitish vaqtida ta'riflarida takrorlanish yuz beradi. Uchchalasida ham ko'z oynak bor, o'xshash ta'rifni eshitganida modul o'zidagi shunday ta'rif kelgan barcha rasmlarni yonma yon qo'yib aynan nima unga ko'z oynak degan ta'rifni berganini aniqlaydi.

Modul shunchaki elementni ajratish emas balki uni boshqa elementlarga nisbatan qanday joylashishi kerakligi yoki u bor bo'lganda boshqa elementlar qanday o'zgarishini ham eslab qoladi. Bu esa kelajakda rasmlarni yaratayotganda ko'z oynakni to'g'ri joyga kiydirish yoki ko'z oynak kiyganda va nurga qaralganda ko'z qamashmasligi tufayli peshonada burmalar hosil bo'lmasligigacha eslab qoladi.
Ajoyib, endi ta'rifni qanchalik ahamiyatli ekanini tushundik, ammo rasmlar soni ham judayam ahamiyatli.
Biz qanchalik ko'p miqdordagi rasmni yedirsak shunchalik yuqori sifatdagi natijani olamiz. Masalan ushbu rasmda "Sidney Opera teatrining oldida o'tloqda turgan, to'q sariq kapyushonli va ko'k quyoshdan saqlovchi ko'zoynak taqqan kenguru ko'kragiga "Xush kelibsiz, do'stlar!" deb yozilgan belgi osgan portret surati." deb berilgan ta'rifga turli hajmdagi modullar chizgan rasmlari:

Ko'rayotganizday, miqdor ahamiyatga ega va ko'proq rasmlar bilan o'qitilsa yaxshiroq natijaga erishish mumkin.
Matndan qanday qilib tasvir yaraladi?
Sun'iy idrok qanday qilib matn va rasmni o'qishi, ko'rishi yoki tushunishini eslash uchun dastlab mana bu maqolani o'qib chiqishni taklif qilaman.
Biz esa boshladik!

Barchasi modelga KO'RSATMA (Prompt) kiritishdan boshlanadi. Va takrorlanmas bo'lishi uchun "Odam tishlari bilan tirjayib turgan it" shaklidagi ko'rsatmani olaylik.
1-qadam matnni kodlash:
Ushbu ko‘rsatmani o‘ziga MATNNI KODLOVCHI (Text ensoder) oladi. Uning asosiy vazifasi uni diffusion modeliga u tushunadigan tilda yaʼni raqamlar shaklida tartibli qilib jo‘natishdir, masalan bizni ko‘rsatmani u "Kuchuk, Kulayotgan, Odam tishi" kabi holatga keltirib, so‘ng uni raqamlarga aylantirib uzatishi mumkin. Oddiy qilib aytganda xuddi tarjimon kabi so‘zlayotgan odamni nutqni tushunib tinglovchiga tushuntirishi kabi ishlaydi.

2-qadam shovqindan rasm yaratish:
DIFFUZIYA(Diffusion) modelida eng birinchi taqribiy SHOVQIN(Noisy) olinadi. Uni ko'rinishi quyidagicha:
Undan so'ng o'yinga yangi tushuncha UNet - konvolyutsion neyron tarmog'i kiradi. "U" harfini esa unga uni ko'rinishi bergan:
Aynan UNet ni biz dastlab olgan shovqinimizdan qancha shovqinni olib tashlasa(pixellarni to'g'rilasa) rasm chiqishini ayta oladi. Buni sxematik ko'rsak:
UNet shovqin va matnni qabul qilib oladi va ular asosida rasmdagi shovqin miqdorini kamaytiradi, va bu jarayon mutloq shovqin qolmaguncha davom etadi:

Sizda savol tug'ilishi mumkin, UNet qayerdan va qancha shovqinni olib tashashni qayerdan bilmoqda? Gap shundaki biz yuqorida o'qitish jarayonini ham UNet bilan birga qilgandik va u o'rganish vaqtida rasmga shovqin qo'shish yo'li bilan o'rgangandi:

3-qadam: rasm o'lchamini kattalashtirish
Gap shundaki biz o'qitish vaqtida uzunlik*kenglik bilan o'qitgan bo'lsak natijada ham shunday hajmdagi rasmlarni olamiz, gap shundaki bizda shu vaqtgacha DALL-E, DeepDream 224*224 piksel hajmidagi rasmlar asosida o'qitilgan bo'lsa, Stable Diffusion 512*512 hajmidagi rasmlar asosida o'qitilgan.
Ammo biz tiniq rasmlarni olishni hohlaymizku, shu sababli o'yinga yana bir yangi Kattalashtiruvchi modul(Upscaling module) o'yinga kiradi.
Ularning yaxshi namunasi Generativ adversarial tarmoq(GAN)dir.

GAN qanday qilib rasmni kattalashtirishi bu alohida mavzu.
Ushbu bosqichlarni bosib o'tganidan so'ng biz tayyor rasmni qo'limizga olamiz.
Sun'iy idrok umrida ko'rmagan narsani qanday chizishi mumkin? Sun'iy idrok shoh asar yarata oladimi?
Diffuziya modeli o‘qitish vaqtida mutlaq ko‘rmagan rasmini ham yarata oladi. Va uni bu natijaga qanday erishganini tushunish biz uchun judayam muhim. Keling yana o‘sha ko‘rsatmamizga qaytaylik: "Odam tishlari bilan tirjayib turgan it". Tabiiyki o‘qitish vaqtida hech kim unga bunday rasmni bermagan o‘rganishi uchun, ammo u holda bu turdagi rasm qanday yaraladi? Buni maksimal sodda tushuntirishga urinib ko‘raman:
Dastlab kuchuk chizamiz:
Endi unga kulgu qo'shamiz:
E'tibor bering kulgu soxta bo'lib qoldi, chunki shunchaki tabassum qo'shish kifoya emas, yuz mimikalari ham kulguni aks ettirishi kerak. Yuqorida o'qish vaqtida ko'z oynak qanday taqilishi ham eslab qoladi degandim, kulgu ham huddi shundek. Demak endi hissiyot qo'shamiz:
So‘ngi shtrix, biz xohlagan odam tishlarini qo‘shamiz va vualya:
Xulosa: SI lar chizayotgan rasmlar allaqachon real rasmlardan farqlab bo'lmay qolyabdi. Shuningdek SI yordamida chizilgan rasmlar turli musobaqalarda odamlar ustidan g'olib chiqishmoqda. Sun'iy idrokni ishlatuvchi inson bo'ling, aks holda u sizni ish o'rnizni egallaydi. Sizlar bilan shifokorlikdan voz kechmagan AyTichi Jalilov Shamshod
