Ushbu mavzuga kirishdan oldin odam o'zi qanday eshitishini tushunib olishimiz zarur.
Odam qanday eshitadi?

Biror bir manbadan(masalan qarsak馃憦) hosil bo‘lgan tovush to‘lqini tashqi eshituv yo‘li orqali quloqdagi nog‘ora pardani tebrattiradi, ushbu tebranishni quloq ichki suyakchalari eshituv chig‘anog‘iga uzatadi, u yerda esa eshituv yadrolarida nerv orqali miyaga signal shaklida ma始lumot uzatiladi. Agarda jarayon sizga murakkab tuyulgan bo‘lsa tasavvur qiling, ko‘p qavatli uylarda baland qo‘shiq eshitayotganingiz qo‘shningizga xalaqit qilsa isitgich trubasini bolg‘a bilan sizni manzilingizga chiroyli niyatlar qilganda, siz "Ha, qo‘shnimni bezovta qilayabman ekanku" degan xulosaga kelishingiz kabi.
Endi miya signalni qabul qildi, uni nima anglatilishini qayerdan biladi? Siz chet tilida biror so‘zni yodlagansizmi? Uni dastlab talaffuz qilasiz masalan «Money», va unga ma始noni hayolan biriktirasiz “Pul” va eslab qolasiz. Shundan so‘ng har safar Money so‘zini eshitganizda hayolizga Pul so‘zi keladi. Bolalar ham o‘sish davomida so‘z o‘rganishayotganda uni biror ma始noga bog‘liq ekanini tushunib olishadi va shu so‘zni boshqalar qanday talaffuz qilayotganlarini eshitib, uni qaytarish orqali o‘sha narsaga ishora qilib boshlashadi.
Mikrofon qanday ishlaydi?

Mikrofonga kelayotgan tovush to‘lqinlari undagi membranani to‘lqinlantiradi, membrana ushbu tebranishni ortida joylashgan metall halqalarga uzatadi, halqalar atrofida joylash yirik magnitlar hisobiga esa elektromagnit signallari paydo bo‘ladi.
ASR (STT) bu nima?
"ASR - Automatic Speech Recognition" bu "Avtomatik nutqni tanib olish" deb ataladi va o'z nomidan anglatib turibdiki bu texnologiya yordamida tovush signallaridagi nutq avtomatik tanib olinadi. Shuningdek "STT - Speech-to-Text" bu "Nutqni matnga aylantirish"ni anglatib, ASR sinonimi sifatida ishlatilsada ASR kattaroq tushuncha hisoblanadi. Shu sababli ushbu maqolada biz Avtomatik nutqni tanib olish jarayonini chuqurroq o'rganishga harakat qilamiz.
Tovush to'lqinlar chizmasi qanday paydo bo'ladi?
Biror manba, masalan suv oqishidan hosil bo‘lgan tovush to‘lqinlari Mikrofonga kelib uriladi, Mikrofon membranasiga tovush kelganda to‘lqin chizig‘i yuqoriga ko‘tariladi(qizil) tovush kamayganda esa pastga tushadi(ko‘k). Agarda hech qanday tovush bo‘lmasa demak o‘rtada o‘z joyida turadi. Ushbu jarayonlarni ilmiy nomlari bo‘lgani uchun ularni tarifini qoldiraman:
Compression (siqilish):Bu faza tovush to'lqinining bir qismi bo'lib, unda havo molekulalari bir-biriga yaqinlashadi va bu orqali bosim ortadi. Bu jarayon tovush manbasidan tovush to'lqinlari chiqayotganida sodir bo'ladi, masalan, tovush manbasi (masalan, karnay) tebranayotganda havo molekulalarini oldinga suradi. Siqilish fazasida havodagi bosim normal holatidan yuqori bo'ladi.
Rarefaction (siyrilish): Bu faza siqilishning aksidir. Bu jarayon tovush manbasi tebranishining teskari yo'nalishi natijasida hosil bo'ladi. Rarefaction paytida havo molekulalari bir-biridan uzoqlashadi, bu esa bosimning pasayishiga olib keladi. Bu fazada havodagi bosim normal holatidan past bo'ladi.
Ish jarayonida sizga bevosita boshqa shakldagi chizma uchrashi mumkin:

Ammo qo'rqmang bu shunchaki yuqoridagi to'lqinlarning bosim shaklida ko'rinishidir. Ya'ni yashil bu o'rtadagi holat, qizil yuqori va ko'k pastni to'lqinni anglatadi.
Avtomatik nutqni tanib olish qanday ishlaydi?
Mikrofon orqali ovozni yozib oldik, endi undagi nutqni tanib olish jarayonini ko'rib chiqamiz.

Dastlab ovoz to'lqinlari 25 millisekundli qismlarga(frame) bo'lib olamiz. Nutqning har bir bo'lagida qandaydir fonema joylashadi.
Fonema nimaligini eslash uchun ona tiliga qaytamiz. Buning uchun wikipediaga yuzlanamiz:
Fonema (yun. phonema — tovush) — til tovush qurilishining ma始noli birliklar — morfemalar tanib olish va farqlash uchun xizmat qiladigan birligi; o驶z navbatida, morfemalarning eng kichik tarkibiy qismi sifatida so驶zlarni ham o驶zaro ajratadi va farqlaydi. U faqat so驶z va morfemalar tarkibidagina muayyan ma始noga, ma始no farqlash xususiyatiga ega bo驶ladi.
Hech nimani tushunmaganlar uchun, fonema bu tovush, tovushlarda so'z yaraladi. Masalan "Salom" so'zini olaylik, unda 5 ta fonema mavjud, "s", "a", "l","o","m". Talaffuz qilib ko'ring, hammasi bir biriga o'xshamaydigan tovushlardir.
Demak biz tovush to'lqinlarini qismlarga ajratib olamiz:
Endi har bir bo‘lakda bittadan fonema joylashadi dedik, ammo bu aynan qaysi fonema ekanini qayerdan bilamiz?! Bu yerga bizga Akustik model(asoustis model) yordamga keladi. Akustik modelni osonroq tasavvur qilish uchun:
Akustik model bu ma'lum tildagi barcha fonemalarni o'zida jamlagan tizimdir. Shuningdek ushbu modelda odatda birga yuradigan fonemalar jamlanmasi ham saqlanadi. Masalan:
Ko'rib turganizdek akustik model barcha ketma ket keladigan fonemalarni o'qitish jarayonida eslab qolgan.
Ammo bu hali hammasi emas, akustik model shuningdek taqqoslash orqali ehtimollikni ham hisoblay oladi. Ya'ni bir yuqoridagi to'lqinlarni qismlarga ajratib olgandik, va har bir qism fonemadan iborat edi, akustik model esa fonemalar bir biriga qiyoslab qaysi biri bu yerda qo'llanilganini aniqlay oladi. Masalan:
Demak akustik model katta fonemalarni aniqlash orqali harflar ketma ketma ketligini yuqori aniqlikda taxlab bera olar ekan. Ammo, ketma ket so'zlar kelganda qanday ularni bir biridan ajratib olamiz?

Agarda xayolingizga "Pauzalar orqali" degan xayol kelgan bo‘lsa, tabriklayman fikrlaringiz yaxshi ekan, ammo nativ nutq egalari ko‘p hollarda so‘zlar orasida sezilarli pauzasiz gapirishadi va shu tufayli bizga bu yo‘l to‘g‘ri kelmaydi.
Bu yerda yana o‘yinga biz uchun sevimli "Til modullari"(Language models) o‘yinga kiradi.
Til moduli ushbu harflar ketma ketligini olib ularni qanday frazalarga ajratsa mantiqiy gap paydo bo‘lishini hisoblab chiqadi.

Til moduli bu ehtimollikni qayerdan olgan desangiz, shunchaki unga o'qitish jarayonida judayam ko'p gaplar yodlatilgan bo'ladi. Va o'sha so'zlar ketma ketligiga duch kelganda o'zida bilimlarida ular qancha hollarda birga kelganiga qaraydi va ehtimollikni hisoblaydi.
Xulosa: Avtomatik nutqni tanib olish jarayonida eng qiyin ish aslida uni o'qitishdir, chunki sizga ularni o'qitish jarayonida bir necha ming soatlab audio ovozlarini unga o'qitishingiz zarur bo'ladi. Keyingi maqolalarimizda shu kabi texnologiyalarni 0 dan o'z qo'lingiz bilan yaratish haqida gaplashamiz. E'tiboriz uchun rahmat, siz bilan shifokorlikdan voz kechmagan AyTichi Jalilov Shamshod.
