Nutqni matnga o‘girish (STT - Speech-to-Text) texnologiyasi ovozni tahlil qilib, uni yozma shaklga keltirish uchun ishlatiladi. Ushbu texnologiya kundalik hayotda va ish jarayonlarida keng qo‘llaniladi, masalan, virtual yordamchilar (Google Assistant, Siri, Alexa), avtomobillarda ovozli buyruqlar, va YouTube kabi platformalarda subtitr yaratishda.
Nutqni matnga o‘girish texnologiyasining asosiy maqsadi – nutqni iloji boricha aniq matn shaklida aks ettirishdir. Biroq, barcha tizimlarda ba'zi xatoliklar yuzaga kelishi mumkin, shuning uchun tizimlarning samaradorligi, aniqliligi WER (Word Error Rate) va CER (Character Error Rate) kabi metrikalar orqali baholanadi.
WER (Word Error Rate) – bu nutqni matnga o‘girish tizimi tomonidan noto‘g‘ri tanib olingan so‘zlarning umumiy foizi. WER ko'rsatkichi qanchalik past bo‘lsa, tizim shunchalik aniq ishlaydi. Quyidagi formulada ifodalanadi:
WER = (S + D + I) / N × 100%
Bu yerda:
- S (Substitutions) - noto‘g‘ri tanib olingan so‘zlar
- D (Deletions) - tushirib qoldirilgan so‘zlar
- I (Insertions) - ortiqcha qo‘shilgan so‘zlar
- N - asl nutqdagi so‘zlar soni
Misol:
Asl nutq: "Men Toshkentga bordim va do‘stlarim bilan uchrashdim."
STT natijasi: "Men Toshkentga bordim va do‘stim bilan uchrashdim."
Xatoliklar: 1 ta noto‘g‘ri so‘z ("do‘stlarim" → "do‘stim")
WER = (1 / 7) × 100 = 14.28%
CER (Character Error Rate) – bu STT tizimi tomonidan noto‘g‘ri tanib olingan harflar foizi. CER ko‘rsatkichi ayniqsa, morfologik jihatdan murakkab tillarda muhim ahamiyatga ega. Quyidagi formulada ifodalanadi:
CER = (S + D + I) / N × 100%
Bu yerda:
- S - noto‘g‘ri tanib olingan harflar
- D - tushirib qoldirilgan harflar
- I - ortiqcha qo‘shilgan harflar
- N - asl matndagi harflar soni
Misol:
Asl matn: "Salom, qalaysiz?"
STT natijasi: "Salam, qalsiz?"
Xatoliklar: 3 ta ("o" → "a", "a" tushirilgan, "y" tushirilgan)
CER = (3 / 15) × 100 = 20%
O‘zbek Tili uchun STT Texnologiyalarining solishtirilishi:
Biz o‘zbek tili uchun ishlaydigan 4 ta kompaniyaning STT texnologiyalarini (AIsha, UzbekVoice, Muxlisa, Google) WAR (Word Accuracy Rate– (1 – WER)) va CAR (Character Accuracy Rate – (1 – CER)) ko‘rsatkichlari asosida solishtirdik. Natijalar quyidagicha:
- WAR bo‘yicha o‘rtacha aniqlik:
- AIsha: 60.50%
- UzbekVoice: 50.92%
- Muxlisa: 26.51%
- Google: 10.87%
1-rasm. WAR bo‘yicha o‘zbek tili uchun STT larning solishtirish grafigi
- CAR bo‘yicha o‘rtacha aniqlik:
- AIsha: 86.67%
- UzbekVoice: 82.93%
- Muxlisa: 60.07%
- Google: 46.21%
2-rasm. CAR bo‘yicha o‘zbek tili uchun STT larning solishtirish grafigi
Tahlil: Natijalar ko‘rsatmoqda, AIsha texnologiyasi o‘zbek tili uchun yuqoridagi texnologiyalari orasida eng yuqori aniqlikka ega. AIsha WAR bo‘yicha 60.50% aniqlik bilan birinchi o‘rinda, CAR bo‘yicha esa 86.67% aniqlikka erishgan. UzbekVoice esa 50.92% WAR va 82.93% CAR bilan ikkinchi o‘rinda. Muxlisa va Google texnologiyalari nisbatan pastroq natijalarni ko‘rsatgan (Muxlisa: 26.51% WAR, 60.07% CAR; Google: 10.87% WAR, 46.21% CAR).
Xulosa: AIsha, UzbekVoice, Muxlisa va Google orasida o‘zbek tili uchun AIsha eng yuqori aniqlikni ko‘rsatmoqda va bu tizim o‘zbek tili uchun yaxshi natijalarga ega. Umuman olganda qolgan STT texnologiyalar ham yuqori aniqlikka erishmoqda. Kelajakda ushbu texnologiyalar yanada rivojlanib, o‘zbek tilini tushunish va qayta ishlashda yanada samarali bo‘lishi kutilmoqda.
