Lietuvių kalbą siekia perkelti į elektroninę erdvę: kuria atpažinimo programą (4)
Kviesdamas žmones į Vilniaus universiteto Filologijos fakultete įkurtą studiją skaityti tekstų, lingvistas profesorius Vytautas Kardelis su kolegomis kuria lietuvių šneka valdomas mobiliąsias paslaugas.
Prisijunk prie technologijos.lt komandos!
Laisvas grafikas, uždarbis, daug įdomių veiklų. Patirtis nebūtina, reikia tik entuziazmo.
Sudomino? Užpildyk šią anketą!
Jeigu norime, kad lietuvių kalba klestėtų, jai reikia rasti vietą elektroninėje erdvėje. Tuo įsitikinęs 48 metų profesorius V.Kardelis.
Tam skirtas projektas LIEPA 2, kuriuo siekiama kuriant ateities skaitmeninius produktus lietuvių šneka valdomas mobiliąsias paslaugas didinti lietuvių kalbos vartojimą elektroninėje terpėje.
Prakalbinti kompiuterius lietuviškai mokslininkai siekia jau 50 metų. Dabar jie kuria atpažintuvo programą, o V.Kardelis vadovauja garsyno grupei.
Tad netrukus kiekvienas galės lietuviškai valdyti telefono skambinimo funkcijas, kompiuteriai ar robotai paklus lietuviškam žodžiui.
Svarbu ir tai, kad lietuvių šnekos sintezatoriaus teikiamomis paslaugomis galės naudotis neregiai, o skaitytuvas, balsu skaitantis mūsų pasirinktas žinias internete, suteiks galimybę pailsinti akis arba naujienų klausytis vairuojant, einant pakeliui namo ar esant tamsioje patalpoje.
– Kaip paprastai galėtumėte paaiškinti, kodėl lietuvių kalbą svarbu perkelti į elektroninę erdvę? – pasiteiravo V.Kardelio „Sostinė“.
– Tai su kalbos likimu susiję reikalai. Jeigu jos nebus elektroninėje erdvėje, jos iš viso nebus. Turime taikytis su laiku. Technologijos bėga į priekį, privalome jas vytis.
Didžiosioms kompanijoms, tarkime, „Google“, kurios užsiima kalbos technologijų dalykais, mažosios kalbos yra neįdomios. O jeigu mes neturime alternatyvos lietuviškai, pereiname prie anglų kalbos. Tad lietuvių kalbos vartojimo sfera pradeda siaurėti.
Puikus pavyzdys – kompiuterių programos, pavyzdžiui, „Word“. Gauname anglišką, viskas veikia, po to staiga atsiranda lietuviška aplikacija. Tie, kurie buvo pripratę prie angliškos versijos, garsiai keikiasi – mat reikia vėl mokytis. Taigi šie dalykai turi eiti koja kojon su pažanga.
Taip, jaunimas dabar moka angliškai, telefonus gali valdyti šia kalba. Bet yra daug žmonių, kurie nemoka anglų kalbos. Projekto LIEPA 2 paslaugos kaip tik ir nukreiptos į mobiliuosius įrenginius.
Reikia pabrėžti, kad šios paslaugos bus svarbios neregiams ir silpnaregiams bei vyresnio amžiaus žmonėms.
– Kiek darbo jau nuveikta?
– Esame užsibrėžę atpažintuvo programai įrašyti 1000 valandų įrašų. Maždaug pusė jau įrašyta.
Tas garsynas, kurį mes kuriame, nukreiptas į ateitį. Norime, kad jis būtų reprezentatyvus. Be to, projektas LIEPA 2 bus visiškai atviras, juo galės naudotis visi. Kuriame tam tikrą modelį, tad mūsų paslaugas galima būtų vadinti pavyzdinėmis.
Garsynu rūpinasi filologai, o paskui į darbą kimba matematikai, informatikai.
Galima sakyti, kad mes jiems ruošiame žaliavą.
Užtektų ir 200–300 valandų įrašų, tačiau kuo daugiau medžiagos pateiki, tuo atpažinimas būna tikslesnis.
– Tos žaliavos nebūtų be žmonių, tekstų skaitovų. Kas jie, ar sunku būna prisikalbinti?
– Nesakyčiau, kad labai sunku. Be to, turime ir pagalbininkų iš Nacionalinės Martyno Mažvydo bibliotekos. Jie net įrašų padaro savoje studijoje.
Iš pradžių kalbinome tekstus skaityti gimines, artimuosius, paskui pažįstamus, dar vėliau prašymą paskelbėme socialiniuose tinkluose. Tad dabar būna, kad ateina į studiją žmonės iš gatvės. Užsuka ir televizijos žinių vedėjai, žurnalistai.
– Bet dauguma tų žmonių, kurių balsus įrašote, yra vilniečiai. O jų šnekoje ilginami balsiai, yra kitų nukrypimų nuo norminės kalbos. Ar tai nebus problema?
– Viso šio projekto esmė yra kalbos įvairovė. Juk net tas pats žmogus nekalba vienodai.
Duodame žmogui lapą, kuriame – bendrinės, standartinės kalbos tekstas.
Skaitydamas jis galūnes nutrumpina, balsius pailgina. Nes žmogus, kai atsipalaiduoja, pradeda šnekėti natūraliai.
Atpažintuvui natūralumas yra vienas svarbiausių kriterijų. Jeigu garsynas ir atpažintuvas būtų vien norminės kalbos, paprastas žmogus, kalbėdamas su telefonu, negalėtų susišnekėti.
Aparatas turi taikytis prie žmogaus, o ne atvirkščiai. Tai jeigu aš sakau „vysas, kytas“, o kitas – „visas, kitas“, aparatui neturėtų būti problemų.
Todėl įrašysime 2 tūkstančių žmonių kalbą, tada informatikai rašys algoritmą ir atsiras garsų aibė. Taip balsis „o“ bus nuo „u“, „uo“ iki „o“.
Beje, ateina tekstų skaityti ne vien vilniečiai. Jeigu girdime, kad žmogus labai aukštaičiuoja arba žemaičiuoja, panaudojame ne visą jo skaitytą tekstą.
– Vadinasi, tarmių išsaugoti šis projektas nepadės?
– Jeigu paaiškės, kad reikia aukštaitiško arba žemaitiško atpažintuvo, surinkus garsyną jį bus lengviau sukurti.
Yra žmonių, kurie stengiasi tarmes išsaugoti, tačiau jaunimas tarmiškai kalba vis rečiau. O komunikacija yra paprastas dalykas: arba tu supranti, arba ne.
– Ar bus žodžių, kurių kompiuteriai, mobilieji įrenginiai neatpažins?
– Taip. Tai pirmiausia naujadarai, žargonas. Kompiuterio pagrindinė bėda yra reikšmė arba semantika. Jis gali atpažinti formą, bet dėl turinio gali iškilti problemų.
Geriausias pavyzdys – „Google“ vertėjas. Mano krikšto sūnus darė eksperimentą: leido šiam vertėjui išversti eilėraštį iš lietuvių į anglų kalbą, o paskui – atgal į lietuvių. Atsirado nesuprantama pasaka.
Mobiliesiems prietaisams valdyti yra atitinkamos frazės, bet jeigu reikia atpažinti ilgesnius tekstus, tada daug kas priklauso nuo duomenų bazės.
Tad prašydami žmonių skaityti tekstus siekiame ne tik kuo didesnės balsų, bet ir tekstų įvairovės.
Įrašome ne tik skaitomus tekstus, bet ir žmonių pokalbius. Štai tada ir išlenda žargonas. Žinoma, kuo daugiau valandų įrašų, tuo platesnės atpažinimo ribos. Kol kas kompiuteris nemoka atskirti frazės nuo triukšmo, bet tikiu, kad netrukus jis tai išmoks.
Kol kas tai reikia padaryti rankiniu būdu.
– Ar tokia programa padės lietuvių kalbai tapti žinomesnei pasaulyje?
– Be abejo, taip. Juk viskas persikelia į interneto erdvę. Šveicarai yra sukūrę mobiliąją programėlę, kuri telefone pavaizduoja sūrį, alaus ąsotį ar kitą daiktą, o apačioje yra klausimas: „Kaip jūs tai vadinate?“
Tokių klausimų yra šimtas, tu per kelias minutes žaisdamas į juos atsakai. Taip lingvistai yra surinkę daugybę naudingos medžiagos ir nereikia niekur važiuoti, gaišti laiko.
Manau, kad ateityje tą garsyną galima būtų rengti tokiu pat būdu. Žmogus telefonu paskaito tekstą, papasakoja istoriją, ir mes jau turime medžiagos.
Kuo kalbos daugiau interneto erdvėje, tuo jai geriau.
– Kalba keičiasi. Po kiek metų atpažinimo sistemą teks atnaujinti?
– Jeigu įsivaizduotume, kad kiekviena kalba turi vidinį laikrodį, tai anglų kalba yra gana greita kalba, o lietuvių – lėta. Žinoma, turint bazę reikia sekti, kas vyksta, ir kai ką pakoreguoti.
Labai naudingas dalykas yra tai, kad mes pagaliau matome realią padėtį. Juk vieni kalbininkai aiškina, kad kalbą reikia tvarkyti, kiti – kad ne.
Dauguma žmonių įsivaizduoja, kad bendrinė kalba – kaip parašyta gramatikoje. Taip toli gražu nėra. Tuo gali įsitikinti, kai žmogus pradeda skaityti tekstą: nekirčiuotoje pozicijoje visi balsiai trumpi, nebėra dvibalsių „ie“, „uo“. Vietoj jų – „ė“, „o“.
Ateina tekstų skaityti merginos iš LRT: tartis aiški, žino, kur daryti pauzes.
Atsisėda studentas – ir prasideda. Jam neišeina ištarti „ie“, nes jis kalba natūraliai. Ir tokių dauguma. Tarties normų laikosi mažuma.
Ar žmogus laikosi tarties normų kasdieniame gyvenime, paaiškėja spontaninio pokalbio metu.
– Tai bėda ar ne?
– Jeigu kalbėsime apie kalbos standartą, tai yra bėda. Bet ar mes laikomės to, kas gramatikoje parašyta, bet natūraliai nevyksta, ar mes keičiame standartą ir gyvename toliau?
Nereikia pamiršti patogumo kriterijaus. Jeigu nepatogus naudotis telefonas ar automobilis, juos keičiame. Kalba – lygiai toks pat instrumentas.