NAUJIENOS

Išliks tik dirbtinio intelekto naudojamos kalbos?..

Kategorija:

Miestas:
 „Penkiolika metų užtruko, kol VDU mokslininkams pavyko sukurti kompiuterio programą, darančią du nuostabius dalykus. Kompiuteris sklandžia lietuvių kalba perskaito parašytą tekstą, taip pat atlieka atvirkštinę funkciją – kalbą užrašo tekstu“, v kiek daugiau nei prieš metus apie Vytauto Didžiojo universiteto (VDU) Informatikos fakulteto doc. dr. Dariaus Amilevičiaus ir to paties fakulteto prof. dr. Gailiaus Raškinio sukurtą kompiuterio programą rašė „Kauno diena“.
Balandžio 28 d. Vilniaus apskrities Adomo Mickevičiaus viešosios bibliotekos ir Valstybinė lietuvių kalbos komisijos organizuotoje konferencijoje „Lietuvių kalba modernėjančiame pasaulyje“. dr. Darius Amilevičius,  remdamasis dirbtinio intelekto ir kalbos technologijų naujaisiais tyrimais bei savo nemaža praktika kuriant šiomis technologijomis grįstus taikomuosius sprendimus lietuvių kalbai, nagrinėjo, ar dirbtinis intelektas jau gali suprasti lietuvių kalbą.

Gerb. dr. Dariau, ar šiandien dirbtinis intelektas jau gali suprasti lietuviškai?

Norint išsamiai atsakyti į šį klausimą, visų pirma reikėtų pradėti filosofinę diskusiją, ar negyvas daiktas gali suprasti?  Žmogus turi unikalų gebėjimą komunikuoti kalba. Kuriant ir vystant dirbtinio intelekto technologijas, pradedame suprasti, kiek mažai mes žinome apie mus pačius. Kas yra sąmonė? Kas yra mąstymas? Komunikuoti kalba yra įgimta, genetiniame lygmenyje užkoduota savybė ar to išmokstame? Statistinis šešiametis nieko nežino apie linksnius ir gimines, bet geba formuoti sklandžius sakinius. Išmokstama? Tai vis klausimai, kuriems atsakymo iki šiol nepateikė nė vienas mokslininkas.

Nesileidžiant į filosofines diskusijas ir apsiribojant technologiniais aspektais, atsakymas paprastas – skaitmeninė mašina nesupranta nė vienos žmogaus kalbos. Modernios dirbtinio intelekto technologijos, vykdydamos užduotis, nesusijusias su žmogaus kalba, jau pasiekia stulbinančių rezultatų, kurie kartais lenkia žmogaus galimybes. Bet žmogaus kalba skaitmeninei mašinai vis dar yra sunkiai įveikiamas barjeras. Dirbtinio intelekto technologijų rezultatas – didelis, sudėtingas matematinis modelis, kuris apsimokina iš didelių duomenų masyvų. Mokymosi metu modelis nustato ryšius tarp atskirų duomenų ir pradeda atliekti aukšto lygio manipuliaciją duomenimis. Tokios manipuliacijos rezultatas sudaro įspūdį, kad mašina „supranta“, „mąsto“. Bet išties tai yra tik manipuliacija, be tikro supratimo, kuo mašina manipuliuoja. Mūsų atveju mašina manipuliuoja šnekos arba teksto duomenimis. Gramatika yra sistema, todėl iki tam tikro lygmens mašina išmoksta ją „suprasti“ ir gauname tikrai stulbinančius rezultatus, kurie leidžia tobulai automatizuoti kai kuriuos rutininius darbus, susijusius su žmogaus kalba. Pavyzdžiui, šnekos perrašymas tekstu. Valandos trukmės susirinkimo garso įrašą žmogus rankiniu būdu perrašinėja apie tris valandas. Mūsų komandos sukurtas transkribatorius tai atlieka per dešimt minučių, pateikdamas transkripciją suskaidytą ne tik pagal kalbėtojus, bet ir atpažintus žodžius sujungdamas į prasmines struktūras – sakinius – ir sudėdamas tinkamus skyrybos ženklus. Žiūrint į rezultatą susidaro įspūdis, kad tai atliko žmogus. Kokia iš to praktinė nauda? Naudų daug ir daugelyje sričių. Pakanka paminėti sveikatos apsaugos sistemą. Jaunuolis / jaunuolė tampa gydytoju / gydytoja tam, kad gelbėtų žmogaus sveikatą ir gyvybę, o ne tam, kad valandų valandas duomenis suvedinėtų į sistemą. Kuo labiau automatizuosime rutininius gydytojo darbus, tuo daugiau laiko jis galės skirti pacientams.

Arba mūsų komandos sukurtas teksto generavimo neuroniniu balsu sprendimas, kuris tinkamai suderina linksnius, tinkamai kirčiuoja. Neuroninės technologijos leidžia gauti rezultatą, natūralumu prilygstantį natūraliam žmogaus balsui. Todėl dažnas klausytojas sunkiai patiki, kad tekstą skaito mašina, o ne žmogus. Nors specialiai to nesiekėme, bet mokymo metu mašina pati išmoko tinkamai intonuoti, tuo mus labai nustebindama. Kokia nauda? Vėlgi, naudos įvairios ir įvairiose srityse. Paminėsiu Lietuvos Respublikos Seimo ir Nacionalinio transliuotojo (LRT) iniciatyvą pasinaudojant mūsų sprendimu neuroniniu balsu generuoti straipsnius. Tai leidžia žmonėms su regos negalia gauti informaciją iš pirmų šaltinių ir taip aktyviai dalyvauti šalies gyvenime, o kitiems – tausoti akis nuo ekrano, tekstą išklausant, o ne skaitant.
Visame pasaulyje vyksta sparti šnekos technologijų rinkos plėtra, visų pirma dėl proveržio rezultatų galimybių juos efektyviai taikyti sveikatos apsaugos sektoriuje. Proveržis įvyko apie 2014 m., kai natūralios kalbos technologijose įvyko vadinamoji neuroninė revoliucija.

Kadangi Lietuvių kalba priskiriama nekomercinėms kalboms, lietuvių kalbos technologijų plėtra labai susijusi su tuo, kiek Valstybė skiria dėmesio ir finansavimo. Lietuvoje 2018–2020 m. buvo vykdoma Europos Sąjungos struktūrinių fondų lėšomis finansuojama valstybinė programa „Lietuvių kalba informacinėms technologijoms“. Jos metu buvo pasiektas ženklus proveržis ir galime drąsiai teigti, kad pasiekėme Europos Sąjungos vidurkį.  Projektų vykdytojai sukūrė ir rinkai pateikė daug nemokamų, pažangių lietuvių kalbos technologijų sprendimų ir kalbos išteklių. Juos pradėjo naudoti Lietuvos Respublikos Seimas, nacionalinis transliuotojas, dar kelios valstybinės institucijos. Bet Lietuvoje inovacijos vis dar sunkiai skinasi kelią. Ypač valstybiniame sektoriuje, teisinėje ir sveikatos apsaugos sistemose, kur nuolat skundžiamasi virškrūviais ir jos gali būti labai efektyviai panaudotos.
 
Kokios problemos kyla „mokant“ dirbtinį intelektą suprasti lietuviškai?
 
Problemų yra daug, todėl apsiribosiu keliomis.

Visų pirma, esame maža rinka, todėl lietuvių kalba priskiriama nekomercinių, „mažųjų“ kalbų šeimai. Vokiečių kalbą naudoja apie 130 mln. žmonių. Lietuvių – apie 3–3,5 mln. Todėl visi pasauliniai technologiniai sprendimai visų pirma orientuoti į anglų, vokiečių ir kitas didžiąsias kalbas. Lietuvių kalba ženkliai skiriasi nuo jų, todėl ne visada pakanka technologinius sprendimus vien adaptuoti, gana dažnai juos tenka perkurti. Pavyzdžiui, algoritmai, pritaikyti analizuoti sakinį anglų kalba, kur žodžių tvarka fiksuota, visiškai netinka lietuvių kalbai, kur veiksnys gali būti tiek sakinio pradžioje arba bet kurioje kitoje sakinio vietoje.

Antra, turime vieną sudėtingiausių kalbų pasaulyje. Lietuvių kalba yra morfologiškai ypatingai turtinga kalba. Iš 180 000 dažniausiai vartojamų lietuviškų žodžių pagrindinių formų – vienaskaitos vardininkas – pagal mūsų kaitybos taisykles sugeneruojame apie 20 000 000 morfologinių formų. Žodžiai, turintys skirtingas morfologines pažymas, kartais turi tokią pačią užrašymo formą. Iš to kyla žodžių vienareikšminimo problema. Pavyzdžiui, kokia žodžio „yra“ bendratis: „Irti“ ar „būti“? „Dėdės ir tetos“ – tai daugiskaitos vardininkai ar vienaskaitos kilmininkai? „Darius“ sakinio pradžioje rašomas iš didžiosios raidės – tai dalyvis ar tikrinis vardas?  Be konteksto į šiuos klausimus net žmogus nesugebės atsakyti. O morfologinės kategorijos lemia ne tik žodžio reikšmę, bet dažnai ir skirtingą kirčiavimą.  

Trečia, mašininiam mokymui skirtų skaitmeninių kalbos išteklių stygius. Lietuvių kalba, kaip ir kitos „mažosios“ kalbos, priskiriama nepakankamai kalbos išteklių turinčių kalbų šeimai (kaip latvių, estų, kt.). Kai turime mažai kalbą naudojančių, jie, palyginti su anglų kalba, skaitmeninių išteklių kuria sąlyginai mažai. O mašininiam, ypač giliajam, mokymui reikia ypatingai didelių duomenų masyvų, kurių apimtis turi būti skaičiuojama milijardais žodžių. Asmeniškai ne tik kalbu apie technologijas, bet užsiimu ir jų vystymu bei taikymais, todėl kasdien skaudžiai susiduriu su šia problema. Ypač siauros specializacijos srityse, kaip teisė. Nors turime jau išbandytus metodus, kaip dirbtinai gausinti duomenų kiekį, bet situaciją papildomai apsunkina griežti duomenų apsaugos reglamentai. Pavyzdžiui, įvardytų esybių atpažintuvas yra įrankis, kuris mašinai leidžia tekste atpažinti asmenis, organizacijas, miestus, kitas geografines vietoves ir pan. Dėl to mašina gali, pavyzdžiui, analizuojant sutartis, tinkamai atpažinti veikėjus, jiems priskirti roles, tinkamai nustatyti santykius tarp jų ir t. t. Po ilgų vargų gavęs iš kurios nors institucijos dokumentus apmokinimui, juos gaunu nuasmenintus. Tai reiškia, kad turiu sugaišti labai daug laiko nuasmeninimą keisdamas pseudo-duomenimis.
Ketvirta, aukšti kaštai. Kai kalbame apie vaizdų atpažinimą, situacija kita, nei kalbos technologijų atveju. Katinėlių ir šuniukų nuotraukos nesiskiria, ar jos fotografuotos Lietuvoje, ar užsienyje. Joms analizuoti galima taikyti visame pasaulyje naudojamus algoritmus be pakeitimų. Situaciją labai supaprastinau, bet esmė nekinta. Todėl ir Lietuvoje daug kas dirba su vaizdų analizės sistemomis, bet mažai kas su kalbos technologijomis. Lietuvių kalbą labai skiriasi nuo kitų kalbų, todėl iš kitų kalbų negalime perimti mašininiam mokymui reikalingų kalbos išteklių. Juos reikia rengti patiems. Kalbos technologijų projektuose kalbos išteklių parengimas užima apie 50 proc. projektui skirto laiko ir sąnaudų. Dėl lietuvių kalbos specifikos ne visi algoritmai yra tinkami dirbtinio intelekto technologijų apmokinimui lietuvių kalba. Apibendrinant, tokių projektų kaštai dideli, o lietuvių kalbos rinka maža ir verslui nepatraukli. Be valstybinio finansavimo kalbos technologijų projektai būtų neįmanomi nei universitetams, nei verslui.

Matant tiek problemų, natūraliai gali kilti klausimas – ar tikrai reikia mašiną mokyti suprasti lietuvių kalbą?

Kuo svarbus lietuvių kalbai dirbtinio intelekto toks mokymas?

Gal suskambės baisiai, bet realiai kalbame apie lietuvių kalbos išlikimą, kuris susijęs su mūsų identiteto išsaugojimu ir kitomis vertybėmis. Palyginti dar neseniai įsitvirtinimas elektroninėje erdvėje buvo viena iš pagrindinių bet kurios kalbos išlikimo prielaidų. Dabar prisidėjo antroji – kalbą turi naudoti dirbtinio intelekto technologijos. Šios technologijos yra unikalios. Jos žmogaus veiklos erdvę užpildo sparčiai, tyliai ir nepastebimai. Jei laiku nepasirūpinsime, labai greitai susidursime su situacija, kai išmanus šaldytuvas komunikuoja tik anglų kalba, tik anglų kalba galime valdyti savaeigį automobilį, o ligoninėje slaugos robotas pagalbą teikia tik anglų kalba kalbančiam pacientui. Iš kitos pusės, nė vienos paslaugos, susijusios su žmogaus kalba, neįmanoma automatizuoti nepanaudojant natūralios kalbos technologijų. Kalbame ne tik apie robotus pardavėjus, teisines arba sveikatos apsaugos sistemų paslaugas, bet ir apie viešojo sektoriaus paslaugas. Mūsų Konstitucijoje įtvirtinta, kad mūsų valstybinė kalba yra lietuvių. Europos Sąjungos narystės sutartyje yra įtvirtintas Europos Sąjungos įsipareigojimas, kad tinkamai bus rūpinamasi visų valstybių narių kalbomis. Kaip jau sakiau, ne visos kalbos yra komerciškai patrauklios. Gal lietuviškai „suprantanti“ savaeigė transporto priemonė kainuos brangiau, nei tik anglų arba kinų kalbas „suprantantis“ analogiškas produktas. Privatus pirkėjas, greičiausiai, turi turėti galimybę rinktis, o jo pasirinkimą dažnai lemia ne vien vertybių sistema. Bet kai kalbame apie valstybės paslaugas piliečiams, sistemos turi gebėti juos aptarnauti valstybine kalba. Noriu būti objektyvus. Jei vieną gražią dieną tautos dauguma pakeis nuomonę apie kalbą bei tapatybę ir Lietuvoje bus įvesta dvikalbystė, į šį klausimą atsakinėsiu kitaip.
  
Lietuvių kalba turi daug savitų niuansų, pavyzdžiui, arklys, žirgas, kuinas arba mama, mamytė, motulė, ar vis geriau lietuviškai suprantantis ir kalbantis dirbtinis intelektas neprisidės prie kalbos skurdinimo?

Praeityje, kai žodynai buvo sudarinėjami rankiniu arba pusiau rankiniu būdu, sinonimai buvo rimta problema ir iššūkis. Kalba yra gyva. Nauji žodžiai kuriami nuolatos. Nuolat kinta jų vartosena. Kol žodynas buvo sudaromas, praeidavo keleri metai. O mašina operavo tik žodyne pateiktomis žiniomis. Apie 2014 metus natūralios kalbos technologijose įvyko neuroninė revoliucija. Skaitmeninė mašina atlieka tik skaičiavimus, todėl neuroninis tinklas operuoja tik skaičiais. Vadinasi, žodžius reikia kažkaip pakeisti skaičiais, bet skaičių sistema turi būti labai išmani, kad būtų galima skaičiuose suakumuliuoti kuo daugiau semantinės informacijos. Nuo 2014 metų tokie sprendimai buvo sukurti ir jie nuolat vystomi. Žodžius pradėjome keisti įterptiniais žodžių vektoriais, kurie jau leidžia suakumuliuoti visą svarbiausią informaciją apie žodį: semantinė informacija (žodžio reikšmę lemia žodžiai, su kuriais jis naudojamas), žodžio vieta sakinyje, kita. Tai lėmė tikrą proveržį natūralios kalbos technologijose, kai mašina pradėjo sąlyginai „suprasti“ tekstą. Įterptiniai žodžių vektoriai matematinėje hipererdvėje sinonimus patalpina greta vienas kito, todėl jau ne žmogus mašinai turi pateikti sinonimų sąrašą, o mašina padeda žmogui analizuoti einamuoju momentu gyvoje vartosenoje esančius sinonimus. Kai kūrėme socialinių tekstų analizatorių, įterptinių žodžių vektorių modelį sukūrėme iš tekstyno, kuriame buvo 200 000 įvairios tematikos socialinių tekstų. Kai pabandėme iš modelio ištraukti „kunigas“ sinonimus, tarp jų atsirado „Doveika“. Tai mus nustebimo, bet kai paanalizavome tekstus, pasirodė, kad socialiniuose tekstuose žmonės dažnai vietoj „geras kunigas“ naudoja „Doveika“. T. y., pagal kontekstą mašina „suprato“ ir perkeltinę prasmę.
Mašina žmogaus kalbos nesupranta, todėl ji kalbos negali nei skurdinti, nei pratutinti. Viskas priklauso nuo paties žmogaus. Kaip jis kalbą vartoja, palikdamas apie tai „skaitmeninį pėdsaką“ elektroniniame tekste arba garso įraše. Ir priklauso nuo specialisto, kuris tekstyną parengia mašininiam mokymui. Bet yra niuansai. Paminėsiu Microsoft‘o pokalbių roboto atvejį. 2015 metais kompanija parengė pokalbių robotą, kuris su vartotojais turėjo bendrauti socialiniame tinkle Twitter. Laboratorijos sąlygomis pokalbių robotas buvo apmokintas gerai parengtu tekstynu, bet paleistas socialiniame tinkle jis greitai persimokė, kaip išties kalba žmonės, ir pradėjo svaidytis seksistiniais ir rasistiniais pasisakymais. Kompanija labai greitai turėjo robotą išjungti, nes sulaukė begalės protestų. Tai papildomai atkreipė dėmesį į intelektualių technologijų reglamentavimo spragas. Bet esmė lieka ta pati – mašina kalbą naudos tik taip, kaip tą daro pats žmogus.

Dėkoju už pokalbį.

Kalbino Karolina Baltmiškė
Straipsnio iš straipsnių ciklo „Lietuvių kalbos aktualijos“ parengimas ir publikavimas  paremtas Valstybinės lietuvių kalbos komisijos koordinuotos Lietuvių kalbos prestižo stiprinimo programos lėšomis.
 

Reklama