Rašote komentarus anonimiškai? Nepasislėpsite! (0)
Prisiminkite situaciją, kai paskutinį kartą internetinėje erdvėje rašėte „anonimiškai“, nes slėpėtės po išgalvotu pseudonimu ar jungėtės per įgaliotąjį serverį, maskuodami savo IP adresą. Ar nebūtų tuomet apmaudu, jei pritaikius automatinius metodus iš tokio anoniminio teksto vos per keletą sekundžių būtų galima sužinoti Jūsų amžių, lytį, išsilavinimą, politines pažiūras, asmenybės tipą (intravertas/ekstravertas), net nustatyti ar ateityje sirgsite Alzhaimerio liga? Skamba lyg būtų mokslinė fantastika? Visai ne! Tokie tyrimai jau porą dešimtmečių vykdomi anglų kalbai.
Prisijunk prie technologijos.lt komandos!
Laisvas grafikas, uždarbis, daug įdomių veiklų. Patirtis nebūtina, reikia tik entuziazmo.
Sudomino? Užpildyk šią anketą!
Iš parašyto anoniminio teksto Jūsų amžiaus grupę gebėsime nustatyti 47 proc., lytį – 74 proc., o politines pažiūras (dešinė, kairė ar centras) – 59 proc. tikslumu.
Kiekvieno žmogaus rašymo stilius yra unikalus kaip jo piršto antspaudas, todėl kai kurie mokslininkai jį drąsiai lygina su žmogaus genomu bei priskiria biometrinėms charakteristikoms. Nepaisant to, identifikuoti konkretaus žmogaus tapatybę iš anoniminio teksto nėra taip paprasta. Prieš tai reikėtų rašytų tekstų, iš kurių automatiniais metodais ištraukę Jūsų rašymo stiliui būdingą informaciją, galėtume išmokyti kompiuterines programas ją atpažinti.
Stilių apibūdina daugybė veiksnių: naudojamas žodynas (sinonimika, žargonas, barbarizmai), įvairūs išsireiškimai, mėgstamos sakinių konstrukcijos, jausmaženkliai, naudojami ar kaip tik nenaudojami diakritiniai ženklai lietuviškose raidėse, gramatinės bei sintaksinės klaidos ir kt. Pateikus šiuos veiksnius kaip gaires, automatinis metodas geba pats Jus išskirti iš kitų analizuojamoje grupėje esančių autorių, todėl normine/nenormine lietuvių kalba parašytą tekstą galima atpažinti 94 proc./75 proc. tikslumu (jei reikia rinktis iš 3 grupėje esančių autorių), 80 proc./48 proc. (jei iš 20), 75 proc./39 proc. (jei iš 50), 71 proc./35 proc. (jei iš 100).
Automatiniais metodais gauti lietuvių kalbos rezultatai tikrai neblizga, ypač nenorminės kalbos (įvairiems interneto komentarams, forumo tekstams ir pan.), tačiau progresas autorystės nustatymo srityje vyksta ir tik laiko klausimas kada iškils rimta grėsmė mūsų teisei į anonimiškumą. Patys naujausi autorystės nustatymo tyrimų rezultatai anglų kalbai iš tiesų priverčia rimčiau susimąstyti: mokslininkai atlikę eksperimentus su dešimčia tūkstančių autorių, pasiekė 45 proc. tikslumą, o net su šimtu tūkstančių autorių – 20 proc. tikslumą. Tuo tarpu mes, atlikę tyrimus su tūkstančiu autorių lietuvių kalbai, tegalime „pasigirti“ kukliais 14 proc., todėl ir nesigiriame, tiesiog palyginimui paminime šį skaičių.
Užuot kritikavę netobulus metodus, verčiau pasistenkime suprasti koks sudėtingas yra autorystės nustatymo uždavinys. Pabandykite patys anoniminį tekstą priskirti kuriam nors iš tūkstančio autorių, prieš tai įsigilinę į tų autorių rašytus tekstus. Nenuostabu, kad žmogaus tikslumas yra akivaizdžiai prastesnis – artimas atsitiktiniam spėjimui. Netgi tokį iš pirmo žvilgsnio paprastą lyties iš teksto nustatymo uždavinį žmogus įveikia vos 55 proc. tikslumu, kai metodų anglų kalbai tikslumas viršija 80 proc.
Autorystės nustatymo tyrimai vykdomi ne tam, kad būtų apribota teisė į laisvę reikšti mintis, o greičiau tam, kad susimąstytume, kiek tomis laisvėmis galime naudotis. Pažanga ateityje neabejotinai sumažins įžeidžiančių komentarų bei įvairių internetinių nusikaltimų, tačiau ar tikrai būtinos prevencinės priemonės, kad visuomenė taptų geresnė? Reikšdami savo nuomonę anonimiškai tiesiog pasistenkime, kad internetinė erdvė, kurioje rašoma Tavo ir mano kalba, būtų švaresnė.