„Google Docs“ išmoko atpažinti lietuviškus tekstus (3)

2011-03-03

„Google„ savo internetinių biuro programų paketo „Google Docs“ optinio ženklų atpažinimo technologiją papildė 29 naujomis kalbomis. Šiuo metu „Google Docs“ automatiškai atpažįsta tekstus 34 pasaulio kalbomis.

Prisijunk prie technologijos.lt komandos!

Laisvas grafikas, uždarbis, daug įdomių veiklų. Patirtis nebūtina, reikia tik entuziazmo.

Sudomino? Užpildyk šią anketą!

Optinio ženklų atpažinimo technologiją (OCR) „Google Docs“ pradėjo naudoti praėjusių metų vasarą. Tam buvo pritaikyti kitos „Google“ paslaugos „Google Books“ sprendimai. „Google Books“ tikslas – nuskenuoti bibliotekose saugomus popierinių knygų bei periodinių leidinių fondus ir perkelti į internetą skaitmenines jų kopijas. Iš pradžių „Google Docs" galėjo iš PDF failų ir JPG, GIF, PNG formato atvaizdų „ištraukti" tekstus penkiomis kalbomis: anglų, prancūzų, vokiečių, italų ir ispanų. Dabar „Google" atstovai oficialiame bendrovės tinklaraštyje pranešė automatinio teksto atpažinimo funkciją papildę dar 29 kalbomis.

Taigi, nuo šiol, įkėlus į „Google Docs" PDF ir minėtus grafinius failus, kuriuose yra lietuviški užrašai, galima automatiškai paversti juos tekstu, įkeltu į „Google Docs“ tekstų redagavimo programą. Ši paslauga yra nemokama, tekstas atpažįstamas iš skeneriais gautų popierinių knygų, žurnalų ar popierinių dokumentų skaitmeninių atvaizdų arba iš skaitmeniniais fotoaparatais ar mobiliaisiais telefonais padarytų nuotraukų.

„Google" atstovai pabrėžia, kad atpažįstamo teksto tikslumas priklauso nuo pateiktų atvaizdų raiškos, tačiau ji irgi negali būti per didelė: maksimalus įkeliamo atpažinti failo dydis negali viršyti 2 MB. Rekomenduojama, kad teksto eilutės grafiniame faile aukštis nebūtų mažesnis nei 10 pikselių. Kol kas atpažįstami tik atvaizdai, kuriuose tekstas pateiktas horizontaliai iš kairės į dešinę pusę. Dirbant su PDF failais, tekstas automatiškai „ištraukiamas“ tik iš 10 pirmųjų pateikto failo puslapių.

Skelbiama, kad „Google Docs" stengiasi atpažindama tekstą išsaugoti pirminį jo formatavimą, tačiau lentelės, skiltys ir kiti elementai gali neišlikti perkėlus rezultatus į teksto redagavimo programą.

Kol kas „Google Docs„ optinio atpažinimo paslauga gerokai nusileidžia rinkos lyderei „ABBYY FineReader“, tačiau yra nemokama. Jeigu OCR algoritmai bus toliau tobulinami, „FineReader“ ateityje gali susilaukti rimto konkurento.

Pasidalinkite su draugais

Šaltiniai:

Optical Character Recognition (OCR) in 34 languages

Aut. teisės: TV3