Optinės iliuzijos apgauna kompiuterius

Komentarai Prisijungti

Viršuje: Seniausi | Naujausi

Shinigami 2015-01-09 06:31

Nesupratau straipsnio

Pjovėjas 2015-01-09 08:50

O ko nesuprast? Algoritmai sukurti visai kitokiu principu, nei veikia mūsų pačių vaizdų atpažinimo procesas iš čia ir gaunasi jų klaidos.

SaMaras 2015-01-09 12:40

Aš kaip suprantu kad didžiausia bėda kad algoritmas ignoruoja viską, išskyrus išskirtines detales, tarkim yra kamuolys ir yra bumbulas ant eglutės.. tarkim programa pamato pakabinimo kilpelę ir nusprendžia kad ten yra žaisliukas eglutei, bet lygiai taip pat gali zaisliuką eglutei pamatyti ir zmoguje nešančiame kokį vielos gabalą susuktą į kilpą(neatsižvelgs į visumą į mastelius ir kt)

rwc 2015-05-04 20:46

Ne visai taip. Ne DI „linkęs į kubizmą“, o priešingai - žmogaus smegenys. Mes pirmiausia identifikuojame kontūrus, atskiriame centrinį objektą nuo periferijos, jį „apytiksliai“ atpažįstame kaip geometrinių primityvų visumą (apvali galva, rainas raštas, ilga tokio paties rašto uodega, ilgos kojos = gepardas; atkreipkite dėmesį į darželinukų piešinių struktūrą), kol kas atidedame tolesnei analizei, analogiškai analizuojame periferiją, „pakoreguojame“ objektų padėtis erdvėje ir tik tuomet grįžtame detaliau analizuoti centrinį objektą, jau atsižvelgdami į kontekstą ir daugmaž parinkę modelį iš savo patirties. DI, ypač vieno branduolio Turingo mašinai, tokia užduotis kol kas per sudėtinga. Tam naudojami visai kitokie heuristiniai matematiniai modeliai, kurie žmogaus smegenims visiškai svetimi ir nesuvokiami. Kompas neatpažįsta gepardo kaip galvos + kūno kailio + galūnių. Apskritai, kompui atpažinti kontūrą per sunki užduotis (skaičiavimų apimties, laiko prasme). Todėl, normalizavus (ir galbūt suskaidžius blokais) vaizdą, paprastai vykdoma kokia nors spektrinė analizė: kažkas panašaus į (daugiamatę?) FFT, DCT, waveletus, fraktalinę dekompoziciją. Gaunamas paveiksliuko „spektras“, kuriame galime atrinkti esminius bruožus, ir, iš principo, beveik tiksliai atkurti pradinį paveiksliuką. Davus DI analizuoti daug panašių vaizdų, išskiriami charakteringi spektro fragmentai - suvienodinamos „amplitudės“, „fazė“, sulygiuojami pikai, ir t.t.. Taip gauname, kad „dauguma gepardų atitinka panašų spektrą“. Tie spektrai nėra identiški. Todėl DI atmeta „triukšmą“, „foną“ ir „šiukšles“ ir bando nustatyti vieną ar keletą (nedidelę aibę) tipiškų, idealizuotų spektrų. Dabar problema tame, kad algoritmui vienodai svarbu ir stambūs spektro elementai („kamuolys dažniausiai apvalus“), ir anomalijos (smarkūs pokyčiai arba, kitaip, pikai spektre, mažame plote) - pvz., gepardo akys, letenos, ausų galiukai. Kaip ir rašoma, su žmogaus pagalba (žmogus nujaučia, kur turėtų būti anomalijos pagal savo geometrinį gepardo vaizdinį - kitaip tariant, žino, kas turi gautis), DI gali atkurti kažką panašaus į „tikrą“ gepardo vaizdinį iš DI atminties nuotrupų. Tačiau pats DI težino bendrą spektro formą + anomalijas, visa kita yra pašalinta. Todėl, pvz., vingiuotas linijų raštas gali turėti tokį patį spektrą kaip eglutės žaisliukas. Anomalijas, kurios žaisliuke atitinka atspindį ar kilpelę, gali atitikti kitokios spalvos dėmės arba išlinkiai vingiuotų linijų rašte. Toks raštas paprasčiausiai (atmetus „triukšmus“) turi tokius pačius charakteringus spektro elementus, kaip ir žaisliukas, todėl DI nuomone jis ir „yra“ žaisliukas! Pasikartosiu: tai P.S. lai pedantai nekimba. Terminą „spektras“ čia panaudojau labai laisvai. Pačią paveiksliukų analizės fazę, kurią pavadinau „spektro analize ir anomalijų identifikacija/pertvarkymu“ taip pat suprimityvinau iki minimumo - kad ir ne matematikui būtų aiški pati pradinė principo idėja. Šis metodas kažkiek veiktų su kelio ženklų atpažinimu (išskirti, kas yra kelio ženklas, transformuoti perspektyvą, identifikuoti esminius ženklo taškus), bet su kitokiais objektais analizė kur kas sudėtingesnė. Pvz., gepardas gali stovėti profiliu, žiūrėti tiesiai, tupėti, bėgti ir t.t.. Nepakanka žinoti, kad jis turi dvi akis, išsidėsčiusias simetriškai vienoje horizontalėje 30% nuo galvos viršaus.