Genetikos principais paremta paieškos sistema - raktas į "gilųjį internetą"  (0)

Žmogaus genomo projekto (angl. Human Genome Project) mokslininkai sukūrė moksliniams tyrimams skirtą paieškos variklį, kuris autorių teigimu sugeba nukeliauti ten, kur nepasiekia netgi "Google" - į taip vadinamą "gilųjį internetą".


Prisijunk prie technologijos.lt komandos!

Laisvas grafikas, uždarbis, daug įdomių veiklų. Patirtis nebūtina, reikia tik entuziazmo.

Sudomino? Užpildyk šią anketą!

Paieškos sistema "DeepDyve" sukurta taip, kad atliktų paiešką tarp 99% svetainių , kurių nesuindeksuoja kitos paieškos sistemos, kurios puslapių paiešką atlieka interpretuodamos populiarumo kriterijus ir šį darbą atlieka tik tais atvejais, kai jos apskritai sugeba tą svetainę rasti. Apmokestintas turinys arba indeksavimo kriterijų neatitinkantis turinys išlieka nepaliestas, nors dažnai jame slypi daug rimtiems tyrimams reikalingos medžiagos.

Tai yra klasikinė "adatos šieno kupetoje" problema: jūs žinote, kad ji ten yra, jūs įsitikinę, jog galėtumėte ją rasti, tačiau... kaip? "DeepDyve" šią kliūtį bando apeiti pritaikydama genetikoje naudojamus metodus, kurie skirti DNR  segmentams identifikuoti remiantis sekų ir pavienių elementų palyginimu. Mokslininkų sukurta technologija naudoja algoritmą pavadinimu “KeyPhrases”, kuris indeksuoja iki 20 žodžių ilgio paieškos užklausas - ir tai nėra tiesiog pavieniai žodžiai. Kadangi pati technologijos koncepcija skirta aptikti ilgas ir sudėtingas DNR gijas, ji nenaudoja jokios semantikos, tik simbolių atpažinimą - to pakanka genetinei informacijai iššifruoti. “Faktiškai programa daro sekų sutapatinima; tai visiškai nepriklauso nuo kalbos prigimties. Iš tiesų ji kalbą netgi ignoruoja", teigia vienas iš  paieškos sistemos finansinės veiklos vadovų William'as Park'as.

Įdomiausia "DeepDyve" savybė, išskirianti ją iš kitų analogų, tokių kaip "Google Scholar", yra gebėjimas atlikti paiešką remiantis dideliu teksto gabalu, arba netgi remiantis iki 25000 simbolių apimties tekstu. Tuo tarpu "Google" leidžia paiešką atlikti tik pagal 32 žodžius. "Jei bandytumėte ieškoti geno, atsakingo už mėlynas akis, sekos, ji gali būti labai ilga. Atitinkamai ilga turėtų būti ir paieškos užklausa", sako W. Park'as. Programa skenuoja ištisas teksto eilutes, ieškodama jose "pažįstamų" segmentų, juos rūšiuoja ir tvarko, ir galiausiai pagal sukauptą informaciją pateikia tinkamiausią rezultatą (straipsnį). "Ji yra grynai statistinė - lygiai kaip ir genetika", teigia tyrėjų atstovas.

2003 metais Kalifornijos Berkeley Universitete giliojo interneto tyrimą  pavadinimu "How Much Information" atliko Hal'as Varian'as, kuris dabar yra "Google" vyriausias ekonomistas. Jis nustatė, jog giliajame internete sukaupta apie 91000 terabaitas informacijos, iš kurių tik 167 yra "paviršiuje". Tačiau "Search Engine Land" vyriausias redaktorius Chris'as Sherman'as teigia, jog tiksliais skaičiais išmatuoti tai, ko negalima rasti, yra sudėtinga. "Tai yra vienas tų atvejų, kai visi žino, jog ta informacija egzistuoja, tačiau jos kiekybiškai apibūdinti neįmanoma, nes niekas negali jos pasiekti", sako Sherman'as, pažymėdamas, kad duomenų bazės ir turinio valdymo sistemos nėra tas pats kaip ir tipiniai interneto puslapiai.

Prieš šešerius metus Sherman'as pats atliko giliojo interneto tyrimą - tuo metu jis rašė knygą pavadinimu "Nematomas internetas" ("The Invisible Web"). Dar tada jis padarė išvadą, jog nepaliestos informacijos kiekis gali būti nuo dviejų iki penkiasdešimt kartų didesnis nei tos, kuri mums yra prieinama. Žinoma, tai yra didelis intervalas, bet netgi imant šio intervalo minimumą, skaičius yra įspūdingas. Autorius mano, jog jei "DeepDyve" taps išties pilnaverte nemokama paslauga, jos potencialas tiriant "žemėlapiuose nepažymėtas" interneto teritorijas yra didžiulis, lyginant su konkuruojančiais produktais, tokiais kaip "LexisNexis". 

Prenumeruojama paslauga debiutavo prieš kelis mėnesius konferencijoje DEMO, tačiau praėjusį antradienį kompanija pristatė nemokamą versiją, pajamas generuojančią per internetinę reklamą. Šiuo metu jos kūrėjai aktyviai ieško bendradarbiauti norinčių informacijos tiekėjų. “Mes vykstame pas informacijos tiekėjus, ir siūlome jiems tapti partneriais. Sukurkime kartu platformą, kurioje mes galėtume realizuoti turinį pačiu draugiškiausiu ir finansiškai naudingu būdu, be to, mes užtikrinsime daug geresnes informacijos randamumo galimybes", teigia Park.

Šiuo metu "DeepDyve" indeksuoja apie 500 milijonų puslapių ir bendradarbiauja su daugeliu kompanijų. Kol kas kompanija apsiriboja tik medicinos mokslais ir patentais. Artimiausią metų ketvirtį ji planuoja praplėsti savo "akiratį" ir apimti fizinius mokslus, informacines technologijas ir ekologiją.

Pasidalinkite su draugais
Aut. teisės: www.technologijos.lt
(0)
(0)
(0)

Komentarai (0)