DI nėra tai, kas atrodo: mokslininkai padarė kvapą gniaužiantį atradimą apie neuroninių tinklų darbą  (1)

Tyrėjai bando suprasti, kaip dirbtinio intelekto sistemos taip gerai mokosi, naudodamos tiek mažai duomenų.


Prisijunk prie technologijos.lt komandos!

Laisvas grafikas, uždarbis, daug įdomių veiklų. Patirtis nebūtina, reikia tik entuziazmo.

Sudomino? Užpildyk šią anketą!

Mokslininkai nori atskleisti vieną didžiausių DI kalbos modelių, kurie naudojami tokiuose teksto ir vaizdų generavimo įrankiuose kaip DALL-E ir „ChatGPT", paslapčių. Mašininio mokymosi (ML) ekspertai jau kurį laiką pastebėjo kažką keisto gilaus mokymosi kalbų modeliuose (LLM), tokių kaip „OpenAI GPT-3" ir „Google LaMDA", būtent tai, jog jie abu puikiai atlieka užduotis, kurių nebuvo išmokyti. Tai nepaaiškinama, bet faktas. Pavyzdys, kad daugeliu atvejų neįmanoma paaiškinti, kaip neuroninis tinklas pasiekia aukštų rezultatų naudodamas minimalų duomenų kiekį, rašoma „vice.com".

„ArXiv" išankstinio spausdinimo serveryje paskelbtame tyrime Masačusetso technologijos instituto (MIT), Stanfordo universiteto ir „Google" mokslininkai bando įvertinti šį paslaptingą reiškinį, kuris vadinamas „mokymusi kontekste“.

Youtube sprogdinantis ir lietuvių puikiai vertinamas! Štai ką sugeba 5in1 robotas iš „Xiaomi“ ekosistemos (Video, „Roidmi EVA“)
6221 3

„ROIDMI EVA“ yra „Xiaomi“ ekosistemos kompanijos produktas, sulaukęs stulbinamo dėmesio ir sėkmės. Ir dabar šis neregėtų galimybių įrenginys už specialią kainą.

Išsamiau

Paprastai, norint atlikti naują užduotį, daugumą LLM modelių reikia permokinti, naudojant naujus duomenimis. Šis proceso metu mokslininkai įveda tūkstančius „taškinių" duomenų, kad gautų norimą rezultatą. Užsiėmimas varginantis ir atimantis daug laiko. Tačiau „mokymosi kontekste" metodas suteikia DI sistemai galimybę greitai ir teisingai išmokti atlikti naujas užduotis, prieš tai peržiūrėjus kelis pavyzdžius. Tiesą sakant, neuronų tinklas naujų įgūdžių išmoksta „skraidydamas". Gavęs užuominą, kalbos modelis gali paimti įvesties ir išvesties duomenų sąrašą ir sukurti naujas, dažnai teisingas prognozes užduočiai, kuriai jis nebuvo specialiai apmokytas. Toks elgesys puikiai tinka mašininio mokymosi tyrimams, o supratimas, kaip ir kodėl tai vyksta, gali suteikti neįkainojamos įžvalgos apie tai, kaip kalbos modeliai mokosi ir saugo informaciją.

Kuo skiriasi DI, kuris mokosi, ir DI, kuris tik prisimena?

„Išsilavinimas yra susijęs su įgytomis žiniomis", – sako Ekinas Akyurekas, pagrindinis tyrimo autorius ir MIT magistrantas. „Parodome, kad šie DI modeliai gali mokytis iš pavyzdžių „realiu laiku" neatnaujindami parametrų, kuriuos įprastai mes taikome modeliui.

 

Tai reiškia, jog neuroninis tinklas ne tik kopijuoja mokymo duomenis, jis greičiausiai remiasi ankstesnėmis žiniomis, kaip tai daro žmonės ir gyvūnai. Tyrėjai netikrino savo teorijos naudodami „ChatGPT" ar kitus populiarius mašininio mokymosi įrankius, kuriais pastaruoju metu taip žavisi interneto vartotojai. Vietoje to komanda dirbo su mažesniais modeliais ir paprastesnėmis užduotimis. Tačiau kadangi tai yra to paties tipo modeliai, jų darbas leidžia suprasti kitų panašių, bet geriau žinomų sistemų struktūrą.

Tyrėjai atliko eksperimentą, pateikė DI sintetinius duomenis (užuominas), su kuriais programa niekada anksčiau nebuvo susidūrusi ir negalėjo susidurti. Nepaisant to, kalbos modelis sugebėjo apibendrinti ir ekstrapoliuoti žinias iš jų, sakė Ekinas Akyurekas. Mokslininkai iškėlė hipotezę, kad DI modeliai, remdamiesi „mokymusi kontekste", iš tikrųjų savo viduje sukuria dar mažesnius modelius, kad galėtų atlikti naujas užduotis.

 

Tyrėjai galėjo išbandyti savo teoriją analizuodami vadinamojo transformatoriaus - neuroninio tinklo, kuris naudoja „savęs atpažinimo" sąvoką, kad būtų galima sekti ryšius nuosekliuose duomenyse, pavyzdžiui, žodžius sakinyje, darbą. Stebėdami keitiklio veikimą, mokslininkai išsiaiškino, kad jis gali parašyti savo paties mašininio mokymosi modelį. Tai rodo, kad tiek teoriškai, tiek empiriškai kalbos modeliai gali savarankiškai sugalvoti mokymosi algoritmus. Kitaip tariant, didesni modeliai veikia kurdami ir mokydami mažesnius ir paprastesnius kalbos modelius. Sąvoką lengviau suprasti, jei pateikiate ją lizdinės lėlės pavidalu.

Nors E. Akyurekas sutinka, kad kalbos modeliai, tokie kaip „GPT-3", atvers naujų galimybių mokslui, jis mano, jog jie jau pakeitė informacijos išgavimo ir apdorojimo būdą. Jei anksčiau „Google" įvedant užuominą pasirodydavo tik informacija, o žmonės turėdavo pasirinkti geriausiai jų užklausą atitinkančius rezultatus, tai dabar modelis gali pateikti informaciją iš interneto, taip pat ją vartotojams apdoroti. „Todėl labai svarbu išmokti šiems modeliams pasakyti norimas gauti duomenų parinktis", – pabrėžė mokslininkas.

 

Žinoma, informacijos apdorojimo perkėlimas į automatizuotas sistemas yra susijęs su daugybe naujų problemų. DI etikos tyrinėtojai ne kartą įrodė, kaip tokios sistemos kaip „ChatGPT" kalba nekorektiškai, naudodamos seksizmą ir rasizmą, kuriuos sunku ir neįmanoma sušvelninti.

Nepaisant nerimo dėl to, ką mašininio mokymosi modeliai gali pasiekti ateityje ir net ką jie gali padaryti šiandien, tyrime daroma išvada, kad „mokymasis kontekste" gali būti naudojamas sprendžiant daugelį problemų, su kuriomis mokslininkai neabejotinai susidurs.

Pasidalinkite su draugais
Aut. teisės: MTPC
MTPC
Autoriai: Vigmantas Balevičius
(13)
(4)
(9)
MTPC parengtą informaciją atgaminti visuomenės informavimo priemonėse bei interneto tinklalapiuose be raštiško VšĮ „Mokslo ir technologijų populiarinimo centras“ sutikimo draudžiama.

Komentarai (1)