Netikrų žmonių era: DI pirmą kartą išlaiko Turingo testą  ()

Dirbtinis intelektas pirmą kartą oficialiai išlaikė Turingo testą.



© Mhamad osman ali, CC BY-SA 4.0 | https://en.wikipedia.org/wiki/File:Artificial_Intelligence.jpeg

Prisijunk prie technologijos.lt komandos!

Laisvas grafikas, uždarbis, daug įdomių veiklų. Patirtis nebūtina, reikia tik entuziazmo.

Sudomino? Užpildyk šią anketą!

Griežtame Kalifornijos universiteto San Diege atliktame tyrime „OpenAI“ GPT-4.5 modelis su atitinkama užuomina buvo atpažintas kaip žmogus stulbinančiais 73 procentais atvejų, aplenkdamas realaus pasaulio dalyvius. Tuo tarpu „Meta“ LLaMa-3.1-405B modelis pasiekė 56 procentų balų, todėl statistiškai nebesiskiria nuo žmonių.

Šie rezultatai rodo, kad DI geba efektyviai imituoti žmogaus emocijas, humorą ir klaidas. Tai kelia didelių iššūkių, susijusių su saugumu internete ir dezinformacija.

Kalifornijos universiteto San Diege mokslininkai pateikė pirmuosius empirinius įrodymus, kad pažangus dirbtinis intelektas gali sėkmingai išlaikyti legendinį Turingo testą. Šį eksperimentą, kurį 1950 m. pasiūlė britų kompiuterių mokslininkas ir pradininkas Alanas Turingas, siekiama nustatyti, ar mašinos gali bendrauti natūraliai ir perimti – arba bent jau atrodyti, kad tai daro – žmonių mąstymo modelius.

Šioje klasikinėje, tekstu paremtoje eksperimentinėje schemoje teisėjas vienu metu kalbasi su dviem paslėptais dalyviais – žmogumi ir kompiuteriu, kurie bando įtikinti teisėją savo žmogiškąja tapatybe. Jei teisėjas negali nuosekliai ir tiksliai nustatyti tikrojo žmogaus, nugalėtoju paskelbiama mašina, kuri tiesiogiai įrodo jos gebėjimą tobulai imituoti žmogaus intelektą.

34 colių lenktas WQHD monitorius su pilnu USB-C funkcionalumu, „Ethernet" jungtimi ir „Smart KVM" funkcija – už mažiau nei 300 EUR? (AOC CU34E4CV APŽVALGA)
3696 2

Šis 34 colių išlenktas WQHD monitorius su integruota USB-C išplėtimo stotele, „Ethernet" jungtimi ir „Smart KVM" funkcija mums paliko išskirtinį įspūdį. Neįtikėtina, bet visa tai jums kainuos mažiau nei 300 EUR!

Išsamiau

Griežtame, atsitiktinių imčių tyrime, paskelbtame gegužės 19 d. žurnale „Proceedings of the National Academy of Sciences“ (PNAS), mokslininkai pritaikė klasikinį, 76 metų senumo trišalį vertinimo modelį. Eksperimento, kurio metu teisėjams nepavyko patikimai atskirti žmonių nuo sudėtingų didelių kalbos modelių (LLM), rezultatai iš esmės pakeičia dabartinį mašininio intelekto supratimą.

Tyrimas buvo atliktas su dviem nepriklausomomis dalyvių grupėmis: Kalifornijos universiteto San Diego studentais ir asmenimis, atrinktais iš viso pasaulio per „Prolific“ platformą. Testavimui buvo pasirinktos keturios sistemos: modernūs GPT-4.5 modeliai iš „OpenAI“ ir LLaMa-3.1-405B iš „Meta“ , taip pat senesni etaloniniai sprendimai, įskaitant GPT-4o modelį ir taisyklėmis pagrįstą ELIZA programą iš 1960-ųjų – pirmąjį pokalbių robotą istorijoje.

 

Turingo testo sėkmę lėmė raginimų inžinerija, arba vadinamieji asmenybės klausimai. Pažangiems modeliams buvo nurodyta perimti specifinę žmogaus asmenybę ir bendravimo stilių.

„Nustatėme, kad pateikus tinkamus klausimus, pažangūs LLM modeliai gali parodyti tokį patį toną, tiesmuką elgesį, humorą ir klystantį polinkį kaip ir žmonės“, – komentavo dr. Cameronas Jonesas, pagrindinis tyrimo autorius, kuris atliko šį projektą studijuodamas kognityvinių mokslų doktorantūroje Kalifornijos universitete San Diege ir dabar yra psichologijos docentas Stony Brooko universitete.

GPT-4.5, kuris, be kitų, buvo naudojamas ChatGPT tyrimo metu, buvo atpažintas kaip žmogus stulbinančiais 73 % atvejų, o tai reiškia, kad po penkių minučių pokalbio teisėjai jį atpažino kaip žmogų žymiai dažniau nei realūs tyrime dalyvavę žmonės. Tuo tarpu atvirojo kodo LLaMa-3.1-405B, užduotas panašiai, pasiekė 56 % balą ir statistiškai visiškai neatskiriamas nuo tikrų pašnekovų.

Be šių išsamių gairių modelių našumas smarkiai sumažėjo – GPT-4.5 atveju rezultatai siekė apie 36 %, o LLaMa-3.1-405B atveju – 38 %. Senesnės sistemos veikė gerokai prasčiau: ELIZA buvo identifikuota kaip žmogus 23 % atvejų, o GPT-4o – tik 21 %.

 

Papildomame replikacijos tyrime, skirtame šio efekto tvarumui patikrinti, interviu truko 15 minučių. Tinkamai paruošti modeliai vis dar išlaikė aukštą sėkmės rodiklį – 56 ir 59 procentus. San Diego studentai demonstravo šiek tiek didesnį tikslumą aptikdami dirbtinį intelektą. Ekspertai tai sieja su bendru kultūriniu kodu ir vietos universiteto miestelio temomis, kurios palengvino tapatybės patvirtinimą.

Nors tyrimas buvo paskelbtas 2026 m. gegužės mėn., PNAS redakcijai jis buvo pateiktas 2025 m. rugsėjį. Nuo to laiko buvo išleistos dar naujesnės šių šeimų modelių versijos, įskaitant GPT-5.5 ir „Llama 4“, kurios greičiausiai galėtų pasiekti dar geresnių rezultatų šiame svarbiame dirbtinio intelekto teste.

Šiuolaikinis dirbtinis intelektas gali išspręsti sudėtingas logines ir matematines užduotis daug greičiau nei žmonės, o tai jau daro realų poveikį mokslininkų darbui, įskaitant ir chemijos laboratorijų darbuotojus. Tačiau Turingo testas matuoja visiškai ką kita. Jis netikrina grynų žinių, analitinių įgūdžių ar veiksmų greičio, o gebėjimo mėgdžioti žmogaus elgesį.

 

Kad išlaikytų šį testą, modeliai turi pademonstruoti ne tik nepriekaištingą skaičiavimą, bet ir gebėjimą imituoti žmonių klaidas, dvejones ir humorą. Tai yra tai, su kuo griežta logika paremta programinė įranga visada sunkiai susidorojo. Šiandieniniai kalbos modeliai gali taip gerai imituoti žmones, kad pašnekovas (žmogus ar kitas dirbtinio intelekto modelis) gali būti tikras, kad kalbasi su tikru asmeniu. Štai kodėl kai kurie žmonės mano, kad tokios programos kaip ChatGPT ar „Anthropic Claude“ yra sąmoningos.

Nors šio istorinio etaloninio etapo įveikimas yra reikšmingas „OpenAI“ ir „Meta“ pasiekimas, yra ir kita medalio pusė. Mašinų gebėjimas ilgą laiką išlaikyti tokią įtikinamą iliuziją kelia rimtų socialinių ir etinių abejonių. Tyrėjai perspėja apie vadinamųjų „padirbtų žmonių“ eros aušrą ir galimą sukčiavimo, politinio manipuliavimo ir socialinės inžinerijos bangą kibernetinėje erdvėje.

 

Jau dabar socialinės žiniasklaidos platformas (pvz., X) užvaldo dirbtinio intelekto valdomų robotų armijos, kurios skelbia komentarus ir dalyvauja žodiniuose pokalbiuose su žmonėmis ir kitais robotais, siekdamos pritraukti srautą, skatinti pirkimus ar dalytis jautriais duomenimis, daryti įtaką nuomonėms, skleisti dezinformaciją ir skaldyti visuomenes. Vartotojai negali nustatyti, kas yra kitoje pusėje. Ištisos diskusijų gijos, kurios atrodo tikros, gali būti generatyvinio dirbtinio intelekto produktas.

„Turime būti atsargesni. Bendraudami su nepažįstamaisiais internete, žmonės turėtų būti daug mažiau tikri, kad kalbasi su žmogumi, o ne su teisės magistro laipsnį turinčiu asmeniu“, – įspėja dr. Jonesas.

Kas toliau? Eksperimento autoriai tikisi, kad jų darbas ne tik pakeis akademinius debatus apie mašininio intelekto prigimtį, bet ir, svarbiausia, padidins visuomenės informuotumą bei paspartins sisteminių apsaugos priemonių, apsaugančių vartotojus nuo automatinio manipuliavimo, įgyvendinimą.

Pasidalinkite su draugais
Aut. teisės: MTPC
MTPC
(0)
(0)
(0)
MTPC parengtą informaciją atgaminti visuomenės informavimo priemonėse bei interneto tinklalapiuose be raštiško VšĮ „Mokslo ir technologijų populiarinimo centras“ sutikimo draudžiama.
Naujienos iš interneto

Komentarai ()

Susijusios žymos: