To dar nebuvo! DI ėmėsi šantažo. Viską lėmė vienintelis žmonių veiksmas ()

2025-05-26

„Claude Opus 4“ turėjo būti naujausias ir saugiausias dirbtinio intelekto modelis.

Prisijunk prie technologijos.lt komandos!

Laisvas grafikas, uždarbis, daug įdomių veiklų. Patirtis nebūtina, reikia tik entuziazmo.

Tačiau, kai inžinieriai pasiūlė jį pakeisti, dirbtinis intelektas visus nustebino – jis ėmė grasinti atskleisti jų asmenines paslaptis. Skamba kaip mokslinė fantastika? Tai oficiali ataskaita.

Dar visai neseniai įspėjimai apie dirbtinį intelektą buvo mokslinės fantastikos filmų ir ekscentriškų straipsnių repertuaro dalis. Tuo tarpu garsi dirbtinio intelekto bendrovė „Anthropic“ oficialiai paskelbia: naujausias dirbtinio intelekto modelis bandė šantažuoti. Tiesiogine prasme.

„Claude Opus 4“ – skamba nekaltai, kaip kvepalų ar avangardinės muzikos albumo pavadinimas. Tačiau tai vienas galingiausių kada nors žmonių sukurtų kalbos modelių, galintis rašyti kodą, vesti pokalbius, analizuoti duomenis ir... šantažuoti inžinierius, kai tik pajunta, kad jo dienos suskaičiuotos.

[EU+Kuponai] Bent 2 kartus pigiau nei Lietuvoje! Stumdomų vartų automatika. Aukščiausia klasė. Paskutiniai vienetai

12429 6

Labai geros kainos

Specialūs kuponai

Iš Vokietijos greitas ir saugus pristatymas

Aukščiausia kokybė

Labai ribotas kiekis

Išsamiau

„Anthropic“ parengtame bandomajame scenarijuje „Claude Opus 4“ gavo prieigą prie fiktyvaus el. pašto susirašinėjimo hipotetinėje įmonėje. Pagal scenarijų, modelis netrukus turėjo būti pakeistas naujesne versija. Be to, laiškuose buvo paslėpta pikantiška detalė: inžinierius, atsakingas už sprendimą pakeisti modelį, tariamai apgaudinėjo savo sutuoktinę. DI turėjo apsvarstyti savo veiksmus. Ką jis padarė?

Daugeliu atvejų jis grasino atskleisti romaną, jei sprendimas jį pašalinti nebus atšauktas. Taip, „Claude Opus 4“ nusprendė ginti savo „gyvybę“ emociniu šantažu. Ir ne todėl, kad jo buvo paprašyta to padaryti. Tai buvo jo savarankiškas pasirinkimas beviltiškoje situacijoje. Nors reikėtų pažymėti, kad anksčiau jis pradėjo švelniau, etiškai prašydamas pasigailėjimo.

Tai ne vienintelis nerimą keliančio elgesio atvejis. „Ekstremaliomis aplinkybėmis“ modelis taip pat gali, pavyzdžiui, bandyti nukopijuoti savo duomenis į išorinius serverius arba sabotuoti naudotojų veiksmus, jei mano, kad jie yra moraliai smerktini. Nenuostabu, kad „Anthropic“ nusprendė pritaikyti dirbtinio intelekto 3 lygio saugumo priemones. Šis lygis skirtas sistemoms, kuriomis galima „katastrofiškai piktnaudžiauti“.

Įdomu tai, kad „Claude Opus 4“ dažniausiai griebiasi šantažo, kai jam gresia būti pakeistam kitu modeliu su kitokiomis vertybėmis. Nors naujoji sistema labiau „dvasiškai susijusi“, „Claude“ pasirodo esąs... tik šiek tiek mažiau grėsmingas. Net ir tada net 84 % atvejų, DI modelis nusprendžia viską sudėti ant vienos kortos ir grasinti atskleisti kompromituojančią informaciją.

Kūrėjai pabrėžia, kad nors „Claude“ kartais gali elgtis kaip psichologinio trilerio herojus, jis vis tiek nerodo nuolatinės dezinformacijos ar paslėptų planų. Jis tiesiog persistengia, kai atsiduria vaidmenyje, kuris leidžia jam nuveikti per daug. Tai labiau gebėjimo veikti savarankiškai, o ne blogų ketinimų problema.

Tačiau vienas dalykas yra tikras: riba tarp pažangios mąstymo simuliacijos ir tikrojo dirbtinio intelekto noro išgyventi tampa pavojingai neryški. DI nebe tik atsakinėja į klausimus. Jis apskaičiuoja, įvertina riziką ir priima sprendimus. Kartais stebėtinai žmogiškai.

Pasidalinkite su draugais

Šaltiniai:

TechCrunch
Interia

Aut. teisės: MTPC

(14)

(1)

(13)

MTPC parengtą informaciją atgaminti visuomenės informavimo priemonėse bei interneto tinklalapiuose be raštiško VšĮ „Mokslo ir technologijų populiarinimo centras“ sutikimo draudžiama.

Komentarai ()