„DeepSeek“ prieš „ChatGPT“. Sunkiausias testas dirbtiniam intelektui. Štai rezultatas  ()

Profesoriai, mokslininkai ir žymūs absolventai bei studentai iš beveik 500 prestižinių švietimo įstaigų visame pasaulyje nusprendė dirbtinio intelekto sistemoms skirti paskutinę akademinę užduotį, sukurdami joms sunkiausią iš visų įmanomų ekspertų lygio samprotavimo ir techninių žinių testų.


Asocatyvi nuotr.
Asocatyvi nuotr.
© Pixabay (public domain) | https://commons.wikimedia.org/wiki/File:Artificial-Intelligence.jpg

Prisijunk prie technologijos.lt komandos!

Laisvas grafikas, uždarbis, daug įdomių veiklų. Patirtis nebūtina, reikia tik entuziazmo.

Sudomino? Užpildyk šią anketą!

Neuroniniai tinklai (įskaitant „ChatGPT“ ir garsųjį Kinijos „DeepSeek“) priėmė iššūkį ir jau parodė pirmuosius rezultatus.

Tarptautinė 1000 įvairių akademinių disciplinų ekspertų komanda iš beveik 500 prestižinių švietimo įstaigų (įskaitant Oksfordą, Harvardą, Kembridžą, Stanfordą ir kitas) sukūrė  pasaulinį techninių ir pažangių mokslo žinių bei loginio mąstymo testą, skirtą išmatuoti dirbtinio intelekto sistemų tobulumo lygį.

Testas vadinasi HLE (Humanity's Last Exam, galutinis žmogiškumo egzaminas). Ekspertai tai pavadino sudėtingiausiu akademiniu testu istorijoje, sukurtą patikrinti neuroninių tinklų galimybes tiksliųjų mokslų srityje, neliečiant kūrybinių gebėjimų aspekto.

[EU+Kuponai] „Winter Sale 2025“! Kainos nutirpo 60 %. Energijos stotelės, dulkių siurbliai, vaizdo projektoriai ir kt. Ribotas kiekis (Video)
9899

„Winter Sale 2025“ išpardavimas!

Nuolaidų kuponai

Galioja iki 2025-01-28

Iš Europos sandėlių

Iki 2 metų garantijos

1) „FOSSiBOT F1200“ - mobili energijos stotelė, 1200W, 1024Wh, LiFePO4, tarnaus 10+ metų

2) „JIGOO C500“ - rekordinės kainos 500W belaidis dulkių siurblys

3) „Wanbo T2 Ultra“ - 1080P, Android TV 11, Netflix ir kt. už fantastišką kainą

Išsamiau

HLE egzaminą sudaro 3000 sudėtingų klausimų iš šimto skirtingų disciplinų (pvz., klasikinės filologijos, chemijos, aukštosios matematikos, informatikos, ekologijos, kalbotyros). Yra du užduočių formatai: tikslios atitikties klausimai (DI modeliai patys rašo tekstą kaip atsakymą) ir kelių pasirinkimų klausimai (DI pasirenka vieną iš penkių ar daugiau atsakymų variantų). Teste taip pat ypatingas dėmesys skiriamas diagramų ir vaizdų supratimui.

Teste jau dalyvavo keli geriausi neuroniniai tinklai, tokie kaip „ChatGPT“  (senos ir naujausios versijos), „Claude“ (populiarus tarp verslininkų ir programuotojų), „Gemini“ („Google“), „Grok“ (Elono Musko) ir „DeepSeek “ (kinų).

 

Jie visi puikiai išlaikė egzaminą (modeliai neteisingai atsakė į maždaug 90 % klausimų ir net tvirtino, kad buvo teisūs), pažymėjo HLE testo autoriai.

Yra ir iškalbingas momentas – prasčiausią ir tuo pačiu geriausią rezultatą pademonstravo „ChatGPT“ (senoji įprastinė jo versija Omni rodė 3,3 % atsakymų tikslumą, o1 – 9,1 %, o naujausia o3-mini – 13 %). O naujai pagarsėjęs Kinijos „DeepSeek“, kuris neseniai buvo vadinamas „ChatGPT žudiku“, atsakymų tikslumas siekė 9,4 %.

 

Svarbu ir tai, kad esami sudėtingi pasauliniai mokslinių žinių testai, tokie kaip GPQA, MATH ir MMLU, buvo daug lengvesni minėtiems neuroniniams tinklams ir turėjo nuo 40 iki beveik 100 procentų teisingų atsakymų.

Tačiau dabar, sukūrusi HLE testą, žmonija metė labai rimtą iššūkį dirbtiniam intelektui, tačiau jis, kaip deja ekspertai konstatuoja, gali būti paskutinis. Remiantis HLE autorių prognozėmis, iki šių metų pabaigos neuroniniai tinklai gali pasiekti 50 % egzamino tikslumą.

Pasidalinkite su draugais
Aut. teisės: MTPC
MTPC
(11)
(6)
(5)
MTPC parengtą informaciją atgaminti visuomenės informavimo priemonėse bei interneto tinklalapiuose be raštiško VšĮ „Mokslo ir technologijų populiarinimo centras“ sutikimo draudžiama.

Komentarai ()