„DeepSeek“ prieš „ChatGPT“. Sunkiausias testas dirbtiniam intelektui. Štai rezultatas ()

2025-02-04

Profesoriai, mokslininkai ir žymūs absolventai bei studentai iš beveik 500 prestižinių švietimo įstaigų visame pasaulyje nusprendė dirbtinio intelekto sistemoms skirti paskutinę akademinę užduotį, sukurdami joms sunkiausią iš visų įmanomų ekspertų lygio samprotavimo ir techninių žinių testų.

Prisijunk prie technologijos.lt komandos!

Laisvas grafikas, uždarbis, daug įdomių veiklų. Patirtis nebūtina, reikia tik entuziazmo.

Sudomino? Užpildyk šią anketą!

Neuroniniai tinklai (įskaitant „ChatGPT“ ir garsųjį Kinijos „DeepSeek“) priėmė iššūkį ir jau parodė pirmuosius rezultatus.

Tarptautinė 1000 įvairių akademinių disciplinų ekspertų komanda iš beveik 500 prestižinių švietimo įstaigų (įskaitant Oksfordą, Harvardą, Kembridžą, Stanfordą ir kitas) sukūrė pasaulinį techninių ir pažangių mokslo žinių bei loginio mąstymo testą, skirtą išmatuoti dirbtinio intelekto sistemų tobulumo lygį.

Testas vadinasi HLE (Humanity's Last Exam, galutinis žmogiškumo egzaminas). Ekspertai tai pavadino sudėtingiausiu akademiniu testu istorijoje, sukurtą patikrinti neuroninių tinklų galimybes tiksliųjų mokslų srityje, neliečiant kūrybinių gebėjimų aspekto.

[EU+Kuponas] Įspūdinga kaina ir galimybės. Maisto džiovinimo mašina – jūsų sveikas pasirinkimas. Džiaugiasi milijonai („VEVOR SS-06A“)

10149 3

Labai gera kaina

Specialus kuponas

Iš Vokietijos greitas ir saugus pristatymas

Aukščiausia kokybė

Labai ribotas kiekis

Išsamiau

HLE egzaminą sudaro 3000 sudėtingų klausimų iš šimto skirtingų disciplinų (pvz., klasikinės filologijos, chemijos, aukštosios matematikos, informatikos, ekologijos, kalbotyros). Yra du užduočių formatai: tikslios atitikties klausimai (DI modeliai patys rašo tekstą kaip atsakymą) ir kelių pasirinkimų klausimai (DI pasirenka vieną iš penkių ar daugiau atsakymų variantų). Teste taip pat ypatingas dėmesys skiriamas diagramų ir vaizdų supratimui.

Teste jau dalyvavo keli geriausi neuroniniai tinklai, tokie kaip „ChatGPT“ (senos ir naujausios versijos), „Claude“ (populiarus tarp verslininkų ir programuotojų), „Gemini“ („Google“), „Grok“ (Elono Musko) ir „DeepSeek “ (kinų).

Jie visi puikiai išlaikė egzaminą (modeliai neteisingai atsakė į maždaug 90 % klausimų ir net tvirtino, kad buvo teisūs), pažymėjo HLE testo autoriai.

Yra ir iškalbingas momentas – prasčiausią ir tuo pačiu geriausią rezultatą pademonstravo „ChatGPT“ (senoji įprastinė jo versija Omni rodė 3,3 % atsakymų tikslumą, o1 – 9,1 %, o naujausia o3-mini – 13 %). O naujai pagarsėjęs Kinijos „DeepSeek“, kuris neseniai buvo vadinamas „ChatGPT žudiku“, atsakymų tikslumas siekė 9,4 %.

Svarbu ir tai, kad esami sudėtingi pasauliniai mokslinių žinių testai, tokie kaip GPQA, MATH ir MMLU, buvo daug lengvesni minėtiems neuroniniams tinklams ir turėjo nuo 40 iki beveik 100 procentų teisingų atsakymų.

Tačiau dabar, sukūrusi HLE testą, žmonija metė labai rimtą iššūkį dirbtiniam intelektui, tačiau jis, kaip deja ekspertai konstatuoja, gali būti paskutinis. Remiantis HLE autorių prognozėmis, iki šių metų pabaigos neuroniniai tinklai gali pasiekti 50 % egzamino tikslumą.

Pasidalinkite su draugais

Šaltiniai:

Naša Niva

Aut. teisės: MTPC

(11)

(6)

(5)

MTPC parengtą informaciją atgaminti visuomenės informavimo priemonėse bei interneto tinklalapiuose be raštiško VšĮ „Mokslo ir technologijų populiarinimo centras“ sutikimo draudžiama.

Komentarai ()