Diagnozuodamas susirgimus, DI aplenkė gydytojus ()
The New York Times pasakoja apie eksperimentą, parodžiusį, kad ChatGPT susirgimus diagnozuoja tiksliau, nei gydytojai.
Prisijunk prie technologijos.lt komandos!
Laisvas grafikas, uždarbis, daug įdomių veiklų. Patirtis nebūtina, reikia tik entuziazmo.
Sudomino? Užpildyk šią anketą!
Bostono medicinos centro ekspertas daktaras Adamas Rodmanas buvo įsitikinęs, kad dirbtinio intelekto (DI) pagrindu sukurti čatbotai taps nepakeičiamais diagnostikos pagalbininkais. Tačiau jis klydo.
Tyrime, kurio rengime dalyvavo jis pats, gydytojai, drauge su tradiciniais resursais naudoję ChatGPT-4, su užduotimi susitvarkydavo tik šiek tiek geriau, nei botu nesinaudoję iš viso. Ir, tyrėjų nuostabai, pats ChatGPT, dirbdamas autonomiškai, gydytojus pranoko.
Kompanijos OpenAI sukurtas čatbotas, vidutiniškai surinkdavo 90% balų, diagnozuodamas susirgimą pagal ligos istoriją ir aiškindamas savo sprendimus. Gydytojai, kurie naudojo ChatGPT, vidutiniškai surinkdavo vidutiniškai 76%. Tie, kurie botu nesinaudojo – 74%.
Tyrimas parodė ne tik įspūdingą čatboto darbą. Jis taip pat atskleidė, kad gydytojai kartais pernelyg pasitiki savo diagnozėmis, net jei ChatGPT siūlo tikslesnį paaiškinimą.
Be to, eksperimentas pademonstravo, kad, nepaisydami turimų DI įrankių, tik nedaugelis gydytojų supranta, kaip jų galimybes panaudoti. Dėl to jie negalėjo maksimaliai pasinaudoti ChatGPT gebėjimu spręsti sudėtingas diagnostines užduotis ir pateikti savo išvadų paaiškinimus.
|
Pasak Rodmano, DI sistemos turi būti vertingą antrąją nuomonę pateikiantys „gydytojų pagalbininkai“. Tačiau iki šio potencialo realizavimo dar toli.
Ligos istorijos, diagnostikos ateitis
Eksperimente dalyvavo 50 gydytojų — rezidentų ir kelių stambių Amerikos ligoninių gydantys specialistai. Rezultatai praėjusį mėnesį buvo publikuoti žurnale JAMA Network Open.
Dalyviams buvo pateiktos šešios ligos istorijos, pagal kurias buvo vertinamas jų gebėjimas diagnozuoti ligas ir paaiškinti, kodėl jie pasirenka ar atmeta vienus ar kitus variantus. Vertinant taip pat buvo atsižvelgiama į galutinės diagnozės tikslumą.
Rezultatus vertinę ekspertai matė tik dalyvių atsakymus, nežinodami, ar tai buvo gydytojas su ChatGPT, gydytojas be jo, ar paties čatboto.
Ligų istorijos rėmėsi realiais atvejais iš praktikos ir buvo dalis imties 105 atvejų, kuriuos tyrėjai naudoja nuo 1990-ųjų. Šie atvejai niekada nebuvo publikuoti, kad jų nebūtų galėję ištirti studentai ar DI sistema.
Kaip iliustraciją tyrėjai publikavo vieną iš šešių atvejų. Tai buvo 76 metų pacientas, kentęs stiprų juosmens, sėdmenų ir blauzdų skausmą vaikščiodamas. Skausmai kilo, praėjus kelioms dienoms po koronarinės arterijos išplėtimo balionine angioplastika. 48 valandas po procedūros pacientas vartojo hepariną — kraują skystinantį preparatą. Jis skundėsi karštlige ir silpnumu. Laboratoriniai tyrimai parodė prasidedančią anemiją ir azoto kaupimąsi kraujyje. Anksčiau pacientui buvo atliktas šuntavimas dėl širdies kraujagyslių susirgimo. Teisinga diagnozė cholesterino embolija, kai cholesterinas užkemša kraujagysles.
Dalyviams buvo pasiūlyta įvardinti tris galimas diagnozes, kiekvieną paremiant įrodymais, nurodyti šioms diagnozėms prieštaraujančius duomenis ir nustatyti galutinę diagnozę. Po to jie turėjo pasiūlyti iki trijų papildomų diagnozavimo žingsnių. Likusių penkių atvejų diagnozės irgi buvo sudėtingi, tačiau ne tokios retos, kad būtų unikalios. Visgi gydytojai, netgi turėdami prieigą prie ChatGPT, vidutiniškai su užduotimis susitvarkydavo blogiau, nei pats vienas čatbotas.
Pasak tyrime nedalyvavusio medicinos istoriko daktaro Andrew Lea, problemos esmė yra ta, kad „mes lig šiol nežinome, kaip galvoja gydytojai“. Kai gydytojai aprašo, kaip nustatė diagnozę, jie rašo: „Intuicija“ ar „Paremta patirtimi“. Tai kelia sunkumus programuotojams, besistengiantiems sukurti programas, kurios galėtų galvoti kaip žmogus.
Bandymai sukurti tokias programas prasidėjo beveik prieš 70 metų. 1970-aisiais, vadovaujant fotografinę atmintį turėjusiam puikiam diagnostui daktarui Jackui Myersui Pittsburgho universitete buvo sukurta sistema INTERNIST-1. Programoje buvo daugiau, nei 500 susirgimų ir 3500 simptomų. Siekdami ją patikrinti, tyrėjai pateikė pavyzdžius iš medicinos žurnalo New England Journal of Medicine. „Kompiuteris susitvarkė labai gerai, jo našumas, tikriausiai, buvo geresnis nei žmogaus“. Tačiau INTERNIST-1 taip ir nepaplito. Ja naudotis buvo sudėtinga ir diagnozavimui būtinos informacijos pateikimas jai trukdavo ilgiau nei valandą. Ir, kaip pažymėjo jos kūrėjai, „dabartinė programos forma nepakankamai patikima taikyti klinikoje“.
Tyrimai tęsėsi. Iki dešimtojo dešimtmečio viduryje jau buvo gal pustuzinis kompiuterinių programų, kurios stengėsi nustatyti medicinines diagnozes. Nė viena iš jų nepaplito. „Svarbu ne tik, kad programa būtų patogu naudotis, bet ir gydytojai ja turi pasitikėti“.
Vienareikšmiškai neišsiaiškinus, kaip galvoja gydytojai, ekspertai ėmė kelti klausimą, ar visos pastangos vertos dedamų pastangų — kiek svarbu stengtis sukurti kompiuterines programas, kurios diagnozuotų taip pat, kaip tai daro žmonės? „Buvo ginčijamasi, kiek kompiuterinė programa privalo imituoti žmogaus protavimą. Kodėl gi nepasinaudoti kompiuterio pranašumais?“ Kompiuteris gali ir negebėti aiškiai išdėstyti sprendimo priėmimo kelią, bet ar tai turi kokią nors reikšmę, jeigu jis pateikia teisingą diagnozę?
Diskursas pasikeitė, pasirodžius tokiems kalbos modeliams, kaip ChatGPT. Jie niekaip aiškiai nesistengia atkurti gydytojo protavimą, jų diagnostinius gebėjimus lemia jų gebėjimas apdoroti kalbą. Tačiau daugelis gydytojų, tikėtina, šio potencialo neišnaudoja.
Оperatoriaus klaida
Praėjus pirminiam šokui nuo naujojo tyrimo rezultatų, Adamas Rodmanas nusprendė šiek tiek įsigilinti į duomenis ir pažiūrėti į realų gydytojų ir ChatGPT susirašinėjimą. Jei, gydytojai gauna čatbotų diagnozes ir svarstymus, tai kodėl gi ties, kas jais naudojosi, neatliko užduoties geriau? Paaiškėjo, kad čatbotas negalėjo įtikinti gydytojų, kad jie neteisūs, nurodydamas tai, kas prieštaravo jų diagnozėms. Vietoje to jie buvo linkę laikytis savo nuomonės apie teisingą diagnozę. „Jie nesiklausė DI, kuomet jis sakydavo tai, su kuo jie nesutiko“. Tai paaiškinama: žmonės įprastai pernelyg pasitiki savimi, kai mano esantys teisūs.
Tačiau buvo ir kita problema: daugelis gydytojų nežinojo, kaip maksimaliai panaudoti čatboto gebėjimus. Gydytojų bendravimo su čatbotu istorijoje galima pastebėti, kad „jie elgėsi su jais lyg su paieškos sistemomis, uždavinėdami nukreipiančius klausimus, tarkime, ar kepenų cirozė yra vėžio išsivystymo rizikos faktoriumi, kokios galimos diagnozės, jei skauda akis“.
„Tik nedidelė dalis gydytojų sumojo tiesiog nukopijuoti visą ligos istoriją į čatbotą ir paprašyti jį pateikti išsamų atsakymą į klausimą“.
„Tik dalis gydytojų išvydo nuostabiai protingus ir išsamius atsakymus, kuriuos sugebėjo pateikti čatbotas“.
republic.ru