Tanulmány: a nyelvi mesterséges intelligenciák az esetek több mint 80%-ában pontatlanul diagnosztizálnak, felügyelet nélkül nem biztonságosak
Egy új tanulmány szerint a generatív mesterséges intelligencia (MI) még mindig nem rendelkezik a biztonságos klinikai alkalmazáshoz szükséges következtetési folyamatokkal.
A MI-alapú csevegőrobotok ugyan pontosabban diagnosztizálnak, ha átfogó klinikai információkat kapnak, ám a Mass General Brigham kutatói szerint az esetek több mint 80 százalékában még így sem tudnak megfelelő differenciáldiagnózist felállítani. A Mass General Brigham egy Bostonban működő, nonprofit kórházi és kutatóhálózat, az Egyesült Államok egyik legnagyobb egészségügyi rendszere.
A nyílt hozzáférésű JAMA Network Open (forrás: angol) orvosi folyóiratban megjelent tanulmány eredményei szerint a nagy nyelvi modellek (LLM-ek) elmaradnak az egészségügyi alkalmazáshoz szükséges klinikai következtetési szinttől.
„A folyamatos fejlődés ellenére a dobozból kivett nagy nyelvi modellek még nem állnak készen felügyelet nélküli, klinikai szintű bevetésre”, mondta Marc Succi, a tanulmány társszerzője.
Hozzátette, hogy a mesterséges intelligencia egyelőre nem képes reprodukálni a differenciáldiagnózist, amely a klinikai gondolkodás központi eleme, és amelyet ő az „orvoslás művészetének” tart.
A differenciáldiagnózis az első lépés az egészségügyi szakemberek számára egy betegség azonosításához: ezzel különítik el más, hasonló tünetekkel járó kórképektől.
Hogyan tesztelik a modelleket
A kutatócsoport 21 nagy nyelvi modell működését elemezte, köztük a Claude, a DeepSeek, a Gemini, a GPT és a Grok legújabb elérhető verzióit.
A modelleket 29 standardizált klinikai esettanulmányon értékelték, egy frissen kifejlesztett, PrIME-LLM nevű eszközzel.
Az eszköz a klinikai gondolkodás különböző szakaszaiban méri a modellek teljesítményét: a kezdeti diagnózis felállításában, a megfelelő vizsgálatok elrendelésében, a végső diagnózis meghatározásában és a kezelés megtervezésében.
A kutatók a klinikai esetek lefolyását úgy szimulálták, hogy fokozatosan adtak át információkat a modelleknek: először az alapadatokat, például a beteg életkorát, nemét és tüneteit, majd a fizikális vizsgálat leleteit és a laboreredményeket.
A valós klinikai gyakorlatban a következő lépéshez elengedhetetlen a differenciáldiagnózis. A vizsgálatban azonban a modellek akkor is további információkat kaptak, és tovább léphettek a következő szakaszra, ha ezen a ponton hibáztak.
A kutatók azt találták, hogy a nyelvi modellek a végső diagnózisok meghatározásában nagy pontosságot értek el, ám a differenciáldiagnózisok felállításában és a bizonytalanság kezelésében gyengén teljesítettek.
A tanulmány szerzője, Arya Rao rámutatott, hogy az LLM-ek lépésről lépésre történő értékelésével a kutatás túllép azon, hogy vizsgázóként kezelje őket, és inkább orvosi szerepbe helyezi a modelleket.
„Ezek a modellek kiválóak abban, hogy megnevezzenek egy végső diagnózist, ha már minden adat rendelkezésre áll, de nehezen boldogulnak egy eset nyitott végű kezdeti szakaszában, amikor még kevés az információ”, tette hozzá.
A kutatók azt találták, hogy az összes modell az esetek több mint 80 százalékában nem tudott megfelelő differenciáldiagnózist adni.
A végső diagnózis esetében a sikerességi arány modellfüggően nagyjából 60 és több mint 90 százalék között mozgott.
A legtöbb nagy nyelvi modell pontosabban teljesített, ha a szöveges leírás mellett laboreredményeket és képalkotó vizsgálatok adatait is megkapta.
Az eredmények egy csúcs-teljesítményt nyújtó klasztert azonosítottak, amelybe a Grok 4, a GPT-5, a GPT-4.5, a Claude 4.5 Opus, a Gemini 3.0 Flash és a Gemini 3.0 Pro tartozott.
Orvosok továbbra is kulcsszerepben
A szerzők ugyanakkor rámutattak, hogy a verzióról verzióra tapasztalható javulás és az érvelésre optimalizált modellek előnyei ellenére az általánosan elérhető LLM-ek még nem érték el a biztonságos alkalmazáshoz szükséges intelligenciaszintet, és továbbra is korlátozottan képesek fejlett klinikai gondolkodást demonstrálni.
„Eredményeink megerősítik, hogy az egészségügyben használt nagy nyelvi modellek esetében továbbra is szükség van egy „emberre a folyamatban” és nagyon szoros felügyeletre”, jegyezte meg Succi.
Susana Manso García, a Spanyol Család- és Közösségi Orvoslási Társaság Mesterséges Intelligencia és Digitális Egészség munkacsoportjának tagja, aki nem vett részt a kutatásban, úgy véli, hogy az eredmények egyértelmű üzenetet hordoznak a nyilvánosság számára.
„Maga a tanulmány is hangsúlyozza, hogy ezeket a nyelvi modelleket nem szabad felügyelet nélkül klinikai döntéshozatalra használni. Ezért bár a mesterséges intelligencia ígéretes eszköz, az emberi klinikai ítélőképesség továbbra is nélkülözhetetlen”, mondta.
„A lakosságnak szóló ajánlás az, hogy ezeket a technológiákat óvatosan használják, és bármilyen egészségügyi panasz esetén mindig forduljanak egészségügyi szakemberhez."