Tanulmány: az MI az esetek több mint 80%-ában elbukik az elsődleges diagnózisnál

Tanulmány szerint MI-chatbotok még nem alkalmasak közvetlen klinikai használatra. - Szerzői jogok Cleared/Canva

Szerzői jogok Cleared/Canva

Közzétéve: 14/04/2026 - 7:00 CEST

Tanulmány: a nyelvi mesterséges intelligenciák az esetek több mint 80%-ában pontatlanul diagnosztizálnak, felügyelet nélkül nem biztonságosak

Egy új tanulmány szerint a generatív mesterséges intelligencia (MI) még mindig nem rendelkezik a biztonságos klinikai alkalmazáshoz szükséges következtetési folyamatokkal.

HIRDETÉS

A MI-alapú csevegőrobotok ugyan pontosabban diagnosztizálnak, ha átfogó klinikai információkat kapnak, ám a Mass General Brigham kutatói szerint az esetek több mint 80 százalékában még így sem tudnak megfelelő differenciáldiagnózist felállítani. A Mass General Brigham egy Bostonban működő, nonprofit kórházi és kutatóhálózat, az Egyesült Államok egyik legnagyobb egészségügyi rendszere.

A nyílt hozzáférésű JAMA Network Open (forrás: angol) orvosi folyóiratban megjelent tanulmány eredményei szerint a nagy nyelvi modellek (LLM-ek) elmaradnak az egészségügyi alkalmazáshoz szükséges klinikai következtetési szinttől.

„A folyamatos fejlődés ellenére a dobozból kivett nagy nyelvi modellek még nem állnak készen felügyelet nélküli, klinikai szintű bevetésre”, mondta Marc Succi, a tanulmány társszerzője.

Hozzátette, hogy a mesterséges intelligencia egyelőre nem képes reprodukálni a differenciáldiagnózist, amely a klinikai gondolkodás központi eleme, és amelyet ő az „orvoslás művészetének” tart.

A differenciáldiagnózis az első lépés az egészségügyi szakemberek számára egy betegség azonosításához: ezzel különítik el más, hasonló tünetekkel járó kórképektől.

Hogyan tesztelik a modelleket

A kutatócsoport 21 nagy nyelvi modell működését elemezte, köztük a Claude, a DeepSeek, a Gemini, a GPT és a Grok legújabb elérhető verzióit.

A modelleket 29 standardizált klinikai esettanulmányon értékelték, egy frissen kifejlesztett, PrIME-LLM nevű eszközzel.

Az eszköz a klinikai gondolkodás különböző szakaszaiban méri a modellek teljesítményét: a kezdeti diagnózis felállításában, a megfelelő vizsgálatok elrendelésében, a végső diagnózis meghatározásában és a kezelés megtervezésében.

A kutatók a klinikai esetek lefolyását úgy szimulálták, hogy fokozatosan adtak át információkat a modelleknek: először az alapadatokat, például a beteg életkorát, nemét és tüneteit, majd a fizikális vizsgálat leleteit és a laboreredményeket.

A valós klinikai gyakorlatban a következő lépéshez elengedhetetlen a differenciáldiagnózis. A vizsgálatban azonban a modellek akkor is további információkat kaptak, és tovább léphettek a következő szakaszra, ha ezen a ponton hibáztak.

A kutatók azt találták, hogy a nyelvi modellek a végső diagnózisok meghatározásában nagy pontosságot értek el, ám a differenciáldiagnózisok felállításában és a bizonytalanság kezelésében gyengén teljesítettek.

A tanulmány szerzője, Arya Rao rámutatott, hogy az LLM-ek lépésről lépésre történő értékelésével a kutatás túllép azon, hogy vizsgázóként kezelje őket, és inkább orvosi szerepbe helyezi a modelleket.

„Ezek a modellek kiválóak abban, hogy megnevezzenek egy végső diagnózist, ha már minden adat rendelkezésre áll, de nehezen boldogulnak egy eset nyitott végű kezdeti szakaszában, amikor még kevés az információ”, tette hozzá.

A kutatók azt találták, hogy az összes modell az esetek több mint 80 százalékában nem tudott megfelelő differenciáldiagnózist adni.

A végső diagnózis esetében a sikerességi arány modellfüggően nagyjából 60 és több mint 90 százalék között mozgott.

A legtöbb nagy nyelvi modell pontosabban teljesített, ha a szöveges leírás mellett laboreredményeket és képalkotó vizsgálatok adatait is megkapta.

Az eredmények egy csúcs-teljesítményt nyújtó klasztert azonosítottak, amelybe a Grok 4, a GPT-5, a GPT-4.5, a Claude 4.5 Opus, a Gemini 3.0 Flash és a Gemini 3.0 Pro tartozott.

Orvosok továbbra is kulcsszerepben

A szerzők ugyanakkor rámutattak, hogy a verzióról verzióra tapasztalható javulás és az érvelésre optimalizált modellek előnyei ellenére az általánosan elérhető LLM-ek még nem érték el a biztonságos alkalmazáshoz szükséges intelligenciaszintet, és továbbra is korlátozottan képesek fejlett klinikai gondolkodást demonstrálni.

„Eredményeink megerősítik, hogy az egészségügyben használt nagy nyelvi modellek esetében továbbra is szükség van egy „emberre a folyamatban” és nagyon szoros felügyeletre”, jegyezte meg Succi.

Susana Manso García, a Spanyol Család- és Közösségi Orvoslási Társaság Mesterséges Intelligencia és Digitális Egészség munkacsoportjának tagja, aki nem vett részt a kutatásban, úgy véli, hogy az eredmények egyértelmű üzenetet hordoznak a nyilvánosság számára.

„Maga a tanulmány is hangsúlyozza, hogy ezeket a nyelvi modelleket nem szabad felügyelet nélkül klinikai döntéshozatalra használni. Ezért bár a mesterséges intelligencia ígéretes eszköz, az emberi klinikai ítélőképesség továbbra is nélkülözhetetlen”, mondta.

„A lakosságnak szóló ajánlás az, hogy ezeket a technológiákat óvatosan használják, és bármilyen egészségügyi panasz esetén mindig forduljanak egészségügyi szakemberhez."

Ugrás az akadálymentességi billentyűparancsokhoz

Tanulmány: az MI az esetek több mint 80%-ában elbukik az elsődleges diagnózisnál

Tanulmány: a nyelvi mesterséges intelligenciák az esetek több mint 80%-ában pontatlanul diagnosztizálnak, felügyelet nélkül nem biztonságosak

Hogyan tesztelik a modelleket

Orvosok továbbra is kulcsszerepben

kapcsolódó cikkek

Évi 115 milliárd euró is lehet a hosszú COVID költsége

Csontritkulástól a homályos látásig: hogyan hat az űrutazás az emberi testre

Már hét nap meditáció is átformálhatja az agyat egy kutatás szerint

Az iráni külügyminiszter megerősítette: Izrael Teherán tárgyalóit akarta célba venni

Gyorsan erősödik az El Niño: kell-e félnie Európának?

Deportálták őket az USA-ból, majd meghaltak a földrengésben a venezuelai gyűjtőtábor lakói

Ronaldo tényleg azt mondta arabul, hogy „Bismillah” a tizenegyes rúgása előtt?

Zelenszkij: Kosztyantynivkát nem foglalták el az oroszok, hiába állítják ezt