Newsletter Hírlevél Events Események Podcasts Videók Africanews
Loader
Hirdetés

Tanulmány: az MI az esetek több mint 80%-ában elbukik az elsődleges diagnózisnál

Tanulmány szerint az MI-chatbotok még nem alkalmasak közvetlen klinikai használatra.
Tanulmány szerint MI-chatbotok még nem alkalmasak közvetlen klinikai használatra. Szerzői jogok  Cleared/Canva
Szerzői jogok Cleared/Canva
Írta: Marta Iraola Iribarren
Közzétéve:
Megosztás Kommentek
Megosztás Close Button

Tanulmány: a nyelvi mesterséges intelligenciák az esetek több mint 80%-ában pontatlanul diagnosztizálnak, felügyelet nélkül nem biztonságosak

Egy új tanulmány szerint a generatív mesterséges intelligencia (MI) még mindig nem rendelkezik a biztonságos klinikai alkalmazáshoz szükséges következtetési folyamatokkal.

HIRDETÉS
HIRDETÉS

A MI-alapú csevegőrobotok ugyan pontosabban diagnosztizálnak, ha átfogó klinikai információkat kapnak, ám a Mass General Brigham kutatói szerint az esetek több mint 80 százalékában még így sem tudnak megfelelő differenciáldiagnózist felállítani. A Mass General Brigham egy Bostonban működő, nonprofit kórházi és kutatóhálózat, az Egyesült Államok egyik legnagyobb egészségügyi rendszere.

A nyílt hozzáférésű JAMA Network Open (forrás: angol) orvosi folyóiratban megjelent tanulmány eredményei szerint a nagy nyelvi modellek (LLM-ek) elmaradnak az egészségügyi alkalmazáshoz szükséges klinikai következtetési szinttől.

„A folyamatos fejlődés ellenére a dobozból kivett nagy nyelvi modellek még nem állnak készen felügyelet nélküli, klinikai szintű bevetésre”, mondta Marc Succi, a tanulmány társszerzője.

Hozzátette, hogy a mesterséges intelligencia egyelőre nem képes reprodukálni a differenciáldiagnózist, amely a klinikai gondolkodás központi eleme, és amelyet ő az „orvoslás művészetének” tart.

A differenciáldiagnózis az első lépés az egészségügyi szakemberek számára egy betegség azonosításához: ezzel különítik el más, hasonló tünetekkel járó kórképektől.

Hogyan tesztelik a modelleket

A kutatócsoport 21 nagy nyelvi modell működését elemezte, köztük a Claude, a DeepSeek, a Gemini, a GPT és a Grok legújabb elérhető verzióit.

A modelleket 29 standardizált klinikai esettanulmányon értékelték, egy frissen kifejlesztett, PrIME-LLM nevű eszközzel.

Az eszköz a klinikai gondolkodás különböző szakaszaiban méri a modellek teljesítményét: a kezdeti diagnózis felállításában, a megfelelő vizsgálatok elrendelésében, a végső diagnózis meghatározásában és a kezelés megtervezésében.

A kutatók a klinikai esetek lefolyását úgy szimulálták, hogy fokozatosan adtak át információkat a modelleknek: először az alapadatokat, például a beteg életkorát, nemét és tüneteit, majd a fizikális vizsgálat leleteit és a laboreredményeket.

A valós klinikai gyakorlatban a következő lépéshez elengedhetetlen a differenciáldiagnózis. A vizsgálatban azonban a modellek akkor is további információkat kaptak, és tovább léphettek a következő szakaszra, ha ezen a ponton hibáztak.

A kutatók azt találták, hogy a nyelvi modellek a végső diagnózisok meghatározásában nagy pontosságot értek el, ám a differenciáldiagnózisok felállításában és a bizonytalanság kezelésében gyengén teljesítettek.

A tanulmány szerzője, Arya Rao rámutatott, hogy az LLM-ek lépésről lépésre történő értékelésével a kutatás túllép azon, hogy vizsgázóként kezelje őket, és inkább orvosi szerepbe helyezi a modelleket.

„Ezek a modellek kiválóak abban, hogy megnevezzenek egy végső diagnózist, ha már minden adat rendelkezésre áll, de nehezen boldogulnak egy eset nyitott végű kezdeti szakaszában, amikor még kevés az információ”, tette hozzá.

A kutatók azt találták, hogy az összes modell az esetek több mint 80 százalékában nem tudott megfelelő differenciáldiagnózist adni.

A végső diagnózis esetében a sikerességi arány modellfüggően nagyjából 60 és több mint 90 százalék között mozgott.

A legtöbb nagy nyelvi modell pontosabban teljesített, ha a szöveges leírás mellett laboreredményeket és képalkotó vizsgálatok adatait is megkapta.

Az eredmények egy csúcs-teljesítményt nyújtó klasztert azonosítottak, amelybe a Grok 4, a GPT-5, a GPT-4.5, a Claude 4.5 Opus, a Gemini 3.0 Flash és a Gemini 3.0 Pro tartozott.

Orvosok továbbra is kulcsszerepben

A szerzők ugyanakkor rámutattak, hogy a verzióról verzióra tapasztalható javulás és az érvelésre optimalizált modellek előnyei ellenére az általánosan elérhető LLM-ek még nem érték el a biztonságos alkalmazáshoz szükséges intelligenciaszintet, és továbbra is korlátozottan képesek fejlett klinikai gondolkodást demonstrálni.

„Eredményeink megerősítik, hogy az egészségügyben használt nagy nyelvi modellek esetében továbbra is szükség van egy „emberre a folyamatban” és nagyon szoros felügyeletre”, jegyezte meg Succi.

Susana Manso García, a Spanyol Család- és Közösségi Orvoslási Társaság Mesterséges Intelligencia és Digitális Egészség munkacsoportjának tagja, aki nem vett részt a kutatásban, úgy véli, hogy az eredmények egyértelmű üzenetet hordoznak a nyilvánosság számára.

„Maga a tanulmány is hangsúlyozza, hogy ezeket a nyelvi modelleket nem szabad felügyelet nélkül klinikai döntéshozatalra használni. Ezért bár a mesterséges intelligencia ígéretes eszköz, az emberi klinikai ítélőképesség továbbra is nélkülözhetetlen”, mondta.

„A lakosságnak szóló ajánlás az, hogy ezeket a technológiákat óvatosan használják, és bármilyen egészségügyi panasz esetén mindig forduljanak egészségügyi szakemberhez."

Ugrás az akadálymentességi billentyűparancsokhoz
Megosztás Kommentek

kapcsolódó cikkek

Évi 115 milliárd euró is lehet a hosszú COVID költsége

Csontritkulástól a homályos látásig: hogyan hat az űrutazás az emberi testre

Már hét nap meditáció is átformálhatja az agyat egy kutatás szerint