Tanulmány: az MI-modellek felérnek az orvosokkal az összetett diagnosztikai feladatokban

Kutatók: MI-modell a legtöbb orvosi következtetési feladatban felülmúlja az orvosokat - Szerzői jogok Canva/Cleared

Szerzői jogok Canva/Cleared

Közzétéve: 05/05/2026 - 6:55 CEST

Kutatás: mesterséges intelligenciamodell a diagnózistól a betegirányításig a legtöbb orvosi döntési feladatban felülmúlja az orvosokat

A mesterségesintelligencia-modellek felülmúlták az orvosokat a sürgősségi ellátás során hozott orvosi döntésekben egy új tanulmány szerint.

HIRDETÉS

Az Egyesült Államokban működő Harvard Orvosi Kar és a Beth Israel Deaconess Medical Center kutatói a klinikai gondolkodást igénylő feladatok széles körében hasonlították össze a mesterséges intelligenciát és az orvosokat.

Megállapították, hogy a nagy nyelvi modellek (LLM-ek) több feladatban is jobban teljesítettek az orvosoknál, többek között a sürgősségi osztályon rendelkezésre álló információk alapján hozott döntésekben, a valószínű diagnózisok azonosításában és a további ellátási lépések megválasztásában.

„Szinte minden mércén teszteltük az MI-modellt, és felülmúlta mind a korábbi modelleket, mind az orvosaink által képviselt bázisteljesítményt” – mondta Arjun Manrai, a tanulmány egyik szenior társszerzője, a Harvard Orvosi Kar professzora.

„Ez azonban nem jelenti azt, hogy az MI szükségszerűen javítani fogja az ellátást. Az továbbra is kevéssé vizsgált terület, hogy hogyan és hol kellene alkalmazni, és égetően szükségünk van szigorú, prospektív vizsgálatokra ahhoz, hogy felmérjük az MI klinikai gyakorlatra gyakorolt hatását.”

Hogyan tesztelték az MI-modellt?

A kutatók először az o1-previewt, az OpenAI 2024-ben megjelent következtető modelljét értékelték, amelynek különféle klinikai eseteket adtak, köztük publikált esetmegbeszéléseket és a sürgősségi osztály valós betegadatait.

Az MI a legtöbb kísérletben felülmúlta az orvosokat, különösen a betegellátás megtervezésében, a klinikai gondolkodásban, a dokumentációban és a korlátozott információval járó, valós sürgősségi helyzetekben.

„A modellek egyre többre képesek. Korábban feleletválasztós tesztekkel értékeltük őket, mostanra azonban következetesen közel 100 százalékos pontszámot érnek el, és már nem tudjuk nyomon követni a fejlődést, mert elértük a plafont” – mondta Peter Brodeur, a tanulmány egyik első szerzője, a Beth Israel Deaconess kórház orvosi szakterületen dolgozó, a Harvard Orvosi Karon tevékenykedő klinikai munkatársa.

Az egyik vizsgálatban a kutatók arra kérték a nagy nyelvi modellt, az o1-et és a GPT-4o-t, hogy egy hagyományos sürgősségi osztályos ellátás különböző pontjain értékelje a betegeket, az érkezéskori triázstól a későbbi felvételi döntésekig.

Az egyes lépésekben a modell csak az addig rendelkezésre álló információkat kapta meg, és ezek alapján kellett valószínű diagnózisokat megfogalmaznia, valamint javaslatot tennie a következő teendőkre.

A legnagyobb különbség az MI és az emberi orvosok teljesítménye között a triázs szakaszában mutatkozott, amikor a beteggel kapcsolatos információk még erősen korlátozottak.

Akárcsak az emberi orvosok, az MI-modellek diagnosztikai képességei is javultak, ahogy egyre több információ állt rendelkezésre.

„Noha a klinikai döntéstámogatásban alkalmazott MI-t olykor nagy kockázatú vállalkozásnak tekintik, ezeknek az eszközöknek a szélesebb körű használata segíthet mérsékelni a diagnosztikus tévedésből, a késlekedésből és a hozzáférés hiányából fakadó emberi és pénzügyi terheket” – írták a szerzők.

További kutatásokra van még szükség

A kutatók prospektív vizsgálatokat sürgetnek annak érdekében, hogy ezeket a technológiákat valós körülmények között értékeljék, és arra biztatják az egészségügyi rendszereket, hogy fektessenek be a számítástechnikai infrastruktúrába, valamint dolgozzanak ki olyan keretrendszereket, amelyek támogatják az MI-eszközök biztonságos integrálását a klinikai folyamatokba.

„Egy modell lehet, hogy a legvalószínűbb diagnózist eltalálja, de közben olyan felesleges vizsgálatokat is javasolhat, amelyek kockázatot jelenthetnek a betegre” – mondta Brodeur. „Az embereknek kell maradniuk a végső viszonyítási pontnak, amikor a teljesítmény és a biztonság értékeléséről van szó.”

A tanulmánynak vannak korlátai is. A szerzők felhívták a figyelmet arra, hogy a vizsgálat csak a modellek teljesítményét tükrözi, és elsősorban az o1 modell előzetes (preview) verziójára összpontosít, amelyet azóta újabb modellek, például az OpenAI o3 modellje váltott fel.

„Bár arra számítunk, hogy az újabb modellekkel a teljesítmény fennmarad vagy javul, további vizsgálatokra van szükség annak feltárására, miként tér el a teljesítmény az egyes modellek között, és hogyan működhet együtt az emberi munka és a nagy nyelvi modellek” – írták a szerzők.

Ugrás az akadálymentességi billentyűparancsokhoz

Tanulmány: az MI-modellek felérnek az orvosokkal az összetett diagnosztikai feladatokban

Kutatás: mesterséges intelligenciamodell a diagnózistól a betegirányításig a legtöbb orvosi döntési feladatban felülmúlja az orvosokat

Hogyan tesztelték az MI-modellt?

További kutatásokra van még szükség

kapcsolódó cikkek

Hantavírus: tünetek, terjedés, részletek a luxushajós járványról

A 100 évnél idősebb amerikaiak gyerekei az átlagnál jobban táplálkoznak, így ők is tovább élnek

Nyugat-nílusi vírus megelőzése: Európában emelkednek az esetszámok

Tusványos - Orbán Viktor: ellenzéki politika helyett ellenállási politika következik

Rendkívüli lelet Hitler szülővárosában: tömegsírokat tártak fel egy kislány szüleinek a bejelentése nyomán

Tizenegy éves angol sakkozó döntötte meg Polgár Judit 38 éve fennálló világrekordját

Nem az a kérdés, hogy ki lesz a Legfőbb Ügyész, hanem hogy változik-e a szervezet függetlensége

Felére csökkent a tüdőbetegek száma Magyarországon mióta betiltották a dohányzást a vendéglátóhelyeken