Több mint száz kutató szorgalmaz védelmi intézkedéseket a kockázatos biológiai adatbázisoknál az MI visszaélésszerű használatának, halálos kórokozók létrehozásának megelőzésére.
A biológiában használt mesterségesintelligencia-modellek (MI-modellek) nagymértékben hatalmas mennyiségű biológiai adatra támaszkodnak, köztük genetikai szekvenciákra és kórokozók jellemzőire. De vajon ennek az információnak egyetemesen hozzáférhetőnek kell-e lennie, és hogyan lehet biztosítani, hogy csak jogszerű célokra használják?
Száznál is több kutató figyelmeztetett arra, hogy bizonyos biológiai adatkészletek korlátozás nélküli hozzáférhetővé tétele lehetővé teheti, hogy MI-rendszerek veszélyes vírusok tervezésében vagy továbbfejlesztésében segítsenek, ezért szigorúbb védelmi intézkedéseket sürgetnek a visszaélések megelőzésére.
Egy nyílt levélben olyan vezető intézmények kutatói, mint a Johns Hopkins Egyetem, az Oxfordi Egyetem, a Fordham Egyetem és a Stanford Egyetem azt írják: noha a szabadon hozzáférhető tudományos adatok felgyorsították a felfedezéseket, az új biológiai adatok egy szűk köre bio-biztonsági kockázatot jelenthet, ha rossz kezekbe kerül.
„A biológiai adatok felügyelete óriási téttel bír, mivel az MI-modellek súlyos biológiai fenyegetések létrehozásában segíthetnek” – fogalmaznak a szerzők.
A biológiában alkalmazott MI-modellek képesek mutációk előrejelzésére, mintázatok azonosítására, valamint a világjárványt okozó kórokozók fertőzőbb változatainak generálására.
A szerzők ezt „aggályos képességnek” nevezik, amely felgyorsíthatja és leegyszerűsítheti olyan terjedőképes biológiai kórokozók létrehozását, amelyek emberi járványhoz vezethetnek, illetve hasonló eseményeket idézhetnek elő állatoknál, növényeknél vagy a környezetben.
A biológiai adatoknak általánosságban nyitottan elérhetőknek kellene lenniük – jegyzik meg a kutatók –, ám a „problémás kórokozó-adatok” esetében erősebb biztonsági ellenőrzésekre van szükség.
„Arra összpontosítunk, hogy még az általános hozzáférhetővé válásuk előtt meghatározzuk és szabályozzuk a legaggasztóbb adatkészleteket az MI-fejlesztők számára” – írják a tanulmányban, egy új hozzáférés-szabályozási keretrendszert javasolva.
„Egy olyan korszakban, amikor a világ minden táján nyílt paraméterű biológiai MI-modelleket fejlesztenek, a kényes kórokozó-adatokhoz való hozzáférés legitim kutatókra korlátozása lehet az egyik legígéretesebb módja a kockázatok mérséklésének” – mondta Moritz Hanke, a Johns Hopkins Egyetemről, a levél egyik társszerzője.
Mit tesznek a fejlesztők?
Jelenleg nincs egységes, mindenki számára kötelező érvényű keretrendszer ezen adatkészletek szabályozására. Bár néhány fejlesztő önként kizárja a legkockázatosabb adatokat, a kutatók szerint világos és következetes szabályokra lenne szükség minden szereplő számára.
A vezető biológiai MI-modellek fejlesztői, az Arc Institute, a Stanford és a TogetherAI kutatói által készített Evo, valamint az EvolutionaryScale ESM3 nevű modellje bizonyos vírusszekvenciákat nem vontak be a tanítóadatok közé.
2025 februárjában az EVO 2 csapata bejelentette, hogy etikai és biztonsági megfontolásokból, valamint azért, hogy „megelőzzék az Evo biológiai fegyverek fejlesztésére való felhasználását”, kizárták adatbázisukból az embereket és más összetett szervezeteket fertőző kórokozókat.
Az EVO 2 egy nyílt forráskódú biológiai MI-modell, amely képes előre jelezni a DNS-mutációk hatását, új genomokat tervezni és genetikai kódban rejlő mintázatokat feltárni.
„Jelenleg nincs szakértők által kidolgozott útmutatás arra, hogy mely adatok jelentenek valódi kockázatot, így egyes élvonalbeli fejlesztők kénytelenek a legjobb belátásuk szerint eljárni, és önként kizárni a vírussal kapcsolatos adatokat a tanításból” – írta a tanulmány szerzője, a levél társszerzője, Jassi Panu a LinkedInen.
Különböző típusú kockázatos adatok
A szerzők hangsúlyozzák, hogy a javasolt keretrendszer csak a biológiai adatkészletek kis hányadára vonatkozik.
Bevezet egy ötszintű Biosecurity Data Level (BDL) rendszert a kórokozó-adatok kategorizálására, amely a „kockázat” mértéke alapján sorolja be az adatokat annak függvényében, mennyire teszik lehetővé az MI-rendszerek számára általános vírusmintázatok és biológiai fenyegetések elsajátítását emberekre és állatokra nézve. A kategóriák a következők:
BDL-0: Hétköznapi biológiai adatok. Nem igényelnek korlátozást, szabadon megoszthatók.
BLD-1: Alapvető vírusépítő elemek, például genetikai szekvenciák. Nem szükséges hozzájuk komoly biztonsági ellenőrzés, de a bejelentkezést és a hozzáférést monitorozni kell.
BLD-2: Állati vírusok tulajdonságaira vonatkozó adatok, például hogy képesek-e fajok között ugrani, vagy meddig maradnak életképesek a gazdaszervezeten kívül.
BLD-3: Emberi vírusok jellemzőire vonatkozó adatok, például fertőzőképesség, tünetek vagy vakcinarezisztencia.
BLD-4: Módosított emberi vírusok, például a COVID–19 vírus olyan mutációi, amelyek még fertőzőbbé teszik azt. Erre a kategóriára vonatkoznának a legszigorúbb korlátozások.
A biztonságos hozzáférés biztosítása
A levél a biztonságos hozzáférés garantálása érdekében konkrét technikai eszközöket is javasol, amelyek lehetővé tennék az adatgazdák számára a felhasználók hitelesítését és az esetleges visszaélések nyomon követését.
A javasolt eszközök között szerepel a vízjelezés – vagyis rejtett, egyedi azonosítók beágyazása az adatkészletekbe a kiszivárgások könnyebb visszakövetésére –, az adatok eredetének nyomon követése (data provenance), valamint olyan naplófájlok, amelyek manipulálásbiztos aláírásokkal rögzítik a hozzáféréseket és a módosításokat, továbbá a viselkedésen alapuló biometrikus azonosítás, amely az egyedi felhasználói interakciós mintázatokat követi.
A kutatók szerint létfontosságú lesz megtalálni az egyensúlyt a nyitottság és a nagy kockázatú adatokra vonatkozó, szükséges biztonsági korlátozások között, ahogy az MI-rendszerek egyre hatékonyabbá és szélesebb körben elérhetővé válnak.