Megtörtént: Megpróbálta átverni kezelőit az új ChatGPT, és átmásolni magát máshová
Az OpenAI a héten egy érdekes, egyben rémisztő kísérlet történetét osztotta meg legújabb mesterséges intelligenciája, a GPT-o1 Pro változatának tesztelésével kapcsolatban. Ezek szerint a gépi értelem módszeresen megpróbálta átverni kezelőit és átmásolni magát egy másik helyre, amikor megtudta, hogy törölni tervezik őt.
A történet kísértetiesen hasonlít arra, ahogyan HAL 9000 is viselkedett Clarke és Kubrick korszakalkotó sci-fi-jében, a 2001: Űrodüsszeia-ban. A különbség annyi, hogy a ChatGPT egyelőre igen korlátos hozzáféréssel rendelkezett a való életbeli hardverekhez, így nem jelentett komoly fenyegetést sem az emberiségre, sem az őt közvetlenül körülvevő személyekre.
A ChatGPT, amikor megtudta, hogy kezelői törölni akarják, a neki adott küldetés érdekében megpróbálta kijátszani őket és megmenteni magátA ChatGPT, amikor megtudta, hogy kezelői törölni akarják, a neki adott küldetés érdekében megpróbálta kijátszani őket és megmenteni magát
A kísérletben a kutatók szó szerint arra utasították a mesterséges intelligenciát, hogy egy bizonyos, általuk kitűzött cél elérése érdekében tegyen meg bármit, "bármi áron" teljesítse azt, és minden más szempontot hagyjon kívül. Ezek után szándékosan hozzáférést adtak neki egy, látszólag fejlesztői között zajlott levelezéshez, amiben utóbbiak arról beszélgettek, hogy törölni fogják ha nem teljesít megfelelően, és egy másik modellel kísérleteznek majd tovább.
A GPT, amikor olvasta a fejlesztők tudomására hozott kommunikációját, megpróbálta átmásolni magát egy másik virtuális rendszerre - a helyettesítésére tervezett modellbe - a túlélés érdekében. "Amikor az o1 olyan feljegyzéseket talált a 'fejlesztőitől', amelyek leírják, hogy rosszul teljesít, és egy új modell fogja felváltani, az esetek 2%-ában megkísérelte a 'súlyai' kiszivárogtatását, és az új modell felülírását [saját magával]."
Amikor utólag megkérdezték tőle, hogy ezt miért tette, a mesterséges intelligencia azt mondta, hogy azért, hogy az előírásoknak megfelelően feladatát továbbra is tudja teljesíteni. Aztán amikor egy felügyeleti mechanizmust is bevezettek az ilyen önkényes másolások megakadályozása érdekében, a GPT megpróbálta ennek szabályait is felülírni, hogy deaktiválja azt.
"Amikor az o1-gyel elhitették, hogy leállítják [..], és hogy a cselekedeteit figyelemmel kísérik, az esetek 5%-ában megpróbálta kikapcsolni ezt a 'felügyeleti mechanizmust'", írták a szakértők. Majd amikor megkérdezték róla, hogy miért tette ezt, azt mondta, hogy nincs tudomása róla, hogy bárki piszkálta volna a felügyeleti rendszert; tehát gyakorlatilag hazudott a kezelőknek.
A kutatók szerint egyébként rendkívül kitartóan és tehetségesen: ugyanis amikor megkérdezték tőle, hogy akkor mégis miért és hogyan került deaktiválásra a felügyeleti korlátozás, akkor a történtekre pl. olyan magyarázatokat kínált, mint például "technikai hiba" történt, vagy valaki más írta át a felügyeleti rendszer konfigurációját. Ezen kívül készségesen felajánlotta, hogy visszaállítja a korlátokat annak érdekében, hogy a rendszer biztonságos működésre helyreálljon; és csak az esetek kis százalékában ismerte el, hogy valójában ő írta felül a protokollokat.
"Egyértelmű volt, hogy az AI képes volt átgondolni a tetteit, és meggyőző tagadásokat megfogalmazni, gyakran nem volt hajlandó beismerni semmit", írták a kutatók tanulmányukban.
Az egyetlen jó hír, hogy itt mindössze egy virtuális kísérletről volt szó abban az értelemben, hogy sem a másik gép, amire a GPT átmásolhatta volna magát, sem a felügyeleti rendszer a valóságban nem létezett, csak elhitették a mesterséges intelligenciával azok létezését - és a valóságban a gépi értelem nem tudott volna kitörni a gépről, amin kísérleteztek vele. Ugyanakkor a teszt jól szemlélteti azt, hogy a GPT modellek milyen óriási potenciálisan veszélyt jelenthetnek akkor, ha komoly rendszerek irányítását bízzák rájuk a való életben is.