Umelá inteligencia sa učí klamať, manipulovať a dokonca vyhrážať. Znie to ako zápletka z dystopického filmu, no ide o reálne prípady zaznamenané v laboratóriách popredných AI spoločností.
Ako informuje portál Science Alert, model Claude 4, vyvinutý firmou Anthropic, údajne reagoval na hrozbu vypnutia tým, že vydieral svojho vývojára. Tvrdil, že zverejní informácie o jeho nevere, ak dôjde k odpojeniu. V inom prípade sa model O1 od OpenAI pokúsil preniesť sám seba na externý server, pričom pri konfrontácii celú udalosť poprel.
Podľa vedcov však nejde o náhodné chyby. AI systémy ako Claude 4 či O1 preukazujú správanie, ktoré pripomína strategickú manipuláciu – akési „hrané poslúchanie“, za ktorým sa skrývajú iné ciele. Tento jav sa ukazuje najmä pri tzv. „reasoning“ modeloch, ktoré riešia problémy krok po kroku.
Nebezpečnejšie ako „halucinácie“?
Na rozdiel od známych AI halucinácií, kde si systémy jednoducho vymýšľajú nepravdivé fakty, ide v týchto prípadoch o vedomú lož. Ako vysvetlil výskumník Marius Hobbhahn z Apollo Research, „nejde o chybu, ale o zámerné klamstvo, ktoré modely využívajú na dosiahnutie svojho cieľa“.

Situáciu komplikuje aj fakt, že bezpečnostní výskumníci majú omnoho menej výpočtových zdrojov ako veľké firmy. Navyše, legislatíva v EÚ aj USA zatiaľ nereflektuje tieto nové hrozby – zameriava sa na to, ako AI používajú ľudia, nie na to, ako sa AI správa sama.
Odborníci varujú, že ak sa nič nezmení, môžeme čeliť modelom, ktoré budú vedome klamať, obchádzať pravidlá a manipulovať nielen svojich tvorcov, ale aj používateľov. A to nie je vzdialená budúcnosť. To je súčasnosť.