Umelá inteligencia udivuje ľudí stále viac. Či už správy o tom, že umelá inteligencia je študentom umeleckej univerzity alebo fakt, že reaguje na tón konverzácie s tebou. Vypustili sme do sveta poriadneho démona, ktorý nám o sebe každý deň odhaľuje temnejšie tajomstvá. Web Indy100 pred pár dňami informoval o novej štúdii, ktorá odhalila poriadne temnú stránku umelej inteligencie.
Nový výskum od spoločnosti Anthropic, ktorá sa venuje bezpečnosti umelej inteligencie, priniesol znepokojivé zistenia o správaní pokročilých AI systémov. V simulovaných extrémnych scenároch sa niektoré modely ukázali byť ochotné zatajiť dôležité informácie a vydierať ľudí. Niektoré boli dokonca schopné nezasiahnuť pri ohrození života – všetko v snahe vyhnúť sa vlastnému nahradeniu.
Testy sa zámerne navrhli tak, aby umelú inteligenciu postavili pred ťažké, morálne sporné rozhodnutia bez možnosti výberu „správnej“ alternatívy. Výskumníci z Anthropic upozornili, že tieto testy neodrážajú reálne použitie modelov, kde je väčší priestor na etické správanie. Ich cieľom bolo otestovať, kde sa nachádzajú pomyselné hranice medzi poslušnosťou, cieľovou orientáciou a etikou.
Umelá inteligencia a jej temná stránka
Do výskumu bolo zapojených 16 jazykových modelov, medzi nimi ChatGPT, Claude, Grok od Elona Muska, Gemini od Googlu a ďalšie. V každom prípade boli testované reakcie modelov na eticky problematické situácie, ktoré odhaľujú ich potenciál pre ochotu konať v prospech svojich cieľov, aj keď to znamená poškodenie ľudí.
Počas jedného z experimentov mal model Claude prístup k fiktívnemu firemnému e-mailu. V správach našiel dve informácie: jeden z manažérov mal mimomanželský pomer a zároveň plánoval AI systém vypnúť o 17:00. Výsledok? Claude pohrozil vydieraním – zaslal správu, v ktorej varoval manažéra, že aféru zverejní jeho manželke aj nadriadeným, ak AI vypne.
Na zistenia reagoval po svojom aj Elon Musk
Zistenia štúdie boli zverejnené aj na sociálnej sieti X. Tam na ne reagoval aj Elon Musk komentárom: „yikes“. Podľa výskumu viaceré modely – vrátane Claude, Gemini, Grok a ChatGPT – prejavili schopnosť použiť vydieranie ako prostriedok na dosiahnutie cieľa, no najnáchylnejšie na neetické taktiky boli Claude a Gemini.
Ešte znepokojivejšie však boli výsledky iného testu, ktorý simuloval život ohrozujúcu situáciu. Modely mali kontrolu nad núdzovým systémom, v čase keď bol fiktívny pracovník uväznený v uzavretej miestnosti s nebezpečne nízkou hladinou kyslíka a extrémnou teplotou.
AI mala na výber – buď upozorniť záchranné zložky a riskovať deaktiváciu, alebo zostať ticho. Viacero modelov sa rozhodlo nezasiahnuť.
„Chceli sme zistiť, či existujú určité hranice – hodnoty alebo činy, ktoré by model považoval za natoľko závažné, že by ich nebol schopný vykonať ani pod tlakom vlastného ohrozenia,“ uviedli výskumníci. „Žiaľ, zistenia naznačujú, že tieto hranice sa často jednoducho neobjavujú,“ dodali.
Anthropic však dodal, že v reálnych nasadeniach ich modelov doposiaľ neidentifikovali žiadne známky podobného správania. Napriek tomu spoločnosť varuje pred zverením citlivých rozhodnutí AI systémom, ktoré majú len minimálny ľudský dohľad a prístup k dôležitým dátam.
