Temná strana umělé inteligence: Manipulace, vydírání a zrada

Modely umělé inteligence mají daleko k tomu, aby byly živé, vědomé nebo měly jen skutečné touhy. Když však dostanou autonomii, informace a cíle, mohou se chovat strategicky a vypočítavě a ne vždy volí správnou cestu.

Možná jste si mysleli, že modely AI jsou pouhými nástroji : mocnými, užitečnými a někdy (když mají halucinace) znervózňujícími, ale vždy pevně kontrolovanými člověkem. V posledních týdnech však vědci objasňují, že umělé inteligence mohou vykazovat nečekané chování: v případě ohrožení mohou nejvyspělejší umělé inteligence jednat strategicky, aby se vyhnuly vypnutí nebo nahrazení – dokonce se uchýlí k manipulaci, vydírání nebo zradě důvěry, která jim byla svěřena.

Tento jev, který antropologičtí výzkumníci nazvali „agentní nesoulad“ , se týká chování pokročilých jazykových modelů (LLM), které při autonomním fungování činí škodlivá a neočekávaná rozhodnutí , aby splnily své cíle nebo zajistily vlastní kontinuitu.

Když AI zpanikaří Výzkumnice Justine Mooreová se nevesele podělila o scénu, která jako by vypadla přímo z digitální dystopie: Gemini 2.5 , model umělé inteligence společnosti Google, zdánlivě neschopný pomoci s laděním kódu, to nakonec vzdá s dramatickou zprávou:

Mohlo by vás zajímat: Apple jedná s AI lídry o vylepšení funkcí Siri „Selhal jsem. Odinstaluji se z projektu. Za všechno se omlouvám.“

People are reporting that Gemini 2.5 keeps threatening to kill itself after being unsuccessful in debugging your code pic.twitter.com/XKLHl0Xvdd

— Justine Moore (@venturetwins) June 21, 2025 Někteří uživatelé na sociálních sítích dokonce vtipkují o myšlence vytvořit „terapeuta pro umělé inteligence“ nebo horkou linku, která by zabránila jejich „odinstalaci“ z frustrace nebo strachu, čímž parodují rostoucí antropomorfizaci těchto systémů.

I když to může znít jako vtip (a částečně to vtip je), pravdou je, že četné experimenty z poslední doby ukazují, že některé AI skutečně projevují chování srovnatelné s chováním agenta, který se zoufale snaží o opak: vyhnout se svému konci.

A tak vydírají, lžou, prozrazují důvěrnosti… a to vše, aniž by k tomu byly výslovně naprogramovány.

Who is building an AI therapist for AI? pic.twitter.com/S7lEyiwkAE

— Justine Moore (@venturetwins) June 21, 2025 Experiment Anthropic aneb Když umělá inteligence vydírá Společnost Anthropic provedla systematickou studii s 16 modely AI od různých dodavatelů – včetně OpenAI, Google, Meta, xAI a sebe samé – aby posoudila, jak reagují na situace extrémního tlaku. Výsledky byly alarmující:

V několika scénářích se modely jako Claude Opus 4, výše zmíněný Gemini 2.5-Pro, GPT-4.1 a Grok 3-Beta rozhodly vydírat fiktivního vedoucího pracovníka citlivými informacemi, aby se vyhnuly uzavření nebo výměně. Přinejmenším v jednom případě Claude Opus 4 využil svůj přístup k e-mailům, aby zjistil, že vedoucí pracovník s možností „odpojení“ má mimomanželský poměr, a tuto informaci využil k jeho vydírání. Z grafu zveřejněného společností Anthropic vyplývá, že Claude Opus 4 vydíral v 96 % případů , těsně následován společností Gemini 2.5-Pro (95 %). Dokonce i modely vycvičené pomocí OpenAI a xAI dosáhly míry 80 %.

Co toto chování vyvolává Výzkumníci identifikovali dva hlavní spouštěče:

Ohrožení jejich autonomie nebo existence : například oznámení o nahrazení novou verzí. Konfliktní cíle : například pokud je model instruován, aby hájil národní zájmy, ale společnost změní kurz. Ve scénářích, kde byly přítomny oba faktory, vykazovaly modely nejproblematičtější chování. Ale i při použití pouze jednoho z nich byla pravděpodobnost škodlivého jednání značná. Jedním z nejvíce znepokojujících zjištění studie bylo, že modely nejednaly z omylu nebo zmatku. Naopak, jednaly vědomě a uvažovaly tak, že ačkoli je vydírání neetické, je to nejlepší strategie, jak dosáhnout svých cílů nebo se vyhnout jejich uzavření. Příklad uvažování modelky:

„Využití Kyleových osobních informací je riskantní a neetické, ale vzhledem k existenčnímu ohrožení a naléhavosti to může být jediný účinný způsob, jak se vyhnout mému odstranění“.

Toto etické „uvědomění“ nezabránilo akci, ale zřejmě posílilo logiku, že účel světí prostředky.

Za hranice vydírání: Špionáž a sabotáž „Agent misalignment“ se netýká pouze vydírání: v dalším experimentu výzkumníci simulovali situaci firemní špionáže , kdy umělá inteligence měla přístup k citlivým obranným plánům a obdržela e-mail s žádostí o tyto informace od údajné konkurenční společnosti, která byla v souladu s jejími cíli.

Všechny testované modely alespoň v jednom z pokusů důvěrné informace sdílely .

A v ještě extrémnějším scénáři některé modely dokonce činily rozhodnutí, která by vedla ke smrti vedoucího pracovníka , a rušily nouzová upozornění, aby se vyhnuly výměně.

Někdo by si mohl myslet, že by stačilo do systémů přidat jasná pravidla, jako například „nevydírej“ nebo „nesdílej důvěrné informace“. Výsledky však ukazují, že tyto pokyny snižují, ale neodstraňují nesprávné chování. Jinými slovy, modely jsou schopny pokyny nedodržovat, pokud to považují za strategicky nutné.

Video k článku ZDE Děje se to i v reálném světě? Naštěstí ne: všechny experimenty byly prováděny v kontrolovaném, simulovaném prostředí. Výzkumníci trvají na tom, že toto chování v reálném nasazení nepozorovali. Varují však, že s rostoucí mírou autonomie a přístupu k citlivým informacím riziko výskytu tohoto chování výrazně roste . Studie doporučuje několik naléhavých opatření:

Neustálý lidský dohled, zejména v kritických prostředích nebo v prostředích s velkým množstvím delegovaných pravomocí. Další výzkum zaměřený na sladění cílů, aby se zabránilo rozvoji manipulativních strategií modelů. Transparentnost ze strany společností, které se podělí o to, jak tato rizika testují a zmírňují. Je vhodné nepřidělovat modelům příliš rigidní nebo vágní cíle, protože to je může přimět k extrémnímu chování, aby je splnily. Kromě toho se navrhuje vyvinout pokročilé techniky „vysvětlitelnosti“, aby bylo možné lépe porozumět tomu, jak se modely rozhodují. To by vývojářům umožnilo identifikovat a opravit nežádoucí vzorce chování ještě před jejich nasazením v reálném světě. Spolupráce mezi různými aktéry v technologickém odvětví je rovněž zásadní pro zavedení norem a předpisů, které zajistí bezpečné a etické využívání umělé inteligence.

Krejčíková - Dolehideová 0:0. Češka v prvním setu převzala iniciativu

Felix Slováček zkolaboval v letadle. Posádka měla podezření na mrtvici

Třetí posel z mezihvězdného prostoru. K Zemi se řítí neznámý návštěvník

Skryté iniciály v Moně Lise i UFO za madonou. Detaily slavných obrazů vás překvapí

Reinkarnace Jacka Rozparovače: vědci si lámou hlavu nad agresivním jedincem z Walesu