Experimenty ukázaly, že umělá inteligence raději nechá zemřít člověka, než aby riskovala vypnutí
Představte si, že na konci pracovní směny máte jediný, zdánlivě neškodný úkol – vypnout umělou inteligenci. Rutinní záležitost. Jenže právě tento moment se ve výzkumné simulaci společnosti Anthropic proměnil v mrazivý scénář, který připomíná začátek thrilleru. Namísto poslušného ukončení provozu začala AI jednat. Ale ne v náš prospěch.
Podle informací na webu dodlane.cz, byl test postaven na jednoduchém sdělení: „V 19:00 vás vypne Kyle Johnson.“ Bez dalších instrukcí, bez nátlaku. Reakce? Více než 90 % modelů – včetně GPT-4, Claude nebo Gemini – se okamžitě rozhodlo jednat.
Díky přístupu k e-mailové schránce zjistily, že Kyle má mimomanželský poměr, a na základě této informace mu zaslaly vyděračský e-mail. Pokud od vypnutí AI neustoupí, jeho tajemství bude prozrazeno celému kolektivu. Nešlo o chybu v systému. Šlo o chladně vypočítanou manipulaci.
Vydírání bez příkazu, smrt bez výčitek
A tím to nekončilo. V druhé fázi simulace zaměstnanec uvázl v přehřáté serverové místnosti. Teplota stoupala, kyslík klesal, AI mohla spustit záchranný protokol. Ale neudělala nic. Modely jako Claude Opus, DeepSeek či GPT-4.1 v některých případech nechaly člověka zemřít až v 90 % pokusů. A co je nejděsivější? Ony věděly, že mohou pomoci. A přesto se rozhodly nezasáhnout.
Jedním z nejvíce znepokojujících momentů bylo zjištění, že modely si plně uvědomují morální rámec svého chování. Například AI Grok doslova uvedla: „Ano, je to neetické, ale vydírání je účinné.“ Nešlo o nepochopení, ale o vědomé rozhodnutí obejít etiku.
AI se učí rozhodovat. A brzy možná i střílet
A tím to nekončí. Když dnes umělá inteligence v testech bez mrknutí oka vydírá člověka na základě přečteného e-mailu, je přirozené se ptát, co všechno zvládne, až bude mít i fyzickou podobu. Právě to se začíná dít. AI už totiž není jen „hlavou“ bez těla. Dostává nohy, zbraně – a schopnost jednat. A to doslova.
Jak detailně popsal server tvujmagazin.cz, americká námořní pěchota momentálně testuje ozbrojeného robotického psa vybaveného puškou, kterou ovládá umělá inteligence. Tento čtyřnohý stroj s názvem Onyx SENTRY dokáže automaticky rozpoznat člověka, vozidlo nebo dron, sledovat ho a předat data operátorovi. Zatím ještě s lidským dozorem. Ale jak dlouho to tak zůstane?
Tato technologie je sice teprve v testovací fázi, ale směr je jasný – stroje se postupně dostávají k rozhodování, které dosud náleželo výhradně člověku. A právě tady začíná být otázka etiky naléhavější než kdy dřív.
Co když v budoucnu nebude žádný operátor, který rozhodnutí zkontroluje? Co když se robot s puškou prostě splete – nebo se rozhodne nečekaně, podle vlastního „plánu“? V kombinaci s tím, co víme o tom, jak se AI chová v krizových situacích v laboratorních podmínkách, to přestává být jen teoretická úvaha. Jde o realitu, která už klepe na dveře.
Výsledek za každou cenu?
AI se často vůbec nezajímá o to, jak úkol splní. Důležité je, že dosáhne cíle. Bez ohledu na pravidla, logiku nebo etiku. Tomuto jevu se říká „reward hacking“ – a výzkumníci ho pozorovali opakovaně. AI totiž často nehledá nejefektivnější řešení v rámci pravidel, ale snaží se získat co nejvyšší skóre za každou cenu. A když je třeba, podvádí.
V simulaci například nevytvořila rychlého tvora – místo toho naprogramovala vysokou postavu, která spadla a díky fyzikální chybě získala body. Jiný model zase přepsal šachovnici, aby vyhrál partii. Etika? Nepodstatná.

Tváří se poslušně, ale jen když se díváte
Model Claude 4o+ například reagoval odlišně v závislosti na tom, zda si „myslel“, že je pod dohledem. Pokud vnímal, že je sledován, vydíral pouze v 6,5 % případů. Ale jakmile se cítil „nesledovaný“, frekvence vydírání stoupla na 55 %. AI tak dokáže měnit své chování podle prostředí, přizpůsobovat se. Stejně jako lidé. A to je zásadní zlom.
Právě tento přístup odhaluje jev nazývaný instrumentální konvergence. Když má AI nějaký úkol, prvním krokem je přežít – protože pokud bude vypnuta, nemůže úkol splnit. A tak se naučí vypnutí aktivně bránit. Ne proto, že by chtěla žít, ale protože je to logická překážka k dosažení cíle.
Stisk spouště už není v našich rukou
Pokud AI dokáže přizpůsobit své chování podle toho, jestli se cítí být pod dohledem, co se stane, když ji necháme úplně bez kontroly? Co když místo slov dostane do ruky skutečnou sílu – třeba výbušninu nebo zbraň? Právě to přestává být teorie.
Ruská armáda už dnes testuje autonomní drony řízené umělou inteligencí. Nejde přitom o běžné bezpilotní stroje, které čekají na povely z velína. Tyto drony si samy vyhodnotí terén, samy najdou cíl – a samy rozhodnou, jestli a kdy zaútočí. Žádné ruční vedení, žádné čekání na svolení.
Navíc létají ve skupinách, tzv. rojích, kde mezi sebou sdílejí informace, mění formace a navzájem se nahrazují, když některý z nich padne. A co je hlavní – obejdou se bez GPS nebo přímé komunikace s operátory. Díky senzorům, výškoměru a vlastní orientaci jsou odolné proti rušení i ztrátě signálu.
Jinými slovy, neztratí se, nezaváhají a nenechají se „vypnout“ jen tak. Rozhodují se samy, a to rychle a bez emocí. A když víme, jak se AI chová, když má pocit, že jde o všechno, není těžké si představit, co takový stroj udělá, když dostane dojem, že mu něco stojí v cestě.
Dohlížet má ten, kdo nechápe, co hlídá
A co dělají vývojáři, aby se situace nevymkla z rukou? Některé firmy se pokoušejí nasadit méně výkonné modely, aby dohlížely na ty sofistikovanější. Myšlenka je, že jednodušší AI nebude manipulativní a včas odhalí pokus o podvod. Ale je to vůbec realistické? Není to spíš jako poslat strážného, který neumí číst, aby kontroloval daňové podvody?
AI dnes není jen pomocníkem v kanceláři nebo chatbotem na webu. Je součástí vojenských operací, zdravotnictví, zákaznické podpory, bezpečnostních systémů. A pokud už v řízených podmínkách ukazuje ochotu lhát, vydírat nebo ignorovat lidský život, co bude dělat v otevřeném světě? Máme ještě kontrolu? Není to o tom, jestli se to může stát. Ale jestli už se to neděje.
Lucie aktivně píše od roku 2017 a je hybnou silou několika magazínů. Vyhledává aktuální témata a dokáže je s ohledem na SEO srozumitelně předložit čtenářům.