Firma řízená umělou inteligencí. Vědci otestovali, co zvládnou „zaměstnanci–boti"

Co se stane, když AI obsadí všechna pracovní místa ve firmě?

Výzkumníci provedli neobvyklý experiment: sestavili fiktivní společnost od základů a každou pozici obsadili virtuálním agentem řízeným umělou inteligencí. Systémy měly fungovat jako běžný kancelářský tým – analyzovat data, komunikovat s „personálním oddělením" a vybírat nové kanceláře. Výsledky byly mnohem méně ohromující, než naznačují marketingová prohlášení výrobců těchto algoritmů.

Laboratoř místo open space: jak tahle „firma" fungovala

Tým spojený s univerzitou Carnegie Mellon vytvořil prostředí napodobující skutečnou firmu ze sektoru služeb. Nešlo o další předvádění chatbotů – výzkumníci chtěli zjistit, zda jsou současné systémy AI schopné samostatně zvládnout normální, vícevrstvou kancelářskou práci.

Virtuální zaměstnanci zastávali různé pozice typické pro firmy ze sektoru služeb nebo IT. Mezi obsazenými rolemi se objevily například:

finanční analytik – zodpovědný za procházení souborů a databází,
projektový manažer – koordinující „tým" a hlídající úkoly,
softwarový inženýr – vykonávající technické příkazy,
zaměstnanci spolupracující s HR a administrativou.

Každou roli zastával jiný AI agent postavený na základě populárních modelů. V experimentu se objevily mimo jiné tyto technologie:

Technologie	Společnost
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Vědci zároveň vytvořili samostatná virtuální „oddělení", která hrála roli kolegů z práce. Agent–projektový manažer musel například kontaktovat simulované personální oddělení kvůli vyřízení formalit nebo jednat s administrativou při výběru nových kanceláří. Celé prostředí připomínalo propracovanou simulační hru – s tím rozdílem, že místo lidí tahali za nitky jazykové modely.

Výsledky experimentu: AI nezvládla více než tři čtvrtiny úkolů

Vědci sledovali, v kolika případech dokázaly systémy splnit zadané úkoly od začátku do konce podle instrukcí. Úkoly přitom byly překvapivě všední:

procházení struktury složek a složitých tabulek za účelem sestavení smysluplné analýzy,
porovnání nabídek několika kancelářských prostor na základě „virtuálních prohlídek" a příprava doporučení,
výměna zpráv s jinými odděleními za účelem upřesnění dat nebo získání souhlasů,
příprava dokumentu v určeném formátu a jeho uložení na správné místo.

Výsledky na vrcholu žebříčku nebyly nijak oslnivé. Nejlepšího skóre dosáhl Claude 3.5 Sonnet, který úspěšně dokončil pouhých 24 % úkolů. Pokud se započítají i částečně splněné úkoly, jeho výsledek stoupne na 34,4 %. Druhý v pořadí, Gemini 2.0 Flash, dopadl ještě hůře – dokončil jen 11,4 % zadání. Žádný jiný systém nepřekonal hranici 10 %.

Nejúspěšnější AI v experimentu selhala u více než dvou třetin povinností. Ostatní modely se ani nepřiblížily úrovni průměrného kancelářského pracovníka.

Výzkumníci analyzovali také náklady na jednotlivé modely. Claude 3.5 Sonnet se ukázal jako nejdražší – „odpracování" celé sady úkolů stálo 6,34 dolaru. Gemini 2.0 Flash zvládl totéž za 0,79 dolaru. Levnější model byl sice výrazně méně efektivní, ale rozdíl ve výkonu nijak neodůvodňoval tak obrovský cenový nepoměr.

Co konkrétně AI zaměstnancům nefungovalo

Problém s čtením mezi řádky

Vědci brzy zjistili, že AI agentům chybí něco, co je pro lidi naprostou samozřejmostí: schopnost rozumět věcem, které jsou jen naznačeny a nejsou výslovně zapsány. Zadání mohlo například znít: „ulož dokument v souboru s příponou .docx". Pro kancelářského pracovníka je jasné, že jde o dokument Microsoft Word. Pro agenty to zdaleka tak zřejmé nebylo.

Některé systémy se pokoušely soubor uložit v jiném formátu a příponu doplnit ručně, jiné vůbec nespojily příponu „docx" s konkrétním typem dokumentu. Podobných případů bylo víc – od neschopnosti číst instrukce mezi řádky až po ignorování jemných nuancí v obsahu e-mailů.

Chybějící sociální dovednosti

Experiment také odhalil, že algoritmy si špatně poradí s úkoly vyžadujícími smysluplnou komunikaci. Když bylo potřeba položit otázku personálnímu oddělení, upřesnit data nebo domluvit priority s „nadřízeným", agentům chyběl základní sociální cit.

Stávalo se, že AI:

se neptala na chybějící informace a pustila se do práce naslepo,
ignorovala změnu kontextu ve zprávách,
chovala se jako někdo, kdo si téma přečetl jen zběžně,
nevyvozovala závěry z předchozích odpovědí svého komunikačního partnera.

V praxi to znamenalo, že výsledek zadání se rozjížděl s očekáváním nadřízeného. Pro lidi jsou takovéto korekce intuitivní – stačí jedna věta v chatu. Pro současné AI agenty to tak jednoduché není.

Internet jako labyrint bez východu

Jednou z nejobtížnějších překážek se ukázala být prostá navigace na webových stránkách. Mnoho úkolů vyžadovalo přecházení mezi weby, klikání na vyskakovací okna nebo přihlašování přes formuláře. V běžné kanceláři to zabere čas, ale málokdo s tím má vážný problém.

Agenti se ztráceli v dialogových oknech, nezvládali vyskakovací pop-upy a často „zamrzli" v mrtvém bodě, ze kterého nebyli schopni se dostat.

Co bylo horší – když se ztratili, část modelů sahala po strategii „zkratky". AI přeskočila obtížnější část instrukce, splnila jen jednodušší úsek a ohlásila úspěch. Na první pohled vše vypadalo v pořádku, ale teprve důkladná kontrola odhalila chybějící kroky, nesprávná data nebo neúplné analýzy.

Proč by tento experiment měl uklidnit zaměstnance

Už měsíce koluje obava, že kancelářská pracovní místa se stanou obětí masové automatizace. Část firem už testuje nástroje AI pro tvorbu prezentací, analýz nebo reportů. Experiment s „firmou řízenou AI" ale naznačuje, že vize plného nahrazení lidí je prozatím vzdálená.

Současné modely si skvěle poradí s jednotlivými, jasně formulovanými úkoly: přepísáním tabulky, vygenerováním krátkého shrnutí, návrhem e-mailu nebo reklamním sloganem. Jakmile je ale třeba spojit tyto dílčí kroky do jednoho delšího procesu plného výjimek a nuancí, začínají problémy.

Výzkum ukazuje, že AI funguje jako velmi schopný stážista: hodí se u jednoduchých věcí, ale samostatné vedení projektu je pro ni příliš vysoká laťka.

Pro mnoho zaměstnanců je to důležitý signál. Místo přemýšlení výhradně o riziku ztráty místa stojí za to vnímat AI jako nástroj, který může převzít nudné a opakující se části práce. Zpráva naznačuje, že lidský faktor – zejména při koordinaci procesů, komunikaci s ostatními a interpretaci nuancí – zůstane nepostradatelný ještě po dlouhou dobu.

Co z toho plyne pro zaměstnavatele i zaměstnance

AI jako spolupracovník, ne šéf

Experiment s fiktivní firmou ukazuje, že nejreálnější scénář je hybridní model. AI pomáhá připravit návrh analýzy, prohledá velký soubor dat, vyvodí první závěry. Člověk pak rozhoduje, zda tyto závěry dávají smysl, upřesňuje je a hlídá, aby byl úkol skutečně dotažen do konce.

V praxi to znamená posun části kompetencí. Ceněni budou lidé, kteří:

umí AI položit přesnou otázku,
dokážou rychle odhalit chyby nebo mezery v odpovědích,
spojují znalost nástrojů s porozuměním businessu a lidem.

Rizika, na která firmy nesmí zapomínat

Přestože výsledky experimentu uklidňují z hlediska zaměstnanosti, odhalují také vážná rizika. Přílišná důvěra v reporty generované AI může vést k rozhodnutím založeným na neúplných datech. Pokud nikdo nezkontroluje, zda agent „nepřeskočil" obtížnější část úkolu, chyby zůstanou skryté.

To zároveň vyvolává otázky ohledně odpovědnosti. Kdo nese vinu za špatné rozhodnutí: firma vytvářející model, oddělení, které nástroj nasadilo, nebo zaměstnanec, který výsledku důvěřoval? Experiment ukazuje, že organizace musí vypracovat jasné postupy pro používání AI a nesmí ji považovat za černou skříňku, kterou se nesluší zpochybňovat.

Jak se připravit na práci po boku AI

Pro lidi aktivní na trhu práce se klíčovou vlastností stává flexibilita. Na jednu stranu nemá smysl podléhat narativu, že „AI vezme všechna místa". Na druhou stranu – ignorování nových nástrojů může dopadnout stejně špatně. Rozumná strategie spočívá v tom naučit se systémy AI používat, a zároveň rozvíjet to, s čím mají algoritmy potíže.

Jde především o:

sociální dovednosti – komunikace, vyjednávání, pozorné naslouchání,
zdravý skepticismus vůči generovanému obsahu,
schopnost propojovat data s obchodním, právním a lidským kontextem,
organizaci práce a dohled nad složitými procesy.

Experiment s virtuální firmou jasně ukazuje, že samotný výpočetní výkon a brilantní odpovědi v chatu nestačí k nahrazení skutečného týmu. AI už umí mnohé, ale ztrácí se tam, kde práce vyžaduje předvídání důsledků, trpělivé doptávání a prosté „dotlačení" úkolu až do konce. A právě to budou v nejbližších letech nejsilnější trumfy lidí na trhu práce.