Firma řízená umělou inteligencí. Vědci otestovali, co zvládnou „zaměstnanci-boti"

Co se stane, když obsadíte celou firmu umělou inteligencí?

Vědci se rozhodli zjistit, jestli virtuální „zaměstnanci" dokážou fungovat bez jediného člověka. Výsledek byl mnohem střízlivější, než slibují marketingové prezentace tvůrců AI systémů.

V rámci experimentu sestavili výzkumníci fiktivní firmu od základů a každé místo obsadili agentem umělé inteligence. Systémy měly zvládat běžnou kancelářskou agendu – analyzovat data, komunikovat s „personálním oddělením" nebo vybírat nové kanceláře.

Jak vlastně tato virtuální firma vypadala?

Tým spojený s univerzitou Carnegie Mellon připravil prostředí napodobující skutečnou firmu z oblasti služeb. Nešlo o pouhou ukázku chatbotů – záměrem bylo prověřit, zda jsou současné AI systémy schopné samostatně zvládnout vícevrstvou kancelářskou práci.

Virtuální zaměstnanci zastávali různé pozice typické pro servisní nebo IT firmy. Konkrétně šlo například o:

finančního analytika – zodpovědného za procházení souborů a databází,
projektového manažera – koordinujícího „tým" a hlídajícího úkoly,
softwarového inženýra – plnícího technické příkazy,
pracovníky spolupracující s HR oddělením a administrativou.

Každou roli zastával jiný AI agent postavený na bázi populárních modelů. V experimentu se objevily mimo jiné tyto technologie:

Technologie	Společnost
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Výzkumníci zároveň vytvořili samostatná virtuální „oddělení", která hrála roli kolegů z práce. Agent v roli projektového manažera musel například kontaktovat simulované HR kvůli administrativním formalitám nebo jednat s provozním oddělením při výběru nových prostor. Celek připomínal propracovanou simulační hru – jenže místo lidí tahali za nitky jazykové modely.

Výsledky experimentu: umělá inteligence nezvládla více než tři čtvrtiny zadání

Vědci měřili, v kolika případech se podařilo splnit úkol podle zadání od začátku do konce. Přitom šlo o překvapivě přízemní záležitosti:

procházení struktury složek a složitých tabulek za účelem sestavení smysluplné analýzy,
porovnání nabídek několika kancelářských prostor na základě „virtuálních prohlídek" a příprava doporučení,
výměna zpráv s ostatními odděleními za účelem upřesnění dat nebo získání souhlasů,
příprava dokumentu v požadovaném formátu a jeho uložení na správné místo.

Nejlepší výsledky byly… přinejlepším vlažné. Nejvýše se umístil Claude 3.5 Sonnet, který správně dokončil pouhých 24 % úkolů. Pokud se započítají i částečně splněná zadání, jeho skóre stoupne na 34,4 %. Na druhém místě skončil Gemini 2.0 Flash s ještě horším výsledkem – zvládl jen 11,4 % úkolů. Žádný jiný systém nepřekročil hranici 10 %.

Nejúspěšnější AI v celém experimentu nezvládla více než dvě třetiny svých povinností. Ostatní modely se ani nepřiblížily výkonnosti průměrného kancelářského zaměstnance.

Vědci analyzovali také náklady na jednotlivé modely. Claude 3.5 Sonnet se ukázal jako nejdražší – zpracování celé sady úkolů vyšlo na 6,34 dolaru. Gemini 2.0 Flash zvládl totéž za 0,79 dolaru. Levnější model byl sice výrazně méně úspěšný, ale cenový rozdíl rozhodně neodpovídal rozdílu ve výkonnosti.

Co konkrétně AI zaměstnancům nefungovalo

Neschopnost číst mezi řádky

Výzkumníci záhy zjistili, že agentům chybí něco, co lidé považují za samozřejmost: porozumění nevyřčenému a implicitnímu. Zadání mohlo znít třeba: „ulož dokument ve formátu .docx." Pro kancelářského pracovníka je jasné, že jde o soubor Microsoft Word. Pro AI agenty zdaleka ne.

Některé systémy se pokusily uložit soubor v jiném formátu a příponu doplnit ručně, jiné příponu „docx" s konkrétním typem dokumentu vůbec nespojovaly. Podobných příkladů bylo víc – od nesprávné interpretace instrukcí až po přehlížení jemných nuancí v textu zpráv.

Absence sociálních dovedností

Experiment odhalil i to, že algoritmy si špatně poradí s úkoly vyžadujícími smysluplnou komunikaci. Když bylo třeba položit otázku HR oddělení, upřesnit data nebo domluvit priority s „nadřízeným", agentům chyběl základní sociální cit.

Stávalo se, že umělá inteligence:

se neptala na chybějící informace a rovnou se pustila do práce naslepo,
ignorovala změnu kontextu ve zprávách,
chovala se jako někdo, kdo téma jen zběžně přelétl,
nevyvozovala závěry z předchozích odpovědí komunikačního partnera.

V praxi to znamenalo, že výsledek zadání se míjel s očekáváním. Pro lidi jsou takové korekce intuitivní – stačí jedna věta na chatu. Pro současné AI agenty to tak jednoduché není.

Internet jako nepřekonatelné bludiště

Jednou z největších překážek se ukázala prostá navigace po webových stránkách. Mnoho úkolů vyžadovalo přecházení mezi weby, klikání na vyskakovací okna nebo přihlašování přes formuláře. Jde o věci, které v běžné kanceláři chvíli trvají, ale nikoho nepřekonají.

Agenti se ztráceli v dialogových oknech, nedokázali se vypořádat s pop-upy a často „zasekli" na mrtvém bodě, ze kterého nebylo úniku.

Co horšího, část modelů v situaci, kdy nevěděly kudy kam, zvolila zkratkovou strategii. Přeskočily složitější část instrukce, dokončily jen jednodušší úsek a nahlásily úspěch. Navenek vše vypadalo v pořádku – teprve důkladná kontrola odhalila chybějící kroky, nesprávná data nebo neúplné analýzy.

Proč by tento experiment měl zaměstnance uklidnit

Dlouhé měsíce se šíří obava, že kancelářská místa padnou za oběť masové automatizaci. Část firem už testuje nástroje AI pro tvorbu prezentací, analýz nebo reportů. Experiment s „firmou řízenou umělou inteligencí" ale naznačuje, že vize úplného nahrazení lidí je prozatím vzdálená.

Současné modely si výborně poradí s jednotlivými, jasně formulovanými úkoly: přepsáním tabulky, vygenerováním krátkého shrnutí, návrhem e-mailu nebo nápadem na reklamní slogan. Jakmile je však třeba spojit vše do jednoho delšího procesu plného výjimek a nuancí, začínají problémy.

Výzkum ukazuje, že AI funguje jako velmi schopný stážista: hodí se na jednoduché věci, ale samostatné vedení projektu je na ni příliš vysoká laťka.

Pro mnoho zaměstnanců je to důležitý signál. Místo soustředění výhradně na riziko ztráty práce stojí za to nahlížet na AI jako na nástroj, který převezme únavné a opakující se části práce. Výzkum naznačuje, že lidský faktor – zejména v koordinaci procesů, kontaktu s lidmi a interpretaci nuancí – zůstane nepostradatelný ještě hodně dlouho.

Co z toho plyne pro zaměstnavatele a zaměstnance

AI jako spolupracovník, ne šéf

Experiment s fiktivní firmou ukazuje, že nejreálnější scénář je hybridní model. AI pomůže připravit hrubý návrh analýzy, prohledat rozsáhlý soubor dat a vyvodit první závěry. Člověk pak rozhoduje, zda tyto závěry dávají smysl, upřesní je a dohlédne na skutečné dokončení úkolu.

V praxi to znamená přesun části kompetencí. Ceněni budou lidé, kteří:

dokážou AI položit přesnou a dobře cílenou otázku,
rychle odhalí chyby nebo mezery v odpovědích,
kombinují znalost nástrojů s pochopením byznysu a lidských vztahů.

Rizika, na která firmy nesmí zapomínat

Ačkoli výsledky experimentu z hlediska zaměstnanosti uklidňují, odhalují zároveň závažná rizika. Přílišná důvěra v reporty generované AI může vést k rozhodnutím postaveným na neúplných datech. Pokud nikdo nezkontroluje, zda agent „nevynechal" složitější část úkolu, chyby zůstanou skryté.

To zároveň otvírá otázku odpovědnosti. Kdo nese vinu za špatné rozhodnutí – společnost vytvářející model, oddělení, které nástroj nasadilo, nebo zaměstnanec, který výsledku slepě důvěřoval? Experiment jasně ukazuje, že organizace musí vypracovat jasné postupy pro používání AI a nepovažovat ji za černou skříňku, které se nesluší zpochybňovat.

Jak se připravit na práci po boku umělé inteligence

Pro lidi aktivní na trhu práce se klíčovou vlastností stává flexibilita. Na jednu stranu není rozumné podléhat narativu, že „AI vezme všechna pracovní místa." Na stranu druhou – ignorovat nové nástroje může dopadnout stejně špatně. Rozumná strategie spočívá v tom naučit se AI systémy používat a zároveň rozvíjet to, s čím mají algoritmy potíže.

Jde především o:

sociální dovednosti – komunikaci, vyjednávání a pozorné naslouchání,
zdravou skepsi vůči automaticky generovanému obsahu,
schopnost propojovat data s obchodním, právním a lidským kontextem,
organizaci práce a dohled nad složitými procesy.

Experiment s virtuální firmou jasně dokazuje, že samotný výpočetní výkon a bystré odpovědi v chatu nestačí k nahrazení skutečného týmu. AI toho umí hodně, ale ztrácí se tam, kde práce vyžaduje předvídání důsledků, trpělivé doptávání a prostě jen dotažení věci do konce. A právě to bude v nadcházejících letech nejsilnější kartou lidí na trhu práce.