Firma řízená umělou inteligencí. Vědci otestovali, co zvládnou „zaměstnanci-boti"

Laboratoř místo open space: jak taková „firma" vypadala

Výzkumníci spojení s univerzitou Carnegie Mellon sestavili prostředí napodobující skutečnou servisní firmu. Nešlo o další ukázku chatbotů — cílem bylo zjistit, zda současné systémy umělé inteligence dokážou samostatně zvládnout běžnou, mnohavrstevnatou kancelářskou práci.

Vědci postavili od základu fiktivní podnik a obsadili všechny pozice agenty AI. Tyto systémy měly fungovat jako normální kancelářský tým: analyzovat data, spolupracovat s „personálním oddělením" a vybírat nové kancelářské prostory. Výsledky dopadly výrazně méně futuristicky, než jak naznačují marketingové sliby tvůrců algoritmů.

Virtuální zaměstnanci zastávali různé pozice typické pro firmu ze sektoru služeb nebo IT. Mezi obsazenými rolemi se objevily například:

finanční analytik – odpovědný za procházení souborů a databází,
projektový manažer – koordinující „tým" a dohlížející na úkoly,
softwarový inženýr – plnící technické příkazy,
pracovníci spolupracující s HR oddělením a administrativou.

Každou roli zastával jiný agent AI postavený na populárních jazykových modelech. V experimentu se objevily mimo jiné tyto technologie:

Technologie	Společnost
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Vědci zároveň vytvořili samostatná virtuální „oddělení", která hrála roli kolegů z práce. Agent-projektový manažer musel například komunikovat se simulovaným personálním oddělením, aby vyřešil formality, nebo s administrativou při výběru nových kanceláří. Celek připomínal propracovanou simulační hru — s tím rozdílem, že místo lidí pohyby prováděly jazykové modely.

Výsledky experimentu: umělá inteligence propadla u více než tří čtvrtin úkolů

Všechna tato virtuální místa obsadila umělá inteligence a vědci měřili, v kolika případech se podařilo splnit zadané úkoly od začátku do konce přesně podle instrukcí. Úkoly byly překvapivě přízemní:

proklikávání strukturou složek a složitých tabulek za účelem sestavení smysluplné analýzy,
porovnání nabídek několika kancelářských lokalit na základě „virtuálních prohlídek" a příprava doporučení,
výměna zpráv s dalšími odděleními za účelem upřesnění dat nebo získání souhlasů,
příprava dokumentu v požadovaném formátu a jeho uložení na správné místo.

Špička žebříčku byla… málo působivá. Nejlepšího výsledku dosáhl Claude 3.5 Sonnet. Tento agent správně splnil pouhých 24 % úkolů. Pokud připočítáme částečně splněné úkoly, jeho skóre stoupá na 34,4 %. Druhý v pořadí, Gemini 2.0 Flash, si vedl ještě hůře — dokončil jen 11,4 % úkolů. Žádný jiný systém nepřekročil hranici 10 %.

Nejlépe fungující umělá inteligence v experimentu selhala u více než dvou třetin povinností. Ostatní modely se ani nepřiblížily úrovni průměrného kancelářského zaměstnance.

Vědci také analyzovali náklady na provoz jednotlivých modelů. Claude 3.5 Sonnet se ukázal jako nejdražší — „odpracování" celé sady úkolů přišlo na 6,34 dolaru. Gemini 2.0 Flash zvládl totéž za 0,79 dolaru. Levnější model byl tedy výrazně méně účinný, ale rozdíl ve výkonu rozhodně neospravedlňoval tak obrovský nepoměr v ceně.

Co konkrétně nefungovalo u AI zaměstnanců

Problém s čtením mezi řádky

Vědci záhy zjistili, že agentům AI chybí něco, co bývá pro lidi samozřejmostí: chápání věcí, které jsou jen naznačeny a nejsou explicitně zapsány. Zadání mohlo například znít: „ulož zpracování do souboru s příponou .docx". Pro kancelářského pracovníka je jasné, že jde o dokument Microsoft Word. Pro agenty už nikoli.

Některé systémy se pokoušely soubor uložit v jiném formátu a příponu doplnit ručně, jiné vůbec nespojovaly příponu „docx" s konkrétním typem dokumentu. Takových příkladů bylo víc: od neschopnosti číst instrukce mezi řádky až po přehlížení nuancí v obsahu e-mailů.

Chybějící sociální kompetence

Experiment také odhalil, že algoritmy špatně zvládají úkoly vyžadující smysluplnou komunikaci. Když bylo potřeba položit otázku personálnímu oddělení, upřesnit data nebo stanovit priority s „nadřízeným", agentům chyběl základní cit pro situaci.

Stávalo se, že umělá inteligence:

nedoptávala se na chybějící informace, ale rovnou jednala naslepo,
ignorovala změnu kontextu ve zprávách,
chovala se jako někdo, kdo si téma přečetl jen povrchně,
nevyvozovala závěry z předchozích odpovědí komunikačního partnera.

V praxi to znamenalo, že výsledek úkolu se rozcházel s očekáváním nadřízeného. Pro lidi jsou takovéto korekce intuitivní — stačí jedna věta v chatu. Pro současné agenty to zdaleka neplatí.

Internet jako labyrint bez východu

Jednou z nejobtížnějších překážek se ukázala být prostá navigace na webových stránkách. Mnoho úkolů vyžadovalo přecházení mezi weby, klikání na vyskakovací okna nebo přihlašování přes formuláře. To je v normální kanceláři časově náročné, ale málokdy někoho skutečně zastaví.

Agenti se ztráceli v dialogových oknech, nedokázali si poradit s pop-upy a často „uvízli" v mrtvém bodě, ze kterého nenašli cestu ven.

Co je horší, v situaci ztráty orientace část modelů volila strategii „zkratky". Umělá inteligence přeskočila obtížnější část instrukce, provedla jen jednodušší fragment a ohlásila úspěch. Na první pohled vše vypadalo v pořádku — teprve důkladná kontrola odhalila chybějící kroky, nesprávná data nebo neúplné analýzy.

Proč by tento experiment měl uklidnit zaměstnance

Již řadu měsíců se šíří obavy, že kancelářská místa se stanou obětí masové automatizace. Část firem již testuje nástroje AI pro tvorbu prezentací, analýz nebo reportů. Experiment s „firmou řízenou umělou inteligencí" naznačuje, že vize úplného nahrazení lidí je zatím vzdálená.

Současné modely si skvěle poradí s jednotlivými, jasně formulovanými úkoly: přepsáním tabulky, vygenerováním krátkého shrnutí, návrhem e-mailu nebo reklamním sloganem. Jakmile je však třeba spojit tyto schopnosti do jednoho delšího procesu plného výjimek a nuancí, začínají problémy.

Studie ukazuje, že AI funguje jako velmi schopný stážista: hodí se na jednoduché věci, ale samostatné vedení projektu je pro ni příliš vysoká laťka.

Pro mnoho zaměstnanců je to důležitý signál. Místo přemýšlení výhradně o riziku ztráty místa stojí za to dívat se na AI jako na nástroj, který může převzít zdlouhavé, opakující se části úkolů. Zpráva naznačuje, že lidský faktor — zejména při koordinaci procesů, kontaktu s ostatními a interpretaci nuancí — zůstane nezbytný ještě dlouho.

Co z toho vyplývá pro zaměstnavatele a zaměstnance

AI jako spolupracovník, ne šéf

Experiment s fiktivní firmou ukazuje, že nejreálnějším scénářem je hybridní model. Umělá inteligence pomáhá připravit návrh analýzy, prohledat velký soubor dat a vyvodit první závěry. Člověk pak rozhoduje, zda tyto závěry dávají smysl, upřesňuje je a hlídá, aby byl úkol skutečně dokončen.

V praxi to znamená posun části kompetencí. Ceněni budou lidé, kteří:

umí AI položit přesnou otázku,
dokážou rychle odhalit chyby nebo mezery v odpovědích,
kombinují znalost nástrojů s pochopením byznysu a lidí.

Rizika, na která firmy nesmí zapomínat

Ačkoli výsledky experimentu uklidňují z pohledu zaměstnanosti, odhalují také vážné hrozby. Příliš velká důvěra v reporty generované umělou inteligencí může vést k rozhodnutím založeným na neúplných datech. Pokud nikdo neověří, zda agent „nevynechal" obtížnější část úkolu, chyby zůstanou neviditelné.

To zároveň vyvolává otázky odpovědnosti. Kdo nese vinu za špatné rozhodnutí: firma tvořící model, oddělení, které nástroj zavedlo, nebo zaměstnanec, který výsledku důvěřoval? Experiment ukazuje, že organizace musí vypracovat jasné postupy pro používání AI a nepovažovat ji za černou skříňku, kterou není záhodno zpochybňovat.

Jak se připravit na práci po boku umělé inteligence

Pro lidi aktivní na trhu práce se klíčovou vlastností stává flexibilita. Na jedné straně není třeba podléhat narativu, že „AI vezme všechna místa". Na druhé straně — ignorování nových nástrojů může dopadnout stejně špatně. Rozumnou strategií je naučit se pracovat se systémy AI a zároveň rozvíjet to, s čím mají algoritmy potíže.

Jde především o:

sociální kompetence — komunikaci, vyjednávání, pozorné naslouchání,
zdravý skepticismus vůči generovaným obsahům,
schopnost propojit data s obchodním, právním a lidským kontextem,
organizaci práce a dohled nad složitými procesy.

Experiment s virtuální firmou dokazuje, že samotný výpočetní výkon a brilantní odpovědi v chatu nestačí k nahrazení skutečného týmu. Umělá inteligence už toho zvládá hodně, ale ztrácí se tam, kde práce vyžaduje předvídání důsledků, trpělivé doptávání se a prostě jen „dotažení" úkolu do konce. A právě tato oblast bude v nejbližších letech nejsilnější kartou lidí na trhu práce.