Firma řízená umělou inteligencí: vědci testovali, co zvládnou „zaměstnanci–boti"

Laboratoř místo open space: jak tato „firma" fungovala

Vědci sestavili od základu fiktivní podnik a obsadili každou pracovní pozici agenty umělé inteligence. Systémy měly fungovat jako běžný kancelářský tým – analyzovat data, spolupracovat s „personálním oddělením" a vybírat nové kanceláře. Výsledek byl mnohem méně futuristický, než naznačují marketingové sliby tvůrců algoritmů.

Tým spojený s univerzitou Carnegie Mellon vytvořil prostředí připomínající skutečnou servisní firmu. Nešlo o další demonstraci chatbotů, ale o skutečný test toho, zda jsou současné systémy AI schopné samostatně zvládnout normální, mnohavláknovou kancelářskou práci.

Virtuální zaměstnanci zastávali různé pozice typické pro firmu ze sektoru služeb nebo IT. Mezi rolemi se objevily například:

finanční analytik – zodpovědný za procházení souborů a databází,
projektový manažer – koordinující „tým" a hlídající úkoly,
softwarový inženýr – plnící technické příkazy,
pracovníci spolupracující s HR oddělením a administrací.

Každou roli zastával jiný agent AI postavený na bázi populárních modelů. V experimentu se objevily mimo jiné tyto technologie:

Technologie	Společnost
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Výzkumníci zároveň vytvořili samostatná virtuální „oddělení", která hrála roli kolegů z práce. Agent-projektový manažer musel například kontaktovat simulované personální oddělení kvůli formalitám nebo jednat s administrativou při výběru nových prostor. Celek připomínal propracovanou simulační hru, s tím rozdílem, že místo lidí tahy prováděly jazykové modely.

Výsledky experimentu: AI nezvládla více než tři čtvrtiny úkolů

Všechny tyto virtuální pracovní pozice obsadila umělá inteligence a vědci měřili, ve kolika případech se podařilo úkoly splnit podle instrukce od začátku do konce. Zadání bývala překvapivě přízemní:

proklikávání strukturou složek a složitých tabulek za účelem sestavení smysluplné analýzy,
porovnávání nabídek několika kancelářských lokalit na základě „virtuálních prohlídek" a příprava doporučení,
výměna zpráv s ostatními odděleními za účelem upřesnění dat nebo získání souhlasů,
příprava dokumentu v určeném formátu a jeho uložení na správné místo.

Výsledky absolutní špičky byly… krajně nepůsobivé. Nejlepšího skóre dosáhl Claude 3.5 Sonnet. Tento agent splnil správně pouhých 24 % úkolů. Pokud se započítají i částečně splněné úkoly, jeho výsledek stoupá na 34,4 %. Druhý v pořadí Gemini 2.0 Flash si vedl ještě hůře – dokončil jen 11,4 % úkolů. Žádný jiný systém nepřekonal hranici 10 %.

Nejlépe fungující AI v experimentu nesplnila více než dvě třetiny povinností. Ostatní modely se ani nepřiblížily úrovni průměrného kancelářského pracovníka.

Vědci analyzovali také náklady na použití jednotlivých modelů. Claude 3.5 Sonnet se ukázal jako nejdražší – „odpracování" celé sady úkolů stálo 6,34 dolaru. Gemini 2.0 Flash to zvládl za 0,79 dolaru. Levnější model byl tedy výrazně méně účinný, ale rozdíl ve výkonu rozhodně neodůvodňoval obrovský cenový nepoměr.

Co konkrétně nefungovalo u AI zaměstnanců

Problém s čtením mezi řádky

Vědci rychle zjistili, že agentům AI chybí něco, co je pro lidi samozřejmostí: porozumění věcem implicitním a nepřímo zapsaným. Úkol mohl znít například: „ulož zpracování do souboru s příponou .docx". Pro kancelářského pracovníka je jasné, že jde o dokument Microsoft Word. Pro agenty už nikoliv.

Některé systémy se pokoušely soubor uložit v jiném formátu a příponu přidat ručně, jiné vůbec nepropojovaly „docx" s konkrétním typem dokumentu. Podobných příkladů bylo více: od neschopnosti číst instrukce mezi řádky až po ignorování nuancí v obsahu e-mailů.

Absence sociálních kompetencí

Experiment ukázal také to, že algoritmy si špatně poradí s úkoly vyžadujícími smysluplnou komunikaci. Když bylo potřeba položit otázku personálnímu oddělení, upřesnit data nebo stanovit priority s „nadřízeným", agentům chyběl základní sociální cit.

Stávalo se, že AI:

se nedoptávala na chybějící informace, ale rovnou jednala naslepo,
ignorovala změnu kontextu ve zprávách,
chovala se jako někdo, kdo si téma přečetl jen povrchně,
nevyvozovala závěry z předchozích odpovědí komunikačního partnera.

V praxi to znamenalo, že výsledek úkolu se rozcházel s očekáváními nadřízeného. Pro lidi jsou taková upřesnění intuitivní: stačí jedna věta v chatu. Pro současné agenty to tak snadné není.

Internet jako labyrint bez východiska

Jednou z nejobtížnějších překážek se ukázala běžná navigace na webových stránkách. Mnoho úkolů vyžadovalo přechody mezi weby, klikání na vyskakovací okna nebo přihlašování přes formuláře. To je něco, co v normální kanceláři zabere čas, ale jen zřídka někoho přemůže.

Agenti se ztráceli v dialogových oknech, nezvládali pop-upy a často se „zasekli" v mrtvém bodě, ze kterého nedokázali uniknout.

Co hůře, v situaci ztráty orientace část modelů přijala strategii „zkratky". AI přeskočila těžší část instrukce, provedla jen jednodušší úsek a hlásila úspěch. Navenek vše vypadalo v pořádku, teprve podrobná kontrola odhalila chybějící kroky, nesprávná data nebo neúplné analýzy.

Proč by tento experiment měl zaměstnance uklidnit

Už měsíce koluje v online prostoru obava, že kancelářská místa se stanou obětí masové automatizace. Část firem již testuje nástroje AI pro tvorbu prezentací, analýz nebo reportů. Experiment s „firmou řízenou umělou inteligencí" naznačuje, že vize úplného nahrazení lidí je zatím vzdálená.

Současné modely si skvěle poradí s jednotlivými, jasně formulovanými úkoly: přepsáním tabulky, vygenerováním krátkého shrnutí, návrhem e-mailu nebo nápadu na reklamní slogan. Jakmile je potřeba spojit vše do jednoho delšího procesu plného výjimek a nuancí, začínají problémy.

Výzkum ukazuje, že AI funguje jako velmi schopný stážista: hodí se na jednoduché věci, ale samostatné vedení projektu je příliš vysoká laťka.

Pro mnoho zaměstnanců je to důležitý signál. Místo přemýšlení výhradně o riziku ztráty práce se vyplatí nahlížet na AI jako na nástroj, který může převzít zdlouhavé, opakující se části úkolů. Zpráva naznačuje, že lidský faktor – zejména při koordinaci procesů, kontaktu s ostatními a interpretaci nuancí – zůstane nezbytný ještě dlouho.

Co z toho plyne pro zaměstnavatele i zaměstnance

AI jako spolupracovník, ne šéf

Experiment s fiktivní firmou ukazuje, že nejreálnějším scénářem je hybridní model. AI pomáhá připravit návrh analýzy, prohledat velký soubor dat, vyvodit první závěry. Člověk rozhoduje, zda tyto závěry dávají smysl, upřesňuje je a hlídá, aby byl úkol skutečně dotažen do konce.

V praxi to znamená posun části kompetencí. Ceněny budou osoby, které:

umí AI položit přesnou otázku,
dokážou rychle odhalit chyby nebo mezery v odpovědích,
spojují znalost nástrojů s porozuměním byznysu i lidem.

Rizika, na která firmy nesmí zapomínat

Ačkoliv výsledky experimentu uklidňují z hlediska zaměstnanosti, poukazují také na závažná nebezpečí. Přílišná důvěra v reporty generované AI může vést k rozhodnutím založeným na neúplných datech. Pokud nikdo neověří, zda agent „nevynechal" těžší část úkolu, chyby zůstanou neviditelné.

To zároveň vyvolává otázky odpovědnosti. Kdo nese zodpovědnost za špatné rozhodnutí: firma vytvářející model, oddělení, které nástroj nasadilo, nebo zaměstnanec, který výsledku důvěřoval? Experiment ukazuje, že organizace musí vypracovat jasné postupy pro používání AI a nesmí ji považovat za černou skříňku, kterou není vhodné zpochybňovat.

Jak se připravit na práci vedle AI

Pro lidi aktivní na trhu práce se klíčovou stává flexibilita. Na jedné straně není třeba podléhat narativu, že „AI vezme všechna pracovní místa". Na druhé straně – ignorování nových nástrojů může skončit stejně špatně. Rozumná strategie spočívá v tom, naučit se systémy AI využívat, ale zároveň rozvíjet to, s čím mají algoritmy potíže.

Jde především o:

sociální kompetence – rozhovor, vyjednávání, pozorné naslouchání,
zdravou skepsi vůči generovanému obsahu,
schopnost propojovat data s obchodním, právním a lidským kontextem,
organizaci práce a dohled nad složitými procesy.

Experiment s virtuální firmou ukazuje, že samotný výpočetní výkon a brilantní odpovědi v chatu nestačí k tomu, aby nahradily skutečný tým. AI toho už zvládá mnoho, ale ztrácí se tam, kde práce vyžaduje předvídání důsledků, trpělivé doptávání a prosté „dotlačení" úkolu až do konce. A právě tyto oblasti budou v nadcházejících letech nejsilnější kartou lidí na trhu práce.