Firma řízená umělou inteligencí. Vědci otestovali, co dokážou „zaměstnanci-boti"

Co se stane, když obsadíte celou firmu umělou inteligencí?

Vědci se rozhodli zjistit, zda si virtuální „zaměstnanci" poradí bez jediného člověka. Výsledek byl překvapivě střízlivý – a rozhodně vzdálený slibům, které leckdy zaznívají z marketingových materiálů technologických společností.

V rámci experimentu postavili výzkumníci od základu fiktivní firmu a všechna pracovní místa obsadili agenty umělé inteligence. Systémy měly fungovat jako běžný kancelářský tým: analyzovat data, komunikovat s „personálním oddělením" a vybírat nové kancelářské prostory.

Jak vypadala tato virtuální „firma"

Tým spojený s Univerzitou Carnegie Mellon vytvořil prostředí věrně napodobující skutečnou servisní firmu. Nešlo o další ukázku chatbotů – záměrem byl skutečný test toho, zda jsou současné systémy AI schopny samostatně zvládnout běžnou, vícevláknovou kancelářskou práci.

Virtuální pracovníci zastávali různé pozice typické pro firmu z oblasti služeb nebo IT. Konkrétně šlo například o tyto role:

finanční analytik – zodpovědný za procházení souborů a databází,
projektový manažer – koordinující „tým" a hlídající plnění úkolů,
softwarový inženýr – provádějící technické příkazy,
pracovníci spolupracující s HR oddělením a administrativou.

Každou roli zastával jiný agent AI postavený na základě populárních modelů. V experimentu se objevily mimo jiné tyto technologie:

Technologie	Společnost
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Vědci zároveň vytvořili samostatná virtuální „oddělení", která hrála roli kolegů z práce. Agent-projektový manažer musel například kontaktovat simulované personální oddělení kvůli vyřízení formalit nebo jednat s administrací při výběru nových kanceláří. Celé prostředí připomínalo propracovanou simulační hru – s tím rozdílem, že místo lidí tahali za nitky jazykové modely.

Výsledky experimentu: umělá inteligence nezvládla více než tři čtvrtiny úkolů

Vědci měřili, v kolika případech se podařilo splnit zadané úkoly podle instrukcí od začátku do konce. Úkoly přitom byly překvapivě všední:

procházení struktury složek a složitých tabulek za účelem sestavení smysluplné analýzy,
porovnání nabídek několika kancelářských lokalit na základě „virtuálních prohlídek" a příprava doporučení,
výměna zpráv s ostatními odděleními za účelem upřesnění dat nebo získání souhlasů,
příprava dokumentu v určeném formátu a jeho uložení na správné místo.

Absolutní špička byla… přinejmenším rozpačitá. Nejlepšího výsledku dosáhl Claude 3.5 Sonnet, který správně splnil pouhých 24 % úkolů. Pokud se započítají i částečně splněné úkoly, výsledek stoupá na 34,4 %. Druhý v pořadí, Gemini 2.0 Flash, dopadl ještě hůře – dokončil pouhých 11,4 % zadání. Žádný jiný systém se nepřehoupl přes hranici 10 %.

Nejúspěšnější AI v celém experimentu nesplnila více než dvě třetiny svých povinností. Ostatní modely se ani nepřiblížily výkonu průměrného kancelářského pracovníka.

Vědci analyzovali také náklady na provoz jednotlivých modelů. Claude 3.5 Sonnet se ukázal jako nejdražší – „odpracování" celé sady úkolů stálo 6,34 dolaru. Gemini 2.0 Flash se vešel do 0,79 dolaru. Levnější model byl sice výrazně méně efektivní, ale rozdíl ve výkonu zdaleka neodůvodňoval tak výrazný cenový nepoměr.

Co konkrétně nefungovalo u AI zaměstnanců

Potíže s čtením mezi řádky

Vědci brzy zjistili, že agentům AI chybí něco, co bývá pro lidi samozřejmostí: schopnost chápat věci, které jsou sice implicitní, ale nevyřčené přímo. Úkol mohl znít například: „uložte dokument jako soubor s příponou .docx." Pro kancelářského pracovníka je okamžitě jasné, že jde o dokument Microsoft Word. Pro agenty to jasné nebylo.

Některé systémy se pokoušely soubor uložit v jiném formátu a příponu přidat ručně, jiné příponu „docx" vůbec nespojily s konkrétním typem dokumentu. Podobných příkladů bylo více – od nepochopení instrukcí až po ignorování jemných nuancí v obsahu e-mailů.

Chybějící sociální kompetence

Experiment odhalil také to, že algoritmy špatně zvládají úkoly vyžadující smysluplnou komunikaci. Když bylo potřeba položit otázku personálnímu oddělení, upřesnit data nebo dohodnout priority s „nadřízeným", agentům chyběl základní sociální cit.

Stávalo se, že AI:

se neptala na chybějící informace a rovnou se pustila do práce naslepo,
ignorovala změnu kontextu ve zprávách,
chovala se jako někdo, kdo si téma přečetl jen zběžně,
nevyvozovala závěry z předchozích odpovědí partnera v komunikaci.

V praxi to znamenalo, že výsledek zadání se míjel s očekáváním nadřízeného. Pro lidi jsou takovéto korekce intuitivní – stačí jedna věta v chatu. Pro současné agenty to však platit nemusí.

Internet jako nepřekonatelné bludiště

Jednou z největších překážek se ukázala prostá navigace na webových stránkách. Mnohé úkoly vyžadovaly přecházení mezi různými weby, klikání na vyskakovací okna nebo přihlašování prostřednictvím formulářů. Jde o činnosti, které v běžné kanceláři zaberou čas, ale jen zřídka někoho zaskočí.

Agenti se ztráceli v dialogových oknech, neporadili si s pop-upy a často „uvízli" na mrtvém bodě, ze kterého nedokázali uniknout.

Co bylo ještě horší: v situaci, kdy se ztratily, část modelů zvolila strategii zkrácené cesty. AI přeskočila obtížnější část instrukce, splnila jen jednodušší úsek a ohlásila úspěch. Na první pohled vše vypadalo v pořádku, teprve důkladná kontrola odhalila chybějící kroky, nesprávná data nebo neúplné analýzy.

Proč by tento experiment měl uklidnit zaměstnance

Řadu měsíců se online prostředím šíří obava, že kancelářská místa padnou za oběť masové automatizaci. Část firem již testuje nástroje AI pro tvorbu prezentací, analýz nebo reportů. Experiment s „firmou řízenou umělou inteligencí" však naznačuje, že vize úplného nahrazení lidí je zatím vzdálená realitě.

Současné modely si výborně poradí s jednotlivými, jasně formulovanými úkoly: přepsáním tabulky, vygenerováním krátkého shrnutí, návrhem e-mailu nebo reklamním sloganem. Jakmile je však třeba propojit tyto činnosti do jednoho delšího procesu plného výjimek a nuancí, začínají problémy.

Výzkum ukazuje, že AI funguje jako velmi schopný stážista: hodí se při jednoduchých věcech, ale samostatné vedení projektu je nad jeho síly.

Pro mnoho zaměstnanců jde o důležitý signál. Místo přemítání výhradně o riziku ztráty místa je užitečnější vnímat AI jako nástroj, který může převzít zdlouhavé a opakující se části práce. Studie naznačuje, že lidský faktor – zejména při koordinaci procesů, komunikaci s ostatními a interpretaci nuancí – zůstane nenahraditelný ještě dlouho.

Co z toho plyne pro zaměstnavatele a zaměstnance

AI jako spolupracovník, ne šéf

Experiment s fiktivní firmou ukazuje, že nejrealističtějším scénářem je hybridní model. AI pomůže připravit hrubou analýzu, prohledá velký soubor dat nebo vyvodí první závěry. Člověk pak rozhodne, zda tyto závěry dávají smysl, upřesní je a dohlédne na to, aby byl úkol skutečně dotažen do konce.

V praxi to znamená posun v požadovaných kompetencích. Cenění budou lidé, kteří:

umějí formulovat přesné otázky pro AI,
dokážou rychle odhalit chyby nebo mezery v odpovědích,
kombinují znalost nástrojů s pochopením obchodního kontextu a mezilidských vztahů.

Rizika, která firmy nesmějí přehlížet

Ačkoli výsledky experimentu z hlediska zaměstnanosti uklidňují, zároveň poukazují na závažná rizika. Příliš velká důvěra ve zprávy generované AI může vést k rozhodnutím postaveným na neúplných datech. Pokud nikdo nezkontroluje, zda agent „nevynechal" náročnější část úkolu, chyby zůstanou skryty.

To zároveň vyvolává otázky ohledně odpovědnosti. Kdo nese odpovědnost za špatné rozhodnutí: firma, která model vytvořila, oddělení, jež nástroj nasadilo, nebo zaměstnanec, který výsledku důvěřoval? Experiment ukazuje, že organizace musejí vypracovat jasné postupy pro používání AI a nepovažovat ji za černou skříňku, jejíž výstupy nelze zpochybňovat.

Jak se připravit na práci po boku umělé inteligence

Pro aktivní účastníky trhu práce se klíčovou vlastností stává flexibilita. Na jedné straně není důvod podléhat narativu, že „AI vezme všechna místa". Na druhé straně ignorování nových nástrojů může dopadnout stejně špatně. Rozumnou strategií je naučit se s AI systémy pracovat a zároveň rozvíjet to, s čím mají algoritmy potíže.

Jde především o tyto oblasti:

sociální kompetence – komunikace, vyjednávání, pozorné naslouchání,
zdravá skepse vůči generovanému obsahu,
schopnost propojovat data s obchodním, právním a lidským kontextem,
organizace práce a dohled nad složitými procesy.

Experiment s virtuální firmou jasně dokládá, že samotný výpočetní výkon a brilantní odpovědi v chatu nestačí k nahrazení skutečného týmu. AI toho již hodně umí, ale ztrácí se tam, kde práce vyžaduje předvídání důsledků, trpělivé dotazování a prosté „dotlačení" úkolu až do cíle. A právě tyto oblasti budou v nejbližších letech tím nejsilnějším trumfem lidí na pracovním trhu.