Firma řízená umělou inteligencí. Vědci zjistili, co dokážou „zaměstnanci-boti"

Laboratoř místo open space: jak taková „firma" vlastně vypadala

Výzkumníci se rozhodli otestovat, zda virtuální „zaměstnanci" zvládnou pracovat bez jakékoli lidské pomoci. Výsledky jsou přinejmenším překvapivé.

V rámci experimentu postavil tým spojený s univerzitou Carnegie Mellon fiktivní podnik úplně od nuly a obsadil každou pozici agenty umělé inteligence. Systémy měly fungovat jako běžný kancelářský tým – analyzovat data, komunikovat s „personálním oddělením" a vybírat nové kancelářské prostory. Výsledek byl ale mnohem méně futuristický, než jak ho líčí marketingová prohlášení tvůrců těchto algoritmů.

Nešlo o další předvádění chatbotů. Cílem bylo zjistit, zda jsou současné systémy AI schopné samostatně zvládnout normální, vícevrstvou kancelářskou práci. Virtuální pracovníci zastávali různé role typické pro firmu ze sektoru služeb nebo IT:

finanční analytik – zodpovědný za procházení souborů a databází,
projektový manažer – koordinující „tým" a hlídající plnění úkolů,
softwarový inženýr – vykonávající technické příkazy,
pracovníci spolupracující s HR a administrativou.

Každou roli zastával jiný agent AI postavený na základě populárních modelů. V experimentu se objevily mimo jiné tyto technologie:

Technologie	Společnost
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Vědci zároveň vytvořili samostatná virtuální „oddělení", která hrála roli kolegů z práce. Agent-projektový manažer musel například kontaktovat simulované personální oddělení kvůli administrativním záležitostem nebo jednat s oddělením správy při výběru nových kanceláří. Celý systém připomínal propracovanou simulační hru – jenže místo lidí táhli figurkami jazykové modely.

Výsledky experimentu: umělá inteligence propadla u více než tří čtvrtin úkolů

Vědci měřili, v kolika případech se podařilo úkoly splnit správně od začátku do konce. Zadání přitom bývala překvapivě přízemní:

proklikání se strukturou složek a složitými tabulkami za účelem sestavení smysluplné analýzy,
porovnání nabídek několika kancelářských lokalit na základě „virtuálních prohlídek" a příprava doporučení,
výměna zpráv s jinými odděleními kvůli upřesnění dat nebo získání souhlasů,
příprava dokumentu v požadovaném formátu a jeho uložení na správné místo.

Výsledky absolutní špičky byly… hodně skromné. Nejlépe si vedl Claude 3.5 Sonnet, který správně splnil pouhých 24 % úkolů. Pokud se počítají i částečně splněné úkoly, jeho skóre vzrostlo na 34,4 %. Druhý v pořadí, Gemini 2.0 Flash, dopadl ještě hůř – dokončil jen 11,4 % zadání. Žádný jiný systém nepřekonal hranici 10 %.

Nejúspěšnější AI v experimentu nesplnila více než dvě třetiny svých povinností. Zbývající modely se ani nepřiblížily výkonu průměrného kancelářského zaměstnance.

Vědci se zaměřili také na náklady spojené s jednotlivými modely. Claude 3.5 Sonnet se ukázal jako nejdražší – „odvedení" celé sady úkolů vyšlo na 6,34 dolaru. Gemini 2.0 Flash zvládl totéž za 0,79 dolaru. Levnější model byl sice výrazně méně účinný, ale rozdíl ve výkonu rozhodně neodůvodňoval tak obrovský cenový nepoměr.

Co konkrétně AI-zaměstnancům nefungovalo

Neschopnost číst mezi řádky

Vědci brzy zjistili, že agentům AI chybí něco, co lidé považují za samozřejmost: schopnost chápat věci, které nejsou výslovně napsané. Zadání mohlo například znít: „Ulož dokument ve formátu .docx." Pro každého kancelářského pracovníka je jasné, že jde o soubor Microsoft Word. Pro agenty to zdaleka tak jasné nebylo.

Některé systémy se pokoušely soubor uložit v jiném formátu a příponu přidat ručně. Jiné vůbec nespojily příponu „docx" s konkrétním typem dokumentu. Takových příkladů bylo víc – od neschopnosti číst instrukce mezi řádky až po přehlížení nuancí v obsahu e-mailů.

Chybějící sociální kompetence

Experiment odhalil, že algoritmy si špatně poradí s úkoly vyžadujícími smysluplnou komunikaci. Kdykoli bylo potřeba položit otázku personálnímu oddělení, upřesnit data nebo domluvit priority s „nadřízeným", agentům chyběl základní sociální cit.

Stávalo se, že AI:

se neptala na chybějící informace a raději se pustila do práce naslepo,
ignorovala změny kontextu ve zprávách,
chovala se jako někdo, kdo téma přelétl jen povrchně,
nevyvozovala závěry z předchozích odpovědí protějšku.

V praxi to znamenalo, že výsledek práce se míjel s očekáváními nadřízeného. Pro lidi jsou takovéto korekce intuitivní – stačí jedna věta v chatu. Pro současné agenty to intuitivní není.

Internet jako neprostupný labyrint

Jednou z největších překážek se ukázala prostá navigace na webových stránkách. Mnoho úkolů vyžadovalo přecházení mezi weby, klikání na vyskakovací okna nebo přihlašování přes formuláře. Něco, co v normální kanceláři zabere čas, ale jen zřídka někoho přemůže.

Agenti ztráceli orientaci v dialogových oknech, nedokázali si poradit s pop-upy a často se „zasekli" na mrtvém bodě, ze kterého nenašli cestu ven.

A co bylo ještě horší – když se ztratili, část modelů se uchýlila ke strategii „zkratkou". AI přeskočila obtížnější část instrukce, dokončila jen ten jednodušší úsek a nahlásila úspěch. Na povrchu vše vypadalo v pořádku, teprve důkladná kontrola odhalila chybějící kroky, nesprávná data nebo neúplné analýzy.

Proč by tento experiment měl zaměstnance uklidnit

Už měsíce koluje obavou, že kancelářská místa se stanou obětí masové automatizace. Některé firmy už testují nástroje AI pro tvorbu prezentací, analýz nebo reportů. Experiment s „firmou řízenou umělou inteligencí" však naznačuje, že vize úplného nahrazení lidí je zatím vzdálená.

Současné modely si skvěle poradí s jednotlivými, jasně formulovanými úkoly – přepsat tabulku, vygenerovat krátké shrnutí, navrhnout e-mail nebo vymyslet reklamní slogan. Jakmile je ale potřeba tohle vše propojit do jednoho delšího procesu plného výjimek a nuancí, začínají problémy.

Výzkum ukazuje, že AI funguje jako velmi schopný stážista: hodí se na jednoduché věci, ale samostatné vedení projektu je příliš vysoká laťka.

Pro mnoho zaměstnanců je to důležitý signál. Místo přemýšlení výhradně o riziku ztráty místa stojí za to dívat se na AI jako na nástroj, který může převzít zdlouhavé a opakující se části práce. Výzkum naznačuje, že lidský faktor – zejména koordinace procesů, kontakt s ostatními a interpretace nuancí – zůstane nepostradatelný ještě dlouho.

Co z toho plyne pro zaměstnavatele i zaměstnance

AI jako spolupracovník, ne šéf

Experiment s fiktivní firmou ukazuje, že nejreálnější scénář je hybridní model. AI pomůže připravit návrh analýzy, prohledat velký soubor dat nebo vyvodit první závěry. Člověk pak rozhodne, zda tyto závěry dávají smysl, upřesní je a dohlédne na to, aby byl úkol opravdu dokončen.

V praxi to znamená posun části kompetencí. Ceněni budou lidé, kteří:

umějí AI položit přesnou otázku,
dokážou rychle odhalit chyby nebo mezery v odpovědích,
kombinují znalost nástrojů s porozuměním businessu a lidem.

Rizika, na která firmy nesmějí zapomínat

Přestože výsledky experimentu jsou z pohledu zaměstnanosti uklidňující, odhalují také vážná nebezpečí. Příliš velká důvěra v reporty generované AI může vést k rozhodnutím založeným na neúplných datech. Pokud nikdo nezkontroluje, zda agent „nepřeskočil" obtížnější část úkolu, chyby zůstanou skryté.

To zase vyvolává otázky ohledně odpovědnosti. Kdo nese vinu za špatné rozhodnutí – firma, která model vytvořila, oddělení, jež nástroj zavedlo, nebo zaměstnanec, který výsledku důvěřoval? Experiment jasně ukazuje, že organizace musejí nastavit srozumitelné postupy pro používání AI a nenazírat na ni jako na černou skříňku, kterou není vhodné zpochybňovat.

Jak se připravit na práci po boku umělé inteligence

Pro lidi aktivní na trhu práce je klíčová flexibilita. Na jedné straně se nevyplatí podléhat narativu, že „AI vezme všechna místa". Na druhé straně – ignorování nových nástrojů může dopadnout stejně špatně. Rozumná strategie spočívá v tom naučit se systémy AI využívat, a zároveň rozvíjet to, s čím mají algoritmy potíže.

Jde především o:

sociální kompetence – komunikace, vyjednávání, pozorné naslouchání,
zdravý skepticismus vůči vygenerovaným výstupům,
schopnost propojovat data s obchodním, právním a lidským kontextem,
organizaci práce a dohled nad složitými procesy.

Experiment s virtuální firmou ukazuje, že výpočetní výkon a brilantní odpovědi v chatu nestačí k tomu, aby nahradily skutečný tým. AI toho už umí hodně, ale ztrácí se tam, kde práce vyžaduje předvídání důsledků, trpělivé doptávání a prosté „dotažení" úkolu do konce. A právě tyto oblasti budou v nadcházejících letech tou nejsilnější kartou lidí na trhu práce.