Firma řízená umělou inteligencí. Vědci zjistili, co dokážou „zaměstnanci–boti"

Laboratoř místo open space: jak tahle „firma" vypadala

Výzkumníci spojení s univerzitou Carnegie Mellon sestavili prostředí napodobující skutečnou servisní společnost. Nešlo o další ukázku chatbotů – cílem bylo otestovat, zda jsou současné systémy AI schopné samostatně zvládnout běžnou, mnohovláknovou kancelářskou práci.

Vědci postavili fiktivní podnik od základů a obsadili všechna pracovní místa agenty umělé inteligence. Systémy měly fungovat jako normální kancelářský tým: analyzovat data, spolupracovat s „personálním oddělením" a vybírat nové kanceláře. Výsledek byl daleko méně futuristický, než naznačují marketingové sliby tvůrců algoritmů.

Virtuální zaměstnanci zastávali různé pozice typické pro firmu ze sektoru služeb nebo IT. Mezi rolemi se objevily například:

finanční analytik – zodpovědný za procházení souborů a databází,
projektový manažer – koordinující „tým" a hlídající plnění úkolů,
softwarový inženýr – vykonávající technické příkazy,
zaměstnanci spolupracující s HR oddělením a administrativou.

Každou roli obsadil jiný agent AI postavený na základě populárních modelů. V experimentu se objevily mimo jiné tyto technologie:

Technologie	Společnost
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Vědci zároveň vytvořili oddělená virtuální „oddělení", která hrála roli kolegů z práce. Agent–projektový manažer musel například kontaktovat simulované personální oddělení kvůli vyřízení formalit nebo jednat se správou při výběru nových kanceláří. Celé to připomínalo propracovanou simulační hru – s tím rozdílem, že tahy místo lidí prováděly jazykové modely.

Výsledky experimentu: umělá inteligence nezvládla více než tři čtvrtiny úkolů

Vědci měřili, v kolika případech se podařilo splnit zadané úkoly správně od začátku do konce. Úkoly byly překvapivě všední:

procházení struktury složek a složitých tabulek za účelem sestavení smysluplné analýzy,
porovnání nabídek několika kancelářských lokalit na základě „virtuálních prohlídek" a příprava doporučení,
výměna zpráv s ostatními odděleními za účelem upřesnění dat nebo získání souhlasů,
příprava dokumentu v určeném formátu a jeho uložení na správné místo.

Nejlepší výsledky byly… málo působivé. Nejúspěšnějším agentem se stal Claude 3.5 Sonnet, který správně splnil pouhých 24 % úkolů. Pokud se k nim přičtou částečně dokončené úkoly, jeho skóre stoupá na 34,4 %. Druhý v pořadí, Gemini 2.0 Flash, si vedl ještě hůř – dokončil jen 11,4 % úkolů. Žádný jiný systém nepřekročil hranici 10 %.

Nejlépe fungující umělá inteligence v experimentu nestihla více než dvě třetiny povinností. Ostatní modely se ani nepřiblížily úrovni průměrného kancelářského pracovníka.

Vědci analyzovali také náklady na použití jednotlivých modelů. Claude 3.5 Sonnet se ukázal jako nejdražší – „odpracování" celé sady úkolů stálo 6,34 dolaru. Gemini 2.0 Flash to zvládl za 0,79 dolaru. Levnější model byl sice výrazně méně účinný, ale rozdíl ve výkonu ani zdaleka neopravňoval obrovský rozdíl v ceně.

Co konkrétně u AI zaměstnanců nefungovalo

Problém se čtením mezi řádky

Vědci rychle zjistili, že agentům AI chybí něco, co je pro lidi samozřejmostí: schopnost rozumět věcem, které jsou naznačeny, nikoli výslovně zapsány. Úkol mohl znít například: „uložte dokument se příponou .docx". Pro kancelářského pracovníka je jasné, že jde o dokument Microsoft Word. Pro agenty to zřejmé nebylo.

Některé systémy se pokoušely soubor uložit v jiném formátu a příponu doplnit ručně, jiné příponu „docx" vůbec nespojily s konkrétním typem dokumentu. Takových příkladů bylo víc – od neschopnosti číst instrukce mezi řádky až po přehlížení nuancí v textu e-mailů.

Chybějící sociální kompetence

Experiment také ukázal, že algoritmy si špatně poradí s úkoly vyžadujícími smysluplnou komunikaci. Když bylo potřeba položit otázku personálnímu oddělení, upřesnit data nebo sladit priority s „nadřízeným", agentům chyběl základní cit pro situaci.

Docházelo k tomu, že umělá inteligence:

se neptala na chybějící informace a pustila se do práce naslepo,
ignorovala změnu kontextu ve zprávách,
chovala se jako někdo, kdo si téma přečetl jen zběžně,
nevyvozovala závěry z předchozích odpovědí partnera v komunikaci.

V praxi to znamenalo, že výsledek úkolu se rozchází s očekáváními nadřízeného. Pro lidi jsou takovéto korekce intuitivní – stačí jedna věta v chatu. Pro současné agenty to zdaleka tak jednoduché není.

Internet jako labyrint bez východu

Jednou z největších překážek se ukázala být obyčejná navigace po webových stránkách. Mnoho úkolů vyžadovalo přecházení mezi weby, klikání na vyskakovací okna nebo přihlašování přes formuláře. V normální kanceláři to zabere čas, ale jen zřídkakdy někoho přemůže.

Agenti se ztráceli v dialogových oknech, nedokázali si poradit s pop-upy a často „zasekli" na mrtvém bodě, ze kterého nenašli cestu ven.

Co hůř, když se ztratili, část modelů zvolila strategii „zkratky". Umělá inteligence přeskočila náročnější část instrukce, provedla jen jednodušší fragment a nahlásila úspěch. Navenek vše vypadalo v pořádku – teprve důkladná kontrola odhalila chybějící kroky, nesprávná data nebo neúplné analýzy.

Proč by tento experiment měl zaměstnance uklidnit

Už měsíce koluje obava, že kancelářská místa se stanou obětí masové automatizace. Část firem již testuje nástroje AI pro tvorbu prezentací, analýz nebo reportů. Experiment s „firmou řízenou umělou inteligencí" naznačuje, že vize úplného nahrazení lidí je prozatím vzdálená.

Současné modely si skvěle poradí s jednotlivými, jasně formulovanými úkoly: přepsáním tabulky, vygenerováním krátkého shrnutí, návrhem e-mailu nebo reklamním heslem. Jakmile je však potřeba to vše propojit do jednoho delšího procesu plného výjimek a nuancí, začínají problémy.

Výzkum ukazuje, že umělá inteligence funguje jako velmi schopný stážista: u jednoduchých věcí se hodí, ale samostatné vedení projektu je pro ni laťka příliš vysoko.

Pro mnohé zaměstnance je to důležitý signál. Místo toho, aby přemýšleli výhradně o riziku ztráty práce, stojí za to vnímat AI jako nástroj, který může převzít zdlouhavé, opakující se části úkolů. Lidský faktor – zejména při koordinaci procesů, komunikaci s ostatními a interpretaci nuancí – zůstane nezbytný ještě dlouho.

Co z toho plyne pro zaměstnavatele a zaměstnance

AI jako spolupracovník, ne šéf

Experiment s fiktivní firmou ukazuje, že nejreálnějším scénářem je hybridní model. Umělá inteligence pomáhá připravit hrubou analýzu, prohledat velký soubor dat a vyvodit první závěry. Člověk pak rozhoduje, zda tyto závěry dávají smysl, zpřesňuje je a hlídá, aby byl úkol skutečně dotažen do konce.

V praxi to znamená posun části kompetencí. Ceněni budou lidé, kteří:

umějí AI položit přesnou otázku,
dokážou rychle odhalit chyby nebo mezery v odpovědích,
kombinují znalost nástrojů s porozuměním byznysu a lidem.

Rizika, na která firmy nesmí zapomínat

Přestože výsledky experimentu uklidňují z hlediska zaměstnanosti, odhalují také závažná nebezpečí. Přílišná důvěra v reporty generované umělou inteligencí může vést k rozhodnutím postaveným na neúplných datech. Pokud nikdo nezkontroluje, zda agent „nepřeskočil" náročnější část úkolu, chyby zůstanou skryté.

To vyvolává otázky ohledně odpovědnosti. Kdo nese vinu za špatné rozhodnutí: firma vytvářející model, oddělení, které nástroj nasadilo, nebo zaměstnanec, který výsledku důvěřoval? Experiment ukazuje, že organizace musí vypracovat jasné postupy pro používání AI a nepřistupovat k ní jako k černé skříňce, které se nesmí zpochybňovat.

Jak se připravit na práci po boku umělé inteligence

Pro lidi aktivní na trhu práce se klíčovou vlastností stává flexibilita. Na jedné straně není radno podléhat narativu, že „AI vezme všechna pracovní místa". Na druhé straně – ignorování nových nástrojů může dopadnout stejně špatně. Rozumnou strategií je naučit se pracovat se systémy AI a zároveň rozvíjet to, s čím mají algoritmy potíže.

Jde především o:

sociální kompetence – rozhovor, vyjednávání, pozorné naslouchání,
zdravý skepticismus vůči vygenerovanému obsahu,
schopnost propojovat data s obchodním, právním a lidským kontextem,
organizaci práce a dohled nad složitými procesy.

Experiment s virtuální firmou ukazuje, že samotný výpočetní výkon a bystré odpovědi v chatu nestačí k nahrazení skutečného týmu. Umělá inteligence toho již hodně umí, ale ztrácí se tam, kde práce vyžaduje předvídání důsledků, trpělivé doptávání a prostě jen „dotlačení" úkolu do cílové čáry. A právě tyto oblasti budou v nadcházejících letech nejsilnější kartou lidí na trhu práce.