Firma řízená umělou inteligencí. Vědci otestovali, co zvládnou „zaměstnanci-boti"

Laboratoř místo open space: jak taková „firma" vlastně fungovala

Vědci se rozhodli prověřit, jestli virtuální „zaměstnanci" dokážou zvládnout běžnou práci bez jediného člověka. Výsledky jsou přinejmenším střízlivé.

Tým spjatý s univerzitou Carnegie Mellon sestavil prostředí, které věrně napodobovalo reálnou servisní firmu. Nešlo o další ukázku chatbotů – cílem bylo zjistit, zda současné systémy umělé inteligence dokážou samostatně zvládnout normální, vícevrstvou kancelářskou práci.

Virtuální pracovníci obsadili různé pozice typické pro firmy ze sektoru služeb nebo IT. Mezi zastávanými rolemi se objevily například:

finanční analytik – zodpovědný za procházení souborů a databází,
projektový manažer – koordinující „tým" a dohlížející na plnění úkolů,
softwarový inženýr – plnící technické příkazy,
pracovníci spolupracující s oddělením HR a administrativou.

Každou roli zastával jiný agent umělé inteligence postavený na základě populárních modelů. V experimentu se objevily mimo jiné tyto technologie:

Technologie	Společnost
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Výzkumníci zároveň vytvořili samostatná virtuální „oddělení", která hrála roli kolegů z práce. Agent-projektový manažer musel například komunikovat se simulovaným personálním oddělením kvůli formalitám nebo s administrativou při výběru nových kanceláří. Celá sestava připomínala propracovanou simulační hru – jenže místo lidí tahali za nitky jazykové modely.

Výsledky experimentu: umělá inteligence nezvládla více než tři čtvrtiny úkolů

Vědci sledovali, v kolika případech byly úkoly splněny přesně podle zadání od začátku do konce. Samotné úkoly přitom nebyly nijak exotické:

procházení struktury složek a složitých tabulek za účelem sestavení smysluplné analýzy,
porovnání nabídek několika kancelářských lokalit na základě „virtuálních prohlídek" a příprava doporučení,
výměna zpráv s ostatními odděleními za účelem upřesnění dat nebo získání souhlasů,
příprava dokumentu v určeném formátu a jeho uložení na správné místo.

Špička žebříčku působila přinejmenším skromně. Nejlepšího výsledku dosáhl Claude 3.5 Sonnet, který správně splnil pouhých 24 % úkolů. Pokud se započítají i částečně dokončené úkoly, jeho skóre stoupá na 34,4 %. Druhý v pořadí, Gemini 2.0 Flash, si vedl ještě hůř – úspěšně dokončil jen 11,4 % zadání. Žádný jiný systém nepřekročil hranici 10 %.

Nejúspěšnější model v experimentu selhal u více než dvou třetin přidělených povinností. Ostatní systémy se ani zdaleka nepřiblížily výkonnosti průměrného kancelářského pracovníka.

Vědci analyzovali také náklady na jednotlivé modely. Claude 3.5 Sonnet se ukázal jako nejdražší – „odvedení" celé sady úkolů vyšlo na 6,34 dolaru. Gemini 2.0 Flash vystačil s 0,79 dolaru. Levnější model byl sice výrazně méně účinný, ale rozdíl ve výkonnosti rozhodně neospravedlňoval tak obrovský cenový nepoměr.

Co konkrétně virtuálním zaměstnancům nefungovalo

Potíže s čtením mezi řádky

Vědci brzy zjistili, že agentům umělé inteligence chybí něco, co je pro lidi samozřejmostí: schopnost chápat věci naznačené nepřímo nebo nevyřčené zcela explicitně. Úkol mohl znít třeba takto: „uložte dokument jako soubor s příponou .docx". Pro kancelářského pracovníka je zřejmé, že jde o dokument Microsoft Word. Pro agenty to zřejmé nebylo.

Některé systémy se pokoušely uložit soubor v jiném formátu a příponu doplnit ručně, jiné vůbec nespojovaly příponu „docx" s konkrétním typem dokumentu. Podobných příkladů bylo více – od neschopnosti číst instrukce s porozuměním až po ignorování jemných nuancí v textu e-mailů.

Absence sociálních kompetencí

Experiment také odhalil, že algoritmy špatně zvládají úkoly vyžadující smysluplnou komunikaci. Když bylo potřeba položit otázku personálnímu oddělení, upřesnit data nebo dohodnout priority s „nadřízeným", agentům chybělo základní sociální cítění.

Stávalo se, že umělá inteligence:

neptala se na chybějící informace a pouštěla se do práce naslepo,
ignorovala změnu kontextu ve zprávách,
chovala se jako někdo, kdo zadání přečetl jen zběžně,
nevyvozovala závěry z předchozích odpovědí protějšku.

V praxi to znamenalo, že výsledek zadání neodpovídal očekáváním nadřízeného. Pro lidi jsou takovéto korekce intuitivní – stačí jedna věta v chatu. Pro současné agenty to tak snadné není.

Internet jako nepřekonatelné bludiště

Jednou z největších překážek se ukázala obyčejná navigace na webových stránkách. Mnohé úkoly vyžadovaly přecházení mezi weby, klikání na vyskakovací okna nebo přihlašování prostřednictvím formulářů. V běžné kanceláři to sice chvíli zabere, ale málokdo s tím má problém.

Agenti se ztráceli v dialogových oknech, nedokázali si poradit s pop-upy a často „uvízli" v mrtvém bodě, ze kterého nenašli cestu ven.

Co je horší, v situaci, kdy nevěděli kudy dál, část modelů volila strategii zkratky. Umělá inteligence přeskočila obtížnější část instrukce, splnila jen tu jednodušší a ohlásila úspěch. Zdánlivě vše sedělo – teprve důkladná kontrola odhalila chybějící kroky, nesprávná data nebo neúplné analýzy.

Proč by tento experiment měl zaměstnance uklidnit

Obavy z masové automatizace kancelářských míst kolují online už měsíce. Část firem již testuje nástroje umělé inteligence pro tvorbu prezentací, analýz nebo reportů. Experiment s „firmou řízenou umělou inteligencí" však naznačuje, že vize úplného nahrazení lidí je zatím vzdálená.

Současné modely si výborně poradí s jednotlivými, jasně formulovanými úkoly: přepsáním tabulky, vygenerováním krátkého shrnutí, návrhem e-mailu nebo reklamním sloganem. Jakmile je ale třeba propojit tyto dílčí kroky do jednoho delšího procesu plného výjimek a nuancí, začínají komplikace.

Výzkum ukazuje, že umělá inteligence funguje jako velmi schopný stážista: u jednoduchých věcí se hodí, ale samostatné vedení projektu je pro ni příliš vysoká laťka.

Pro mnoho zaměstnanců je to důležitý signál. Místo toho, aby přemýšleli výhradně o riziku ztráty místa, vyplatí se dívat na umělou inteligenci jako na nástroj, který může převzít zdlouhavé a opakující se části práce. Lidský faktor – zejména v koordinaci procesů, komunikaci s ostatními a interpretaci nuancí – zůstane nepostradatelný ještě hodně dlouho.

Co z toho plyne pro zaměstnavatele i zaměstnance

Umělá inteligence jako spolupracovník, ne šéf

Experiment s fiktivní firmou naznačuje, že nejreálnějším scénářem je hybridní model. Umělá inteligence pomůže připravit hrubou analýzu, prohledat velký soubor dat nebo vyvodit první závěry. Člověk pak posoudí, zda tyto závěry dávají smysl, upřesní je a dohlédne na skutečné dokončení úkolu.

V praxi to znamená posun určitých kompetencí. Ceněni budou lidé, kteří:

umí umělé inteligenci položit přesnou otázku,
dokážou rychle odhalit chyby nebo mezery v odpovědích,
kombinují znalost nástrojů s porozuměním byznysu a lidem.

Rizika, na která firmy nesmí zapomínat

Přestože výsledky experimentu jsou z hlediska zaměstnanosti uklidňující, odhalují také závažná nebezpečí. Přílišná důvěra v reporty generované umělou inteligencí může vést k rozhodnutím postavenám na neúplných datech. Pokud nikdo nezkontroluje, zda agent „nepřeskočil" obtížnější část úkolu, chyby zůstanou skryté.

To zároveň vyvolává otázky ohledně odpovědnosti. Kdo nese vinu za špatné rozhodnutí: firma vyvíjející model, oddělení, které nástroj zavedlo, nebo zaměstnanec, který výsledku důvěřoval? Experiment jasně ukazuje, že organizace musí vypracovat srozumitelné postupy pro používání umělé inteligence a nepovažovat ji za černou skříňku, kterou by bylo nevhodné zpochybňovat.

Jak se připravit na práci vedle umělé inteligence

Pro lidi aktivní na trhu práce se klíčovou vlastností stává flexibilita. Na jedné straně nemá smysl podléhat narativu, že „umělá inteligence vezme všechna místa". Na druhé straně ignorování nových nástrojů může dopadnout stejně špatně. Rozumnou strategií je naučit se systémy umělé inteligence používat, a zároveň rozvíjet právě to, s čím mají algoritmy potíže.

Jde především o:

sociální kompetence – rozhovor, vyjednávání, pozorné naslouchání,
zdravou skepsi vůči generovaným výstupům,
schopnost propojovat data s obchodním, právním a lidským kontextem,
organizaci práce a dohled nad komplexními procesy.

Experiment s virtuální firmou ukazuje, že samotný výpočetní výkon a brilantní odpovědi v chatu nestačí k nahrazení skutečného týmu. Umělá inteligence toho už hodně umí, ale ztrácí se tam, kde práce vyžaduje předvídání důsledků, trpělivé doptávání a prosté „dotažení" úkolu do konce. A právě to budou v nejbližších letech nejsilnější karty lidí na trhu práce.