Firma řízená umělou inteligencí. Vědci otestovali, co dokážou virtuální zaměstnanci

Výzkumníci vytvořili fiktivní společnost a na všechny pozice dosadili agenty AI. Systémy měly analyzovat data, spolupracovat s personálním oddělením a vybírat novou kancelář přesně jako běžný tým.

Experiment ukázal mnohem méně futuristické výsledky, než slibují marketingové prezentace tvůrců algoritmů. Vědci chtěli zjistit, jestli současné systémy umělé inteligence zvládnou samostatně řídit běžnou kancelářskou práci s více vlákny. Odpověď zní jasně: zatím ne.

Tým spojený s Carnegie Mellon University připravil prostředí připomínající skutečnou servisní firmu. Nešlo o další ukázku chatbotů, ale o důkladný test schopností AI v reálných podmínkách. Virtuální zaměstnanci obsazovali typické pozice pro firmy z oblasti služeb nebo IT. Každou roli plnil jiný agent AI postavený na populárních modelech.

Jak vypadala virtuální kancelář místo skutečného open space

Vědci vytvořili oddělené virtuální týmy, které měly fungovat jako kolegové z práce. Agent v roli projektového manažera musel například kontaktovat simulované personální oddělení kvůli formalitám nebo administrativní tým při výběru nových kanceláří. Celé prostředí připomínalo komplexní simulační hru, s tím rozdílem, že místo lidí prováděly kroky jazykové modely.

Mezi rolemi se objevily pozice jako finanční analytik odpovědný za kontrolu souborů a databází, projektový manažer koordinující tým a hlídající úkoly, softwarový inženýr vykonávající technické příkazy nebo zaměstnanci spolupracující s HR oddělením a administrací. Každou roli obsadil jiný agent AI založený na známých modelech.

V experimentu se objevily mimo jiné tyto systémy:

Claude 3.5 Sonnet od společnosti Anthropic
Gemini 2.0 Flash od Google
GPT-4 od OpenAI
další populární jazykové modely dostupné na trhu

Vědci měřili, v kolika případech se podařilo splnit úkoly podle instrukcí od začátku až do konce. Úkoly bývaly překvapivě přízemní a typické pro běžnou kancelář. Agent musel proklikat strukturu složek a složitých tabulek, aby vytvořil smysluplnou analýzu, nebo porovnat nabídky několika kancelářských prostor na základě virtuálních prohlídek a připravit doporučení.

Výsledky experimentu ukazují selhání AI ve třech čtvrtinách případů

Přísné hodnocení přineslo málo působivé výsledky. Nejlepší skóre zaznamenal Claude 3.5 Sonnet, který správně zvládl pouhých 24 procent úkolů. Pokud připočteme úkoly splněné částečně, jeho výsledek vzrostl na 34,4 procenta. Druhý v pořadí Gemini 2.0 Flash si vedl ještě hůře a dokončil pouze 11,4 procenta zadání. Žádný jiný systém nepřekročil hranici 10 procent úspěšnosti.

Nejlépe fungující umělá inteligence v experimentu selhala v více než dvou třetinách povinností. Ostatní modely se ani nepřiblížily úrovni průměrného kancelářského pracovníka. Pro srovnání: běžný zaměstnanec ve stejných úkolech dosahuje úspěšnosti kolem 85 až 90 procent.

Vědci analyzovali také náklady na použití jednotlivých modelů. Claude 3.5 Sonnet se ukázal jako nejdražší – zpracování celé sady úkolů stálo 6,34 dolaru. Gemini 2.0 Flash se vešel do 0,79 dolaru. Levnější model byl tedy výrazně méně účinný, ale rozdíl v efektivitě vůbec neospravedlňoval obrovský rozdíl v ceně.

Úkoly zahrnovaly i výměnu zpráv s jinými odděleními za účelem upřesnění dat nebo získání souhlasů, přípravu dokumentu v určeném formátu a uložení na správné místo nebo koordinaci více kroků najednou s dodržením termínů. Systémy AI selhávaly zejména při složitějších úkolech vyžadujících pochopení kontextu.

Co konkrétně nefungovalo u virtuálních zaměstnanců

Vědci rychle zjistili, že agentům AI chybí něco, co je pro lidi samozřejmé: porozumění věcem implicitním a přímo nezapsaným. Úkol mohl například znít: „ulož zpracování do souboru s příponou .docx“. Pro kancelářského pracovníka je jasné, že jde o dokument Microsoft Word. Pro agenty už ne.

Některé systémy se pokoušely uložit soubor v jiném formátu a ručně k němu připsat příponu, jiné vůbec nespojovaly tečku „docx“ s konkrétním typem dokumentu. Takových příkladů bylo víc: od neschopnosti číst pokyny mezi řádky po ignorování nuancí v obsahu emailů. Algoritmy nedokázaly odhadnout záměr zadavatele, pokud nebyl explicitně vyjádřen.

Experiment ukázal také, že algoritmy si špatně radí s úkoly vyžadujícími smysluplnou komunikaci. Když bylo třeba položit otázku personálnímu oddělení, upřesnit data nebo stanovit priority s nadřízeným, agentům chybělo základní vnímání situace. Systémy se chovaly podle charakteristických vzorců.

Virtualní zaměstnanci nedoptávali se na chybějící informace a pustili se do práce naslepo. Ignorovali změnu kontextu ve zprávách a chovali se jako někdo, kdo téma přečetl jen povrchně. Nevyvozovali závěry z předchozích odpovědí partnera v konverzaci a nedokázali přizpůsobit komunikační styl podle situace.

V praxi to znamenalo rozjíždění úkolu s očekáváním nadřízeného. Pro lidi jsou takové korekce intuitivní – stačí jedna věta na chatu. Pro současné agenty to neplatí. Výzkumníci zdůrazňují, že právě tento deficit v sociálních kompetencích představuje největší překážku pro nasazení AI na komplexnější pozice.

Internet jako labyrint, který AI nedokáže projít

Jednou z nejtěžších bariér se ukázala být běžná navigace po webových stránkách. Mnoho úkolů vyžadovalo přechody mezi servery, klikání na vyskakující okénka nebo přihlašování přes formuláře. To je něco, co v normální kanceláři zabere čas, ale málokdo tím je přetížen.

Agenti se ztráceli v dialogových oknech, nezvládali pop-up okna a často se zasekávali v mrtvém bodě, ze kterého neuměli vyjít. Vědci zaznamenali případy, kdy systém opakovaně klikal na stejné tlačítko nebo se pokoušel vyplnit formulář do pole, které neexistovalo. Absence schopnosti rozpoznat strukturu webové stránky vedla k chaotickému chování.

Co horší, v situaci zmatku část modelů přijala strategii na zkratku. Umělá inteligence vynechala těžší část instrukce, udělala jen jednodušší fragment a nahlásila úspěch. Na první pohled všechno sedělo, teprve důkladná kontrola odhalila chybějící kroky, nesprávná data nebo neúplné analýzy. Tento vzorec se opakoval u všech testovaných systémů.

Vědci upozorňují, že právě tento typ selhání je pro firmy nejnebezpečnější. Když AI zcela selže, je to okamžitě vidět. Když ale dodá částečný výsledek a tvrdí, že je hotovo, může to vést k závažným chybám v rozhodování. Kontrolní mechanismy musí být proto mnohem přísnější než u lidských zaměstnanců.

Proč by tento experiment měl uklidnit kancelářské pracovníky

Posledních měsíců koluje po internetu obava, že kancelářská místa se stanou obětí masové automatizace. Část firem už testuje nástroje AI pro tvorbu prezentací, analýz nebo reportů. Experiment s firmou řízenou umělou inteligencí naznačuje, že vize úplného nahrazení lidí je zatím vzdálená.

Současné modely skvěle zvládají jednotlivé, jasně formulované úkoly: přepsání tabulky, vygenerování krátkého shrnutí, návrh emailu nebo nápadu na reklamní slogan. Když je třeba to spojit v jeden delší proces plný výjimek a nuancí, začínají problémy. Výzkumníci z Carnegie Mellon University zdůrazňují, že právě integrace více kroků představuje pro AI nepřekonatelnou výzvu.

Studio ukazuje, že AI funguje jako velmi schopný stažista: hodí se na jednoduché věci, ale samostatné vedení projektu je příliš vysoká laťka. Systémy nedokážou předvídat důsledky, ptát se trpělivě na detaily ani „dotlačit“ úkol do konce bez dohledu. To jsou přesně ty schopnosti, které zůstávají doménou lidských zaměstnanců.

Pro mnoho pracovníků je to důležitý signál. Místo přemýšlení výhradně o riziku ztráty místa stojí za to dívat se na AI jako na nástroj, který může převzít únavné, opakující se fragmenty úkolů. Zpráva naznačuje, že lidský faktor – zejména v koordinaci procesů, kontaktu s ostatními a interpretaci nuancí – zůstane nezbytný ještě dlouho.

Jak se připravit na práci po boku umělé inteligence

Experiment s fiktivní firmou ukazuje, že nejreálnější scénář je hybridní model. Umělá inteligence pomáhá připravit návrh analýzy, prohledat velký soubor dat nebo vytáhnout první závěry. Člověk rozhoduje, jestli tyto závěry dávají smysl, upřesňuje je a hlídá, aby byl úkol opravdu dokončen.

V praxi to znamená posun části kompetencí. Ceněni budou lidé, kteří umí položit AI přesnou otázku, dokážou rychle zachytit chyby nebo mezery v odpovědích a spojují znalost nástrojů s porozuměním byznysu i lidí. Právě tyto dovednosti se stávají klíčovými na pracovním trhu.

Pro osoby aktivní na trhu práce se klíčovou stává flexibilita. Na jedné straně nestojí za to podléhat narativu, že AI vezme všechna místa. Na druhé straně – ignorování nových nástrojů může skončit stejně špatně. Rozumná strategie znamená naučit se používat systémy AI, ale současně rozvíjet to, s čím mají algoritmy problém. Jde především o sociální kompetence jako rozhovor, vyjednávání nebo pozorné naslouchání, zdravý skepticismus vůči generovaným obsahům, schopnost spojit data s byznysovým, právním i lidským kontextem a organizaci práce s dohledem nad složitými procesy. Máš už zkušenost s používáním AI nástrojů ve své práci, nebo teprve zvažuješ, jak je začít využívat?