← Wszystkie wpisy
Case-study22 kwi 2026 w 12 min czytania

Dlaczego 70% pilotów AI umiera — 9 błędów, które zabijają wdrożenia

Gartner prognozuje, że 30% projektów GenAI zostanie porzuconych po pilotażu do końca 2025. Rozbiór 14 naszych wdrożeń klienckich, które prawie umarły — i co zrobiliśmy, żeby pojechały do produkcji.

KM
Krzysztof Maj
CEO @ Cyberninja

W grudniu 2024 Gartner przewidział, że „co najmniej 30% projektów generative AI zostanie porzuconych po proof-of-concept do końca 2025 — z powodu słabej jakości danych, niewystarczających mechanizmów kontroli ryzyka, eskalujących kosztów lub niejasnej wartości biznesowej". W naszej praktyce widzimy tę samą liczbę — ale nie z powodu jakości danych. Prawdziwi zabójcy są organizacyjni, nie techniczni.

Oto post-mortem 14 pilotów od polskich, niemieckich i amerykańskich klientów w latach 2023–2025. Trzy umarły. Dwa weszły w trwały tryb zombie („wciąż oceniamy"). Dziewięć pojechało do produkcji. Wzorce są zaskakująco spójne.

Błąd #1: zbyt szeroki zakres pilotażu

Sieć detaliczna poprosiła nas o „AI-agenta, który obsłuży wszystkie pytania przychodzące". To nie pilot, to 3-letnia mapa drogowa. Zawęziliśmy do „odpowiadać na pytania o status zamówienia i terminy dostaw po polsku, resztę eskalować". Pilot dostarczony w 5 tygodni. Oryginalny brief zająłby 9 miesięcy i kosztował 120 000 €.

tip
Zasada pilotażu: jeden kanał, jeden język, jedna intencja. Walcz ze scope creep pisemnym one-page agreement przed kickoffem.

Błąd #2: brak baseline metryk

Nie udowodnisz, że AI zaoszczędził pieniądze, jeśli nie wiesz, co działo się wcześniej. Klient logistyczny dumnie raportował „AI obsługuje 60% połączeń od kierowców". Świetnie. Ile było wcześniej? Nikt nie zmierzył. CFO zawalił przedłużenie.

Spędź 1–2 tygodnie na początku mierząc: wolumen połączeń, average handle time, escalation rate, FCR, koszt na ticket. Bez tych liczb nie masz historii dla steering committee w 6. miesiącu.

Błąd #3: bus factor = 1

Trzy piloty stanęły, bo jedyny inżynier znający system odszedł do innej pracy. AI-agenci mają implicit context: decyzje prompt engineeringu, edge-case handlery, monitoring rules. Dokumentuj wszystko w runbooku od pierwszego tygodnia.

Błąd #4: dane syntetyczne zamiast logów produkcyjnych

Zespół testował na 50 syntetycznych transkrypcjach rozmów, które sami napisali. Rozmowy produkcyjne miały 4× więcej przerywań, akcenty, których team nie przewidział, szum tła z open-space'ów i 7% rozmówców używających mieszanych języków (polski + angielski). Accuracy spadło z 94% w testach do 71% w produkcji.

warning
Zawsze testuj na minimum 200 prawdziwych próbkach produkcyjnych przed launchem. Anonimizuj, ale nie syntezuj.

Błąd #5: brak ścieżki fallback

Gdy LLM jest niedostępny, agent po cichu failuje. Mieliśmy incydent w piątek wieczorem — Claude API rate-limitowało nas przez 23 minuty. Bez fallbacku do człowieka bot po prostu rozłączał się z klientami. 240 utraconych połączeń.

Każdy produkcyjny agent potrzebuje trzech fallbacków: a) retry z innym modelem, b) graceful „pozwolę przełączyć cię do osoby" z hold-music, c) post-incident SMS na follow-up.

Błąd #6: płacisz za consulting, nie za kod

Vendor wziął 40 000 € za „discovery phase" — 60-stronicowy dokument z personami, journey maps i roadmapą. Zero kodu. Pół roku później klient nie miał nic w produkcji. Przebudowaliśmy w 5 tygodni za 18 000 € razem z samym agentem.

Discovery ma wartość, ale ogranicz do 10–15% całego budżetu. Jeśli vendor chce więcej za „research" — sprzedaje prezentację, nie wdrożenie.

Błąd #7: brak human-in-the-loop

Pilot w healthcare automatycznie odwoływał wizyty na podstawie interpretacji AI wiadomości pacjentów. Po dwóch tygodniach team patient relations był zasypany skargami. Fix to 2-linijkowa zmiana kodu: każde odwołanie triggeruje confirmation message, potem 30-min hold przed akcją. Skargi zniknęły.

Błąd #8: ignorowanie edge cases

Edge cases w voice-agentach, które złapaliśmy w produkcji:

  • Rozmówca przekazuje telefon dziecku w środku rozmowy
  • TV-news w tle triggeruje intent „przełącz do osoby"
  • Rozmówca mówi w 3 językach w jednym zdaniu (PL + UA + RU)
  • Telefon dzwoni na głośniku w aucie — szum silnika łamie STT
  • Rozmówca rozłącza się w środku zdania; agent dalej mówi do martwej linii
  • Numer został przepisany — odpowiada inny klient

Tych nie złapiesz w testach. Złapiesz w pierwsze 2 tygodnie produkcji z aktywnym monitoringiem. Zarezerwuj 20% budżetu pierwszego tygodnia na triage.

Błąd #9: brak measurement po deploy

Trzech naszych klientów wdrożyło agentów i potem... nigdy nie patrzyło. Po 6 miesiącach nie mogli odpowiedzieć, czy działa. Zawsze konfiguruj: error-rate alerting, weekly transcript sampling (minimum 50 rozmów), monthly steering review z jedną osobą odpowiedzialną.

Checklist przed kickoffem

PozycjaStatusOwner
Single intent, single channel scope spisanyWymaganeProduct
Baseline metryki zmierzone 1+ tydzieńWymaganeOps
Dwóch inżynierów zna systemWymaganeEng
200+ prawdziwych próbek produkcyjnych dostępnychWymaganeData
Fallback path zdefiniowany i przetestowanyWymaganeEng
Discovery budget capped ≤15%WymaganeCFO
HITL approval flow dla wrażliwych akcjiWymaganeCompliance
Monitoring + weekly review zaplanowanyWymaganeOps

Jeśli już utknąłeś

Większość „utkniętych pilotów", które adoptujemy, ma jedną fixable cause — zwykle #2 (brak baseline) lub #5 (brak fallback). Trzy tygodnie focused pracy zwykle je odblokowują. Wyślij 30-minutowe screen-recording, gdzie agent failuje — powiemy, w które z 9 trafiłeś.

Newsletter

Lubisz takie analizy?

Raz w tygodniu — krótki list z liczbami z naszych wdrożeń.