W grudniu 2024 Gartner przewidział, że „co najmniej 30% projektów generative AI zostanie porzuconych po proof-of-concept do końca 2025 — z powodu słabej jakości danych, niewystarczających mechanizmów kontroli ryzyka, eskalujących kosztów lub niejasnej wartości biznesowej". W naszej praktyce widzimy tę samą liczbę — ale nie z powodu jakości danych. Prawdziwi zabójcy są organizacyjni, nie techniczni.
Oto post-mortem 14 pilotów od polskich, niemieckich i amerykańskich klientów w latach 2023–2025. Trzy umarły. Dwa weszły w trwały tryb zombie („wciąż oceniamy"). Dziewięć pojechało do produkcji. Wzorce są zaskakująco spójne.
Błąd #1: zbyt szeroki zakres pilotażu
Sieć detaliczna poprosiła nas o „AI-agenta, który obsłuży wszystkie pytania przychodzące". To nie pilot, to 3-letnia mapa drogowa. Zawęziliśmy do „odpowiadać na pytania o status zamówienia i terminy dostaw po polsku, resztę eskalować". Pilot dostarczony w 5 tygodni. Oryginalny brief zająłby 9 miesięcy i kosztował 120 000 €.
Błąd #2: brak baseline metryk
Nie udowodnisz, że AI zaoszczędził pieniądze, jeśli nie wiesz, co działo się wcześniej. Klient logistyczny dumnie raportował „AI obsługuje 60% połączeń od kierowców". Świetnie. Ile było wcześniej? Nikt nie zmierzył. CFO zawalił przedłużenie.
Spędź 1–2 tygodnie na początku mierząc: wolumen połączeń, average handle time, escalation rate, FCR, koszt na ticket. Bez tych liczb nie masz historii dla steering committee w 6. miesiącu.
Błąd #3: bus factor = 1
Trzy piloty stanęły, bo jedyny inżynier znający system odszedł do innej pracy. AI-agenci mają implicit context: decyzje prompt engineeringu, edge-case handlery, monitoring rules. Dokumentuj wszystko w runbooku od pierwszego tygodnia.
Błąd #4: dane syntetyczne zamiast logów produkcyjnych
Zespół testował na 50 syntetycznych transkrypcjach rozmów, które sami napisali. Rozmowy produkcyjne miały 4× więcej przerywań, akcenty, których team nie przewidział, szum tła z open-space'ów i 7% rozmówców używających mieszanych języków (polski + angielski). Accuracy spadło z 94% w testach do 71% w produkcji.
Błąd #5: brak ścieżki fallback
Gdy LLM jest niedostępny, agent po cichu failuje. Mieliśmy incydent w piątek wieczorem — Claude API rate-limitowało nas przez 23 minuty. Bez fallbacku do człowieka bot po prostu rozłączał się z klientami. 240 utraconych połączeń.
Każdy produkcyjny agent potrzebuje trzech fallbacków: a) retry z innym modelem, b) graceful „pozwolę przełączyć cię do osoby" z hold-music, c) post-incident SMS na follow-up.
Błąd #6: płacisz za consulting, nie za kod
Vendor wziął 40 000 € za „discovery phase" — 60-stronicowy dokument z personami, journey maps i roadmapą. Zero kodu. Pół roku później klient nie miał nic w produkcji. Przebudowaliśmy w 5 tygodni za 18 000 € razem z samym agentem.
Discovery ma wartość, ale ogranicz do 10–15% całego budżetu. Jeśli vendor chce więcej za „research" — sprzedaje prezentację, nie wdrożenie.
Błąd #7: brak human-in-the-loop
Pilot w healthcare automatycznie odwoływał wizyty na podstawie interpretacji AI wiadomości pacjentów. Po dwóch tygodniach team patient relations był zasypany skargami. Fix to 2-linijkowa zmiana kodu: każde odwołanie triggeruje confirmation message, potem 30-min hold przed akcją. Skargi zniknęły.
Błąd #8: ignorowanie edge cases
Edge cases w voice-agentach, które złapaliśmy w produkcji:
- —Rozmówca przekazuje telefon dziecku w środku rozmowy
- —TV-news w tle triggeruje intent „przełącz do osoby"
- —Rozmówca mówi w 3 językach w jednym zdaniu (PL + UA + RU)
- —Telefon dzwoni na głośniku w aucie — szum silnika łamie STT
- —Rozmówca rozłącza się w środku zdania; agent dalej mówi do martwej linii
- —Numer został przepisany — odpowiada inny klient
Tych nie złapiesz w testach. Złapiesz w pierwsze 2 tygodnie produkcji z aktywnym monitoringiem. Zarezerwuj 20% budżetu pierwszego tygodnia na triage.
Błąd #9: brak measurement po deploy
Trzech naszych klientów wdrożyło agentów i potem... nigdy nie patrzyło. Po 6 miesiącach nie mogli odpowiedzieć, czy działa. Zawsze konfiguruj: error-rate alerting, weekly transcript sampling (minimum 50 rozmów), monthly steering review z jedną osobą odpowiedzialną.
Checklist przed kickoffem
| Pozycja | Status | Owner |
|---|---|---|
| Single intent, single channel scope spisany | Wymagane | Product |
| Baseline metryki zmierzone 1+ tydzień | Wymagane | Ops |
| Dwóch inżynierów zna system | Wymagane | Eng |
| 200+ prawdziwych próbek produkcyjnych dostępnych | Wymagane | Data |
| Fallback path zdefiniowany i przetestowany | Wymagane | Eng |
| Discovery budget capped ≤15% | Wymagane | CFO |
| HITL approval flow dla wrażliwych akcji | Wymagane | Compliance |
| Monitoring + weekly review zaplanowany | Wymagane | Ops |
Jeśli już utknąłeś
Większość „utkniętych pilotów", które adoptujemy, ma jedną fixable cause — zwykle #2 (brak baseline) lub #5 (brak fallback). Trzy tygodnie focused pracy zwykle je odblokowują. Wyślij 30-minutowe screen-recording, gdzie agent failuje — powiemy, w które z 9 trafiłeś.