Ugrás a tartalomhoz
Vissza a bloghoz
·9 perc olvasás
AI ügynökök produkcióban: ne demó legyen, hanem rendszer
AILLMRAGProdukció

AI ügynökök produkcióban: ne demó legyen, hanem rendszer

LLM-demóból élet-rendszer: retrieval-pipeline, kiértékelés, guardrails és költségkontroll, ahogy mi csináljuk a projekteken.

Legutóbb ellenőrizve• new
Mező Dezső
Szerző Mező DezsőAlapító, DField Solutions
MegosztásXLinkedIn#

Szakmai ellenőrzés:Mező Dezső· Alapító · Mérnök, DField Solutions· 2026. ápr. 18.

A legtöbb „AI agent” project, amit látunk, úgy kezdődik, hogy valaki ChatGPT-n legyárt egy ígéretes demót, aztán három hónap múlva senki nem tudja, miért hallucinál, miért drága, és miért esik szét az első valódi felhasználónál. A probléma nem az LLM-mel van. A probléma a rendszerszemlélet hiányával van.

Az alábbi cikkben végigvesszük, hogyan szállítunk mi olyan AI-ügynököket, amelyek valódi produkciós rendszerként működnek: minden release előtt eval-el átmennek, van rájuk költség-SLA, és monitorozható, hogy mikor tér el a viselkedés a várt trendtől.

1. Retrieval: ha csak ez van, már nyertél

A legtöbb hallucinációs problémát nem a „nagyobb modell” oldja meg, hanem a retrieval. Ha a kontextus benne van a promptban, a modellnek nincs dolga kitalálni dolgokat. Hibrid retrieval (BM25 + vector + reranker) és gondos chunk-stratégia 80%-ban lefedi az ügyfélhibák halmazát.

  • Chunk méret 300–800 token, overlap 15–20%.
  • Reranker (bge-reranker, Cohere rerank-3) drasztikus minőségugrás.
  • Mindig küldünk forráshivatkozást — ha nincs találat, refuse.

2. Eval: a „úgy néz ki, jó” már nem jó

Építünk egy golden-set-et az ügyfél adataiból, 50–200 kérdéssel, és ezt futtatjuk CI-ben minden release előtt. LLM-as-judge + faktuális regressziós tesztek. Ha a minőség-trend megtörik, nem deploy-olunk.

// Eval CI step
import { runEvals } from "@dfield/eval";

const result = await runEvals({
  suite: "support-copilot",
  model: process.env.MODEL_VERSION,
  thresholds: { accuracy: 0.88, factual: 0.95, latencyP95Ms: 1800 },
});

if (!result.passed) {
  throw new Error(`Eval failed: ${result.failures.join(", ")}`);
}

3. Guardrails: PII, prompt injection, output-schema

Input oldalon PII-scrubber, prompt-injection-detektor (kulcsszó + LLM-classifier). Output oldalon JSON-schema validáció, tiltott témák szűrése. Ez nem cosmetic, ez megvédi a brand-et.

A guardrails a legolcsóbb biztosítás: alig növeli a latency-t, viszont a sértő / nem-biztonságos kimenetek 99%-át kiszűri.

4. Költségmenedzsment: LLM-router + cache

Nem minden kérdésre kell GPT-4o-s válasz. Routing a kérdés tipusa szerint: egyszerű FAQ → kis modell + cache. Komplex reasoning → nagy modell. 3–5x költségcsökkentés reálisan elérhető.

5. Megfigyelés: minden kérdés mérve

OpenTelemetry + saját dashboard: tokens in/out, latency P50/P95/P99, minőségi metrikák (accuracy, refusal rate), költség per user. Ha egy metrika elromlik, azonnal látjuk és riadó szól.

Zárszó

Az AI rendszer nem különbözik egy rendes backend-szolgáltatástól abban, hogy ugyanolyan mérnöki fegyelmet igényel. Ha ennek a cikknek a keretei szerint szeretnél indulni — írj, egy hét alatt futó prototípust tudunk mutatni a te adataidon.

MegosztásXLinkedIn#
Mező Dezső

Szerző

Mező Dezső

Alapító, DField Solutions

Fintechtől kreátor-toolingig építek produkciós termékeket — startupoknak és vállalatoknak egyaránt, Budapesttől San Franciscóig.

Folytatás

Inkább építenénk együtt?

Beszéljünk a projektedről. 30 perc, nincs kötelezettség.

Beszéljünk