• Contact us
  • Documentation
  • Login
Watch a demoFree trial
Blog
Blog
BlogProduktFallstudienNachrichtenInsights
Blog

Warum du reale Daten brauchst, um deine KI-Agenten zu bewerten

AIVorschau-UmgebungenDatenklonenDatenschutz
11 November 2025
Teilen
Diese Seite wurde von unseren Experten auf Englisch verfasst und mithilfe einer KI übersetzt, um einen schnellen Zugriff zu ermöglichen! Die Originalversion findest du hier.

Problem: Eine Lab-Demo ist kein Produktionstest

Wenn ein Agent nur auf einem kuratierten Notebook funktioniert, ist er nicht in der Produktivumgebung einsetzbar. Echte Kunden erwarten Zuverlässigkeit über Dutzende von Apps hinweg, strenge Compliance und vorhersehbare Kosten. Das ist die tägliche Realität für das IT-Mittelmanagement.

Aktuelle Untersuchungen zeigen die Kluft zwischen Benchmark-Erfolgen und realen Aufgaben. Auf GAIA erzielten Menschen 92 Prozent, während ein Top-Modell mit Tools etwa 15 Prozent schaffte.¹² AgentBench findet ähnliche Defizite bei Agenten in interaktiven Umgebungen, die eher der chaotischen, zustandsbehafteten Welt ähneln, in der deine Systeme leben.³⁴

Für Führungskräfte, die für Verfügbarkeit und Risiken verantwortlich sind, ist „funktioniert auf meinem Laptop“ kein Testplan. Du musst Agenten mit deinen eigenen Daten, Tools und Randfällen arbeiten lassen, ohne die Produktivumgebung zu berühren.

Die Upsun-Lösung: Bewertung anhand eines sicheren Produktionsklons

Upsun stellt für jeden Git-Zweig eine Live-Umgebung in der Produktivumgebung bereit, die geklonte Dienste wie Datenbanken und Caches enthält. Das bedeutet, dass du innerhalb von Minuten einen realistischen Produktionsklon erstellen kannst. Sieh dir an, wie Umgebungen den Zweigen zugeordnet werden und wie Vorschau-Umgebungen Daten für realistische Tests übernehmen.

Möchtest du sensible Felder schützen und gleichzeitig die Datenform und -verteilungen beibehalten? Verwende benutzerdefinierte Sanitisierungsmuster, damit Vorschau-Datenbanken nützlich und frei von personenbezogenen Daten sind. Lies den Leitfaden zur Sanitisierung und die Beispiele.⁵

Upsun ist sowohl für Menschen als auch für KI-Agenten konzipiert. Es stellt strukturierte Konfigurationen und vorhersehbare APIs bereit, und deine Assistenten verbinden sich über MCP-Server, um umfassende Echtzeit-Kontexteinblicke in deinen Stack zu erhalten. Stelle MCP-Server auf Upsun bereit und verbinde PostgreSQL MCP sicher mit einem Klon.

KI-Agenten-Tests benötigen Produktionsdaten

Ein glaubwürdiger Bewertungsplan für KI-Agenten testet deine RAG-Pipelines, Tool-Aufrufe, Timeouts, Wiederholungsversuche, Berechtigungen und Fehlerpfade anhand derselben Schemata und Dienste, die du in der Produktivumgebung verwendest. Upsuns „Branch-per-Environment“-Ansatz standardisiert den Workflow und reduziert die „unbekannten Unbekannten“, die nur bei echten Workloads auftreten.

Schnellstart:

# Create an isolated prod clone for agent testing

upsun branch agent-evals

 

# Tail logs while agents run their scenarios

upsun log -e agent-evals app

Siehe CLI-Referenz.

RAG-Bewertung in deinem Produktionsklon

Begnüge dich nicht damit, die Ergebnisse nur oberflächlich zu betrachten. Führe wie bei klassischen Anwendungstests eine ordnungsgemäße RAG-Bewertung anhand der Inhalte deiner Organisation durch. Ein praktisches Framework bewertet drei Aspekte: Kontextrelevanz, Fundiertheit und Antwortrelevanz.⁶ 

Viele Toolkits können KI-Bewertungen durchführen, aber wenn du gerade erst anfängst, ist Langchain die beste Wahl, um mit der Erstellung und Ausführung deiner LLM-Tests zu beginnen

In Upsun kannst du diese Bewertungen als Teil deines Branch-Workflows durchführen und die Beobachtbarkeit mit Logs und kontinuierlicher Profilierung aufrechterhalten. Siehe Log-Zugriff und Profilierung.

Verbinde die MCP- und A2A-Workflows mit echten Diensten

Agenten werden besser, wenn sie tatsächlich über die Schnittstellen, die deine Teams heute nutzen, Daten abrufen, transformieren und schreiben können. Mit Upsun können MCP- und Agent-to-Agent-Muster in der geklonten Umgebung mit deinen echten APIs und Datenmodellen ausgeführt werden, sodass du Berechtigungslücken, Drosselungen oder Schema-Drift lange vor der Veröffentlichung erkennen kannst. Entdecke Entwicklerartikel.

Implementierungsdetails: vom Lab-Demo zur Produktion 

  1. Erstelle einen Produktionsklon pro Feature-Branch. Jeder Branch erhält eine Umgebung mit geklonten Diensten und Assets.
  2. Bereinige sensible Daten. Nutze die Upsun-Muster, um personenbezogene Daten zu ersetzen und dabei realistische Strukturen und Verteilungen beizubehalten.⁵
  3. Verbinde deinen Agenten mit echten Tools. Füge MCP-Server und beliebige A2A-Workflows für die URLs des Klons hinzu.
  4. Automatisiere RAG-Bewertungen. Bewerte die Relevanz, Fundiertheit und Qualität deiner Antworten in deinen Inhalten. Verfolge und vergleiche Verbesserungen und Regressionen pro Branch.⁶⁷
  5. Beobachte alles. Streame Logs und Profile, um Timeouts, Ratenbegrenzungen und Speicherlecks frühzeitig zu erkennen. Profiliere die Performance mit unserem integrierten blackfire-Dienst. Siehe Übersicht zur Observability.
  6. In der Produktivumgebung übernehmen. Unter Stress und Last validieren, dann sicher in der Produktivumgebung übernehmen.

Warum Upsun die beste Plattform dafür ist

  • Geschwindigkeit und Einfachheit. Eine einzige YAML-Konfiguration steuert die Orchestrierung mehrerer Dienste und wiederholbare Umgebungen.
  • Standardisierung. Eine einheitliche Bereitstellung über alle Teams hinweg reduziert Überraschungen und vereinfacht Audits.
  • Sicherheit und Compliance. Richtlinien und Schutzmaßnahmen greifen bis auf die Anwendungsebene.
  • Multi-Cloud-Optionen. Behalte die Kostenkontrolle und Anbieterunabhängigkeit bei, während du skalieren.

Quellen

  1. GAIA: ein Benchmark für allgemeine KI-Assistenten (arXiv)
  2. GAIA: ein Benchmark für allgemeine KI-Assistenten (ICLR 2024-Tagungsband)
  3. AgentBench: Bewertung von LLMs als Agenten (ICLR 2024-Tagungsband)
  4. AgentBench: Bewertung von LLMs als Agenten (ar5iv HTML) 
  5. Datensätze in Preview-Umgebungen bereinigen (Upsun Docs)
  6. IBM RAG Cookbook: Ergebnisbewertung und die RAG-Triade 
  7. NVIDIA NeMo Microservices: RAG-Bewertungstyp 
  8. NVIDIA NeMo Evaluator – Überblick 
  9. Verbessere die Beobachtbarkeit mit Logs und Profiling (Upsun Docs)
  10. Übersicht über Ragas-Metriken
  11. Ragas-Bewertungs-API

Bleiben Sie auf dem Laufenden

Abonnieren Sie unseren monatlichen Newsletter.

Ihr größtes Werk
steht vor der Tür

Kostenloser Test