- Funktionen
- Pricing

Wenn ein Agent nur auf einem kuratierten Notebook funktioniert, ist er nicht in der Produktivumgebung einsetzbar. Echte Kunden erwarten Zuverlässigkeit über Dutzende von Apps hinweg, strenge Compliance und vorhersehbare Kosten. Das ist die tägliche Realität für das IT-Mittelmanagement.
Aktuelle Untersuchungen zeigen die Kluft zwischen Benchmark-Erfolgen und realen Aufgaben. Auf GAIA erzielten Menschen 92 Prozent, während ein Top-Modell mit Tools etwa 15 Prozent schaffte.¹² AgentBench findet ähnliche Defizite bei Agenten in interaktiven Umgebungen, die eher der chaotischen, zustandsbehafteten Welt ähneln, in der deine Systeme leben.³⁴
Für Führungskräfte, die für Verfügbarkeit und Risiken verantwortlich sind, ist „funktioniert auf meinem Laptop“ kein Testplan. Du musst Agenten mit deinen eigenen Daten, Tools und Randfällen arbeiten lassen, ohne die Produktivumgebung zu berühren.
Upsun stellt für jeden Git-Zweig eine Live-Umgebung in der Produktivumgebung bereit, die geklonte Dienste wie Datenbanken und Caches enthält. Das bedeutet, dass du innerhalb von Minuten einen realistischen Produktionsklon erstellen kannst. Sieh dir an, wie Umgebungen den Zweigen zugeordnet werden und wie Vorschau-Umgebungen Daten für realistische Tests übernehmen.
Möchtest du sensible Felder schützen und gleichzeitig die Datenform und -verteilungen beibehalten? Verwende benutzerdefinierte Sanitisierungsmuster, damit Vorschau-Datenbanken nützlich und frei von personenbezogenen Daten sind. Lies den Leitfaden zur Sanitisierung und die Beispiele.⁵
Upsun ist sowohl für Menschen als auch für KI-Agenten konzipiert. Es stellt strukturierte Konfigurationen und vorhersehbare APIs bereit, und deine Assistenten verbinden sich über MCP-Server, um umfassende Echtzeit-Kontexteinblicke in deinen Stack zu erhalten. Stelle MCP-Server auf Upsun bereit und verbinde PostgreSQL MCP sicher mit einem Klon.
Ein glaubwürdiger Bewertungsplan für KI-Agenten testet deine RAG-Pipelines, Tool-Aufrufe, Timeouts, Wiederholungsversuche, Berechtigungen und Fehlerpfade anhand derselben Schemata und Dienste, die du in der Produktivumgebung verwendest. Upsuns „Branch-per-Environment“-Ansatz standardisiert den Workflow und reduziert die „unbekannten Unbekannten“, die nur bei echten Workloads auftreten.
Schnellstart:
# Create an isolated prod clone for agent testing
upsun branch agent-evals
# Tail logs while agents run their scenarios
upsun log -e agent-evals appSiehe CLI-Referenz.
Begnüge dich nicht damit, die Ergebnisse nur oberflächlich zu betrachten. Führe wie bei klassischen Anwendungstests eine ordnungsgemäße RAG-Bewertung anhand der Inhalte deiner Organisation durch. Ein praktisches Framework bewertet drei Aspekte: Kontextrelevanz, Fundiertheit und Antwortrelevanz.⁶
Viele Toolkits können KI-Bewertungen durchführen, aber wenn du gerade erst anfängst, ist Langchain die beste Wahl, um mit der Erstellung und Ausführung deiner LLM-Tests zu beginnen.
In Upsun kannst du diese Bewertungen als Teil deines Branch-Workflows durchführen und die Beobachtbarkeit mit Logs und kontinuierlicher Profilierung aufrechterhalten. Siehe Log-Zugriff und Profilierung.
Agenten werden besser, wenn sie tatsächlich über die Schnittstellen, die deine Teams heute nutzen, Daten abrufen, transformieren und schreiben können. Mit Upsun können MCP- und Agent-to-Agent-Muster in der geklonten Umgebung mit deinen echten APIs und Datenmodellen ausgeführt werden, sodass du Berechtigungslücken, Drosselungen oder Schema-Drift lange vor der Veröffentlichung erkennen kannst. Entdecke Entwicklerartikel.

