TL;DR: Neue Forschungsergebnisse bestätigen, dass bei komplexen, werkzeugnutzenden KI-Agenten die Bereitstellung von weniger, aber relevanterem Kontext die Leistung verbessert. Der richtige Schritt ist, dem Kontext-Engineering Vorrang vor der einfachen Übernahme von Modellen mit den größten Kontextfenstern zu geben.


1. Executive Summary

Die KI-Branche befand sich in einem Wettlauf um Skalierung, bei dem die Anbieter von Basismodellen immer größere Kontextfenster als Schlüssel zur Erschließung komplexerer Fähigkeiten anpriesen. Wir haben gesehen, wie Modelle von Google, Anthropic und anderen ihre Kapazität erweitert haben, um ganze Romane oder Codebasen in einem einzigen Prompt zu verarbeiten. Die vorherrschende Annahme war, dass mehr Kontext immer besser ist. Ein aktuelles Paper, Less Context, Better Agents: Efficient Context Engineering for Long-Horizon Tool-Using LLM Agents, liefert jedoch überzeugende Beweise für das Gegenteil. Bei den anspruchsvollen, mehrstufigen agentenbasierten Arbeitsabläufen, die Unternehmen gerne einsetzen möchten, kann die Lösung des Problems mit roher Gewalt durch riesige Kontextfenster die Leistung tatsächlich beeinträchtigen, die Kosten erhöhen und inakzeptable Latenzzeiten verursachen.

Wir glauben, dass diese Erkenntnis einen entscheidenden Reifepunkt für die Branche signalisiert. Der Fokus verlagert sich von der reinen Kapazität großer Sprachmodelle (LLMs) auf die ingenieurtechnische Disziplin, die erforderlich ist, um sie effektiv einzusetzen. Kontext-Engineering – die Praxis des intelligenten Auswählens, Zusammenfassens und Verwaltens der Informationen, die einem Modell bei jedem Schritt einer Aufgabe zugeführt werden – entwickelt sich zu einer Kernkompetenz für die Entwicklung zuverlässiger und wirtschaftlich rentabler KI-Agenten. Die bloße Auswahl des Modells mit dem größten Kontextfenster ist keine ausreichende Strategie mehr. Stattdessen müssen Engineering-Teams anspruchsvolle Kontextmanagementsysteme entwickeln, die einen menschenähnlicheren Ansatz für Gedächtnis und Fokus nachahmen.

Für Führungskräfte in Unternehmen ist dies eine willkommene Entwicklung. Es bedeutet, dass überlegene Leistung nicht allein denjenigen mit den größten Rechenbudgets vorbehalten ist. Intelligente Architektur und diszipliniertes Engineering können einen erheblichen Wettbewerbsvorteil schaffen. Durch Investitionen in Kontext-Engineering-Fähigkeiten können Organisationen Agenten entwickeln, die nicht nur genauer, sondern auch schneller und deutlich kostengünstiger im Betrieb sind, was den Weg für einen positiven Return on Investment bei komplexer Automatisierung ebnet.

Wichtige Erkenntnisse:

  • [Strategische Erkenntnis mit Metrik]: Intelligentes Kürzen des Kontexts kann die Erfolgsraten von Aufgaben um 10-15 % erhöhen und gleichzeitig den Token-Verbrauch und die Betriebskosten bei langlaufenden agentenbasierten Aufgaben um über 50 % senken.
  • [Wettbewerbsrelevanz]: Teams, die das Kontext-Engineering beherrschen, werden schnellere, kostengünstigere und zuverlässigere Agenten entwickeln und sich so einen erheblichen Leistungs- und Kostenvorteil gegenüber Wettbewerbern verschaffen, die auf Brute-Force-Kontext setzen.
  • [Implementierungsfaktor]: Dies erfordert neue MLOps-Muster für Zustandsmanagement, dynamische Zusammenfassung und Retrieval-Augmented Generation (RAG), die direkt in die Reasoning-Schleife des Agenten integriert sind.
  • [Geschäftswert]: Die direkten Vorteile sind niedrigere Betriebskosten, höherer Durchsatz durch reduzierte Latenz und eine erhöhte Zuverlässigkeit automatisierter Arbeitsabläufe, was zu einem besser vorhersagbaren KI-ROI führt.

2. Jenseits von Brute Force: Die Logik des Kontext-Kürzens

Bei einer langen, mehrstufigen agentenbasierten Aufgabe, wie der Buchung einer komplexen Reiseroute oder der Fehlersuche in einer Software, kann der Gesprächsverlauf enorm anwachsen. Der naive Ansatz besteht darin, jede Benutzeranfrage, jeden Werkzeugaufruf und jede Modellantwort in einen einzigen, ständig wachsenden Prompt anzuhängen. Die Logik scheint einfach: Geben Sie dem Modell ein perfektes Gedächtnis. Das Problem ist, dass LLMs, wie auch Menschen, im Rauschen untergehen können. Frühere Teile eines Gesprächs können irrelevant werden oder sogar im Widerspruch zu späteren Schritten stehen, und wichtige Informationen können in der Mitte eines riesigen Kontextfensters verloren gehen. Dies ist ein gut dokumentiertes Phänomen, das als „Lost in the Middle“-Problem bekannt ist und auf einen gesamten Arbeitsablauf hochskaliert wird.

Effektive menschliche Problemlöser behalten kein wortwörtliches Protokoll eines mehrstündigen Meetings in ihrem Arbeitsgedächtnis. Stattdessen fassen wir natürlich zusammen, verwerfen irrelevante Details und konzentrieren uns auf wichtige Entscheidungen und Aktionspunkte. Das Kontext-Engineering wendet dasselbe Prinzip auf KI-Agenten an. Es behandelt das Kontextfenster nicht als passive Datenhalde, sondern als aktiv verwalteten Arbeitsbereich. Dies erfordert eine anspruchsvollere Architektur, die über einfache API-Aufrufe hinausgeht und zu einem zustandsbehafteten System führt, das über seine eigene Historie nachdenken kann. Die zentrale Frage, die dieser Ansatz löst, lautet: Wie wechseln wir von einem naiven Ansatz mit vollständiger Historie zu einer anspruchsvollen, entwickelten Kontext-Pipeline für unsere KI-Agenten?

flowchart TD
    classDef input fill:#dbeafe,stroke:#3b82f6,color:#1e3a8a
    classDef process fill:#ede9fe,stroke:#7c3aed,color:#2e1065
    classDef decision fill:#fef3c7,stroke:#d97706,color:#78350f
    classDef output fill:#dcfce7,stroke:#16a34a,color:#14532d
    classDef module fill:#f3e8ff,stroke:#9333ea,color:#3b0764
    classDef external fill:#e0f2fe,stroke:#0ea5e9,color:#0c4a6e

    subgraph Task Ingestion
        A([User Request Received]):::input --> B[Decompose into<br/>Initial Sub-tasks]:::process
    end

    subgraph Agentic Loop
        B --> C{Context Window<br/>Approaching Limit?}:::decision
        C -->|No| D[Select Next Tool<br/>e.g., Search API]:::process
        C -->|Yes| E[Trigger Context<br/>Management Module]:::module
        E --> D
        D --> F[Format Tool Input<br/>(JSON Payload)]:::process
        F --> G[[Execute Tool<br/>(e.g., Salesforce API)]]:::external
        G --> H[Receive Tool Output<br/>(API Response)]:::process
        H --> I[Append Tool I/O<br/>to Short-Term History]:::process
        I --> J{Is Main Task<br/>Complete?}:::decision
        J -->|No| C
        J -->|Yes| K[Synthesize Final<br/>Answer from History]:::process
        K --> L([Deliver Response]):::output
    end

    subgraph Context Management [Context Management Module]
        style Context Management fill:#fefce8,stroke:#eab308
        E --> M[Summarize Oldest<br/>Interactions]:::process
        M --> N[Identify & Prune<br/>Redundant Tool Calls]:::process
        N --> O[(Update Compact<br/>Working Context)]:::input
        O --> E
    end

    class A,O input
    class B,D,F,H,I,K,M,N process
    class C,J decision
    class L output
    class G external
    class E module

Das Diagramm zeigt eine entscheidende architektonische Veränderung: die Einführung eines dedizierten „Kontextmanagement-Moduls“ innerhalb der primären Reasoning-Schleife des Agenten. Anstatt blind Daten anzuhängen, bewertet der Agent regelmäßig seinen Kontext und löst bei Bedarf einen Unterprozess aus, um seine Historie zusammenzufassen, zu kürzen und zu komprimieren. Dies schafft einen kompakten und relevanten „Arbeitskontext“, der das Modell auf die unmittelbare Aufgabe konzentriert und gleichzeitig eine Informationsüberflutung verhindert. Dies ist ein weitaus robusteres und effizienteres Design, als sich einfach auf die rohe Kapazität eines einzelnen Modells zu verlassen. Wie wir bereits argumentiert haben, basieren effektive werkzeugnutzende KI-Agenten auf Orchestrierung statt auf monolithischen Modellen.

AspektAktueller / Traditioneller AnsatzVon Thinkia empfohlener AnsatzErwartete Auswirkung
KontextbehandlungsstrategieNaives Anhängen (Vollständige Historie): Senden der gesamten Konversations- und Werkzeugnutzungshistorie bei jeder einzelnen Modellinteraktion.Aktives Kontext-Engineering: Verwendung von Zusammenfassung, Kürzung und RAG, um einen kompakten, relevanten Kontextzustand aufrechtzuerhalten.30-60 % niedrigere Token-Kosten, ~15 % höhere Aufgabenerfolgsrate und deutlich reduzierte Latenz.
AgentenarchitekturMonolithisch: Verlässt sich auf die rohen Fähigkeiten eines einzelnen, großen Modells und ein riesiges Kontextfenster, um alles zu bewältigen.Modular & Orchestriert: Verwendet Frameworks wie LangGraph mit dedizierten Modulen für Kontextmanagement, Werkzeugnutzung und Reasoning.Größere Zuverlässigkeit, einfacheres Debugging und die Möglichkeit, kleinere, spezialisiertere Modelle für Teilaufgaben zu verwenden.
Primäre LeistungsmetrikGröße des Kontextfensters (Tokens): Der Erfolg wird am reinen Datenvolumen gemessen, das das Modell theoretisch verarbeiten kann.Aufgabenerfolgsrate pro Token: Der Erfolg wird an der wirtschaftlichen Effizienz und Effektivität des Agenten gemessen.Eine strategische Verschiebung bei der Anbieterbewertung von roher Kapazität zu demonstrierter, kostenadjustierter Leistung.

3. Was Führungskräfte in Unternehmen tun sollten

Die Einführung von Kontext-Engineering ist nicht nur eine technische Anpassung; es ist eine strategische Notwendigkeit für jede Organisation, die ernsthaft agentenbasierte KI im großen Stil einsetzen möchte. Es verwandelt die Agentenentwicklung von einer Übung im Prompt-Engineering in eine strengere Software-Engineering-Disziplin. Für CIOs, CTOs und CDOs bedeutet dies, neue Fähigkeiten zu fördern und neue Werkzeuge in ihren MLOps- und KI-Entwicklungslebenszyklen zu implementieren. Das Ziel ist es, Systeme zu bauen, die nicht nur fähig, sondern auch effizient, beobachtbar und steuerbar sind.

Die Werkzeuge für diesen Ansatz reifen schnell heran. Frameworks wie LangGraph und CrewAI bieten den notwendigen Kontrollfluss für die Erstellung zustandsbehafteter Agenten, bei denen die Logik des Kontextmanagements explizit definiert werden kann. Dies wird oft mit einer Vektordatenbank kombiniert, die als Langzeitgedächtnis des Agenten fungiert. Der Agent kann dieses Gedächtnis abfragen, um relevante vergangene Informationen bei Bedarf abzurufen, anstatt sie alle in seinem aktiven Kontextfenster zu behalten. Diese Kombination aus kurzfristigem Arbeitsgedächtnis und langfristig abrufbarem Gedächtnis ist ein leistungsstarkes Muster für komplexe Aufgaben.

Eine entscheidende Überlegung für Unternehmen ist Governance und Überprüfbarkeit. Wenn ein Agent seinen eigenen Kontext kürzt, wie können Sie seinen Entscheidungsprozess nachvollziehen? Die Lösung besteht darin, den Arbeitskontext des Agenten vom unveränderlichen Protokoll zu trennen. Während der Agent aus Effizienzgründen mit einer komprimierten Version der Realität arbeitet, muss ein vollständiges, ungekürztes Protokoll aller Interaktionen, Werkzeugaufrufe und Kontextzustände für Debugging, Konformitätsprüfungen und Leistungsanalysen gespeichert werden. Dieses duale Protokollierungssystem ist für produktionsreife, verantwortungsvolle KI unerlässlich.

Um diese Prinzipien in die Praxis umzusetzen, empfehlen wir einen klaren, vierstufigen Ansatz:

  1. Benchmarking Ihrer Baselines. Bevor Sie optimieren können, müssen Sie messen. Setzen Sie eine Basisversion Ihres Agenten mit dem naiven „vollständigen Kontext“-Ansatz ein und verfolgen Sie sorgfältig dessen Kosten, Latenz und Aufgabenerfolgsrate. Diese Daten sind unerlässlich, um den Business Case für Investitionen in anspruchsvollere Kontext-Engineering-Techniken zu erstellen.
  2. Einführung eines zustandsgesteuerten Orchestrierungs-Frameworks. Verabschieden Sie sich von einfachen, linearen Ketten von LLM-Aufrufen. Implementieren Sie ein graphbasiertes Framework, das ein explizites Zustandsmanagement und bedingte Logik ermöglicht. Diese architektonische Entscheidung ist die Grundlage für das Einfügen benutzerdefinierter Module zur Kontextkürzung, Zusammenfassung und zum Abruf.
  3. Implementierung eines mehrstufigen Speichersystems. Entwerfen Sie Ihren Agenten mit mindestens zwei Speicherkomponenten: einem kurzfristigen „Arbeitsgedächtnis“ für die letzten Interaktionen (z. B. die letzten 5-10 Runden) und einem langfristigen, abrufbaren Gedächtnis, das in einer Vektordatenbank gespeichert ist. Verwenden Sie RAG, um relevante historische Fakten nur dann in das Arbeitsgedächtnis zu ziehen, wenn der Agent feststellt, dass sie benötigt werden.
  4. Etablierung einer Schicht zur Beobachtbarkeit des Kontexts. Ihre Protokollierungs- und Überwachungssysteme müssen sowohl den gekürzten „Arbeitskontext“, der an das Modell gesendet wird, als auch die vollständige, unveränderliche Historie der Interaktion erfassen. Diese duale Perspektive ist entscheidend für das Debugging des Agentenverhaltens und stellt sicher, dass Sie die Dokumentations- und Transparenzanforderungen neuer Vorschriften erfüllen können, ein Prozess, der in unserer EU AI Act Compliance Checklist detailliert beschrieben ist.

5. FAQ

F: Ist das nicht nur ein vorübergehender Workaround, bis Kontextfenster unendlich und praktisch kostenlos werden?

A: Wir sehen es als ein grundlegendes Prinzip, nicht als vorübergehenden Workaround. Selbst bei riesigen Kontextfenstern kann das „Lost in the Middle“-Problem bestehen bleiben, und die Latenz wird bei benutzerorientierten Anwendungen immer ein Faktor sein. Intelligentes Filtern ist ein Kernkonzept der effizienten Berechnung; wir glauben, dass es auch bei wachsender Modellkapazität relevant bleiben wird.

F: Welche Fähigkeiten benötigt mein Team, um Kontext-Engineering zu implementieren?

A: Dies geht über einfaches Prompt-Engineering hinaus. Es erfordert eine Mischung aus MLOps-, Data-Engineering- und Software-Architektur-Fähigkeiten. Ihr Team sollte mit zustandsbehafteten Systemen, graphbasierter Orchestrierung, APIs und Datenstrukturen vertraut sein. Die Agentic AI Implementation-Dienste von Thinkia konzentrieren sich auf den Aufbau genau dieser funktionsübergreifenden Fähigkeiten für Unternehmensteams.

F: Wie verändert dies unsere Strategie zur Modellauswahl?

A: Es stellt die Größe des Kontextfensters als wichtigstes Kriterium in den Hintergrund. Eine effektive Kontext-Engineering-Strategie kann es kleineren, schnelleren und kostengünstigeren Modellen ermöglichen, größere, teurere Modelle bei komplexen, langlaufenden Aufgaben zu übertreffen. Ihr Bewertungsprozess sollte sich darauf verlagern, die Aufgabenleistung innerhalb eines entwickelten, orchestrierten Systems zu messen.

F: Gilt Kontext-Engineering für alle Anwendungsfälle von generativer KI?

A: Seine Wirkung ist am größten bei mehrstufigen, werkzeugnutzenden agentenbasierten Arbeitsabläufen, wie z. B. automatisiertem IT-Support, komplexer Datenanalyse oder autonomen Softwareentwicklungsagenten. Bei einfacheren, einmaligen Aufgaben wie dem Zusammenfassen eines Dokuments, das in das Kontextfenster passt, sind die Vorteile weniger ausgeprägt.


6. Fazit

Die Ära, in der der Fortschritt der KI allein an der Größe des Kontextfensters eines Modells gemessen wurde, neigt sich dem Ende zu. Obwohl ein großer Kontext eine wertvolle Fähigkeit ist, zeigen die neuesten Forschungsergebnisse und unsere eigene praktische Arbeit, dass er kein Allheilmittel ist. Bei den komplexen, langfristigen Aufgaben, die den größten Unternehmenswert versprechen, weicht rohe Skalierung der ingenieurtechnischen Eleganz. Die leistungsfähigsten und effizientesten KI-Agenten werden nicht diejenigen sein, die die größten Modelle verwenden, sondern diejenigen, die mit den intelligentesten Architekturen gebaut sind.

Wir glauben, dass Kontext-Engineering die nächste entscheidende Disziplin ist, die KI-Teams in Unternehmen beherrschen müssen. Es stellt einen grundlegenden Wandel hin zum Bau von KI-Systemen dar, die überlegter, effizienter und letztendlich zuverlässiger sind. Indem sie sich darauf konzentrieren, wie Informationen verwaltet und dem Modell präsentiert werden, können Organisationen ein neues Leistungsniveau erschließen und einen nachhaltigeren und vorhersagbareren Return on Investment ihrer KI-Investitionen erzielen. Der Aufbau langlebiger, produktionsreifer agentenbasierter Systeme erfordert diesen disziplinierten Engineering-Ansatz, und wir arbeiten mit Führungskräften in Unternehmen zusammen, um über den Hype um Modellspezifikationen hinauszugehen und genau das zu implementieren.