Ramp Labs stellt eine Lösung für das Teilen von Multi-Agenten-Speicher vor, Token-Verbrauch um bis zu 65 % reduziert

By: theblockbeats.news|2026/04/11 14:20:48
0
Teilen
copy

BlockBeats Nachrichten, 11. April, das KI-Infrastrukturunternehmen Ramp Labs veröffentlichte Forschungsergebnisse zu "Latent Briefing", die effizientes Speichern von Multi-Agenten-Systemen durch direkte Kompression des KV-Caches großer Modelle erreichen, wodurch der Token-Verbrauch erheblich reduziert wird, ohne die Genauigkeit zu opfern.


In gängigen Multi-Agenten-Architekturen zerlegt der Orchestrator Aufgaben und ruft wiederholt Worker-Modelle auf. Mit der Verlängerung der Inferenzkette steigt der Token-Verbrauch exponentiell an. Die Kernidee von Latent Briefing besteht darin, den Aufmerksamkeitsmechanismus zu nutzen, um die wirklich kritischen Teile im Kontext zu identifizieren, redundante Informationen auf der Repräsentationsebene direkt zu verwerfen, anstatt sich auf die langsame LLM-Zusammenfassung oder die instabile RAG-Abfrage zu verlassen.


Im LongBench v2 Benchmark-Test schnitt diese Methode bemerkenswert ab: Der Token-Verbrauch des Worker-Modells sank um 65 %, die medianen Token-Einsparungen für Dokumente mittlerer Länge (32k bis 100k) erreichten 49 %, die Gesamtgenauigkeit verbesserte sich um etwa 3 Prozentpunkte im Vergleich zur Basislinie, und die zusätzliche Zeit für jede Kompression betrug nur etwa 1,7 Sekunden, was eine Beschleunigung von etwa 20 Mal im Vergleich zum ursprünglichen Algorithmus erreichte.


Das Experiment verwendete Claude Sonnet 4 als Orchestrator und Qwen3-14B als Worker-Modell und deckte verschiedene Dokumentenszenarien wie akademische Arbeiten, juristische Dokumente, Romane und Regierungsberichte ab. Die Forschung ergab auch, dass die optimale Kompressionsschwelle je nach Schwierigkeitsgrad der Aufgabe und Dokumentenlänge variiert – schwierige Aufgaben eignen sich für aggressive Kompression, um spekulative Denkgeräusche herauszufiltern, während lange Dokumente besser für milde Kompression geeignet sind, um verstreute Schlüsselinformationen zu erhalten.

---Preis

--

Das könnte Ihnen auch gefallen

Inhalte

Beliebte Coins

Neueste Krypto-Nachrichten

Mehr lesen
iconiconiconiconiconiconicon
Kundenservice:@weikecs
Geschäftliche Zusammenarbeit:@weikecs
Quant-Trading & MM:bd@weex.com
VIP-Programm:support@weex.com