Das Limit von 3 Hallos, wo ist denn dein Claude-Code-Limit hin? Ein 28-Tage-Cache-Bug und eine offizielle Antwort, die dazu auffordert, ihn „sparsam zu verwenden“.

By: blockbeats|2026/04/03 13:00:04

4-17%. Dies ist die Trefferrate des Prompt-Caches für Claude Code im letzten Monat. Der Normalwert liegt bei 97-99%.

Das bedeutet, dass Claude Code beim Fortsetzen einer vorherigen Sitzung den zuvor verarbeiteten Kontext nicht wiederverwendet, sondern jedes Mal alles von Grund auf neu verarbeitet, wodurch Credits 10- bis 20-mal schneller verbraucht werden als normal. Sie denken vielleicht, Sie setzen ein Gespräch fort, aber in Wirklichkeit beginnen Sie jedes Mal ein völlig neues, kostenpflichtiges Gespräch.

Das Limit von 3 Hallos, wo ist denn dein Claude-Code-Limit hin? Ein 28-Tage-Cache-Bug und eine offizielle Antwort, die dazu auffordert, ihn „sparsam zu verwenden“.

Diese Daten stammen vom Proxy-Monitoring des unabhängigen Entwicklers ArkNill. Durch die Einrichtung eines transparenten Proxys zeichnete er jede Anfrage zwischen Claude Code und der Anthropic API auf und entdeckte dabei mindestens zwei clientseitige Caching-Fehler, die dazu führten, dass der API-Server nicht in der Lage war, zwischengespeicherte Konversationspräfixe abzugleichen, was in jeder Runde einen kompletten Token-Neubau erzwang.

Die obige Grafik zeigt einen Vergleich der Cache-Trefferraten über drei Phasen hinweg. Während der Versionen v2.1.69 bis v2.1.89 (dem Zeitraum, in dem der Fehler auftrat) lag die Cache-Trefferrate der Standalone-Version nur bei 4-17%. Nach der Behebung eines kritischen Fehlers in Version v2.1.90 erreichte die Trefferrate des Kaltstart-Caches wieder 47-99,7%. Mit Version 2.1.91 erreichte die Trefferrate des stabilen Caches wieder 97-99%.

Ein bemerkenswertes Detail aus der Grafik: Die Spanne in Version 2.1.90 ist recht groß (47 % bis 99,7 %), da der Cache beim Fortsetzen einer Sitzung noch "aufgewärmt" werden muss, was in den ersten Runden zu niedrigen Trefferraten führt, die sich aber schnell wieder normalisieren. In der fehlerhaften Version findet dieses Aufwärmen nie statt – die Cache-Trefferrate bleibt immer bei 14.500 Systemaufforderungs-Tokens, wobei jedes Mal der gesamte Gesprächsverlauf vollständig abgerechnet wird.

28 Tage, 20 Versionen

Dieser Fehler ist nicht von der Art, die durch ein Update eingeführt und im nächsten behoben wird. Laut den Versionsaufzeichnungen des npm-Repositorys wurde die Version v2.1.69, die den Fehler einführte, am 4. März veröffentlicht, und die Version v2.1.90, die den Fehler behoben hat, wurde am 1. April veröffentlicht. Dazwischen lagen 28 Tage, in denen 20 Versionen erschienen.

Die Zeitleiste enthüllte ein verlockendes Detail. Nachdem der Fehler am 4. März aufgetreten war, gab es zunächst keine Massenbeschwerden von den Nutzern. Erst am 23. März, fast drei Wochen später, brachen die Beschwerden massenhaft aus. Der Grund dafür ist, dass Anthropic laut der Analyse des GitHub-Problems #41930 vom 13. bis 28. März eine 2x-Kontingentaktion laufen hatte (Verdopplung außerhalb der Spitzenzeiten), wodurch die Auswirkungen des Fehlers objektiv verschleiert wurden. Nach Ende der Werbeaktion kehrte der Cache-Bug-Verbrauch zu den normalen Abrechnungswerten zurück, und die Kontingente der Benutzer "verschwanden" sofort.

Anthropic reagierte nicht schnell. Am 26. März, drei Tage nach dem Ausbruch der Nutzerbeschwerden, verkündete der Ingenieur Thariq Shihipar auf seinem persönlichen X-Account, dass die Spitzenstundenbegrenzung (werktags 5-11 Uhr PT) verschärft worden sei. Am 30. März räumte Anthropic auf Reddit ein, dass die „Rate, mit der die Nutzer ihr Kontingent erreichten, die Erwartungen weit übertraf“, und nannte dies als oberste Priorität des Teams. Erst am 1. April veröffentlichte Teammitglied Lydia Hallie die offiziellen Untersuchungsergebnisse.

Während des gesamten Prozesses veröffentlichte Anthropic keine Blogbeiträge, versandte keine E-Mail-Benachrichtigungen und aktualisierte auch nicht die Statusseite. Die gesamte offizielle Kommunikation erfolgte ausschließlich über die persönlichen Social-Media-Beiträge der Ingenieure und einige wenige Reddit-Kommentare.

Wie viel haben Sie bezahlt und wie lange können Sie es nutzen?

Das GitHub-Problem #41930 sammelte Hunderte von Benutzerberichten. Der extremste Fall war ein Max 20x-Abonnent (200 US-Dollar/Monat), dessen 5-Stunden-Zeitfenster in nur 19 Minuten komplett aufgebraucht war. Nutzer von Max 5x (100 $/Monat) berichteten, dass ihr 5-Stunden-Zeitfenster in 90 Minuten aufgebraucht war. Laut The Letter Two behaupteten einige Nutzer, dass ein einfaches „Hallo“ 13 % ihres Sitzungskontingents verbrauchte. Ein Pro-Nutzer (20 $/Monat) erwähnte auf Discord, dass sein Kontingent „jeden Montag aufgebraucht war und erst samstags wieder aufgefüllt wurde“, und dass er es in 30 Tagen nur 12 Tage lang normal genutzt hatte.

Basierend auf den Benchmark-Tests von ArkNill würde in der Bugversion v2.1.89 das 100%ige Kontingent des Max 20x-Tarifs in etwa 70 Minuten aufgebraucht sein. Er berechnete auch die Kosten einer einzelnen --resume-Operation für eine 500K Token umfassende Kontextsitzung, die ungefähr 0,15 US-Dollar beträgt, da das System den gesamten Kontext vollständig neu abspielt.

„Du hältst es falsch.“

Die Untersuchung von Lydia Hallie bestätigte zwei Punkte: Erstens wurden die Beschränkungen während der Spitzenzeiten tatsächlich verschärft, und zweitens hat der Tokenverbrauch im Rahmen des 1-Million-Token-Systems zugenommen. Sie erwähnte, dass das Team einige Fehler behoben habe, betonte aber, dass „keiner der Fehler zu überhöhten Preisen geführt hat“.

Anschließend gab sie vier Spartipps:
1. Verwenden Sie Sonett 4.6 anstelle von Opus (Opus benötigt etwa doppelt so viel Zeit);

2. Reduzieren Sie die Denktiefe oder schalten Sie das erweiterte Denken ab, wenn tiefgründiges Denken nicht erforderlich ist;

3. Setzen Sie lange Leerlaufsitzungen von über einer Stunde nicht fort; beginnen Sie stattdessen eine neue;

4. Um die Größe des Kontextfensters zu begrenzen, setzen Sie die Umgebungsvariable CLAUDE_CODE_AUTO_COMPACT_WINDOW auf 200000.

Von einer Quotenanpassung oder einer Entschädigung war keine Rede.

Der Moderator des KI-Podcasts, Alex Volkov, fasste diese Reaktion mit den Worten „Ihr geht es falsch an“ zusammen und wies darauf hin, dass Anthropic selbst den Kontext von 1 Million Token als Standard festgelegt, Opus als Flaggschiffmodell beworben und erweitertes Denken als Verkaufsargument hervorgehoben hat, nun aber zahlenden Nutzern davon abrät, diese Funktionen zu nutzen.

Die Behauptung, es gäbe „keine überhöhten Preise“, steht auch im Widerspruch zu Claude Codes eigener Aktualisierungshistorie. Genau einen Tag vor Lydias Antwort wurde mit Version 2.1.90 ein Cache-Regressionsfehler behoben, der seit Version 2.1.69 bestand: Bei Verwendung von --resume zum Fortsetzen einer Sitzung führten Anfragen, die eigentlich im Cache hätten landen sollen, zu einem vollständigen Cache-Miss, was eine vollständige Abrechnung zur Folge hatte. Lydias Antwort erwähnte diese bestätigte Abrechnungsanomalie nicht.

Zum Vergleich: Auch bei OpenAIs Codex gab es zuvor ähnliche Probleme mit ungewöhnlich hohem Kontingentverbrauch. OpenAI ging so vor, dass die Benutzerkontingente zurückgesetzt, Gutschriften erstattet und im März die Aufhebung der Nutzungsbeschränkung für Codex angekündigt wurden. Anthropics Ansatz besteht darin, den Nutzern zu raten, auf ältere Modelle zurückzugreifen, Funktionen zu deaktivieren, den Kontext einzuschränken und die Verantwortung dem Nutzerverhalten zuzuschreiben.

Anthropic verkauft ein Abonnement für das "stärkste Modell + maximaler Kontext + höchste Denkfähigkeit" und verlangt dafür eine Gebühr von 20 bis 200 US-Dollar pro Monat. Ein 28-tägiger Caching-Fehler führte dazu, dass die Kontingente der zahlenden Nutzer 10- bis 20-mal schneller aufgebraucht wurden. Die offizielle Reaktion darauf war, den Dienst sparsam zu nutzen.

---Preis

Das könnte Ihnen auch gefallen

CoinGlass: Marktforschungsbericht zum Kryptowährungsmarkt im ersten Quartal 2026

Im ersten Quartal 2026 blieb der gesamte Kryptowährungsmarkt sehr aktiv, das Handelsvolumen ging jedoch vom Höchststand im Januar allmählich zurück.

Tiger Research: Analyse der aktuellen Situation von Privatanlegern in neun wichtigen asiatischen Märkten

Wir haben die Eintrittsbarrieren der größten Märkte für neun potenzielle Nutzergruppen in Asien sowie die Reaktionen der Börsen analysiert.

Forbes: Bedroht die Quantentechnologie die Verschlüsselungsindustrie? Aber es ist wahrscheinlicher, dass es eine Gelegenheit ist

Quantencomputing wird die Blockchain nicht umstürzen, aber es wird eine Rekonstruktion ihres Sicherheitssystems erzwingen.

Fast 300 Millionen Dollar für den US-Markt Zwischenwahlen: Tether-Manager leitet den zweitgrößten politischen Fonds der Kryptobranche

In der entscheidenden Phase der Gesetzgebungsverhandlungen werden politische Spenden genutzt, um die Interessen der Industrie durchzusetzen.

Anthropics dreifacher Moment: Code-Leak, Regierungskonflikt und Waffennutzung

Kann die Cybersicherheit noch bestehen, wenn KI sowohl Angreifer als auch Verteidiger ist?

Was ist Auto Earn? Wie man zusätzliche kostenlose Kryptowährungen bei Auto Earn 2026 beansprucht

Was ist Auto Earn und wie verwendet man es? Diese Anleitung erklärt, wie Auto Earn funktioniert und wie das Guthaben steigt und Empfehlungen für zusätzliche Belohnungen während des Auto Earn Boost Fest qualifizieren können.

OpenAI und Anthropic kündigten am selben Tag Übernahmen an, was zu doppelter Bedenken hinsichtlich des Börsengangs führte.

Die beiden Unternehmen haben einen Bewertungsunterschied von mehr als dem Doppelten, konkurrieren jedoch um denselben Pool an Investorengeld.

Auto Earn im Vergleich 2026: Welche Börse bietet den meisten Extra-Bonus?

Was ist Auto Earn in der Kryptowelt? Vergleichen Sie die Auto Earn-Funktionen von Kraken, OKX, Bybit, Binance und WEEX im Jahr 2026 und sehen Sie, welche Plattformen zusätzliche Werbeprämien über die Standardverdienstmechanismen hinaus bieten.

Aktuelles zum CLARITY Act 2026: Verbot von Stablecoin-Renditen, Kompromiss im Senat und was dies für die Kryptomärkte bedeutet

Der CLARITY Act könnte im Jahr 2026 die Regeln für die Rendite von Stablecoins, die Anreize im Bereich DeFi und die Liquidität im Kryptobereich neu gestalten. Informieren Sie sich über die neuesten Entwicklungen im Senat, Änderungen am Zeitplan und darüber, was die Regulierung für Krypto-Händler bedeuten könnte.

Forbes: Bedroht die Quantentechnologie die Kryptoindustrie? Aber es ist eher eine Chance.

Quantencomputing wird die Blockchain nicht umstürzen, aber es wird eine Umstrukturierung ihrer Sicherheitsvorkehrungen erzwingen.

Rhythm X Zhihu Hong Kong Event Rekrutierungsfähigkeiten, melden Sie sich jetzt an, um die Chance zu haben, live zu präsentieren

Am 21. April haben Sie, wenn Sie ebenfalls in Hongkong sind, die Möglichkeit, Ihre Fähigkeiten live zu präsentieren.

Morgenbericht | YZi Labs erhöht strategisch Investitionen in Predict.fun; Drift Protocol erleidet Angriff mit Verlusten von mindestens 200 Millionen US-Dollar; Coinbases x402 tritt der Linux Foundation bei

Die wichtigsten Marktereignisse am 2. April im Überblick

Der 590-Milliarden-Dollar-Traum: Wie fiel die weibliche Warren Buffett aus der Gnade?

Auf dem Höhepunkt ihres Erfolgs wurde sie durch ihren eigenen Erfolg zerstört.