🔹 Qu’est-ce qu’une limite de débit ?
C’est un mécanisme qui contrôle la quantité de requêtes ou de tokens que vous pouvez envoyer à l’API Claude sur une période donnée, afin de prévenir la surcharge du système.
🧮 Types de limites
1. Limites basées sur les requêtes
Nombre maximum de requêtes par minute.
Exemple : 1000 requêtes/min.
2. Limites basées sur les tokens
Limite d’entrée (tokens dans le prompt).
Limite de sortie (tokens dans la réponse).
Limite totale de tokens (entrée + sortie).
⚙️ Limites par défaut (organisations)
Type de limite Valeur par défaut
Requêtes/min 1000
Tokens d’entrée/min 40 000
Tokens de sortie/min 8 000
Ces limites peuvent être ajustées selon les besoins de l'organisation.
🧩 Limites par espace de travail
Vous pouvez définir des limites personnalisées pour chaque espace de travail.
Utile pour éviter la surutilisation et assurer une répartition équitable des ressources.
Les limites de l'espace de travail doivent être inférieures ou égales aux limites de l'organisation.
⚠️ Vous ne pouvez pas définir de limite sur l’espace de travail par défaut.
📈 Surveillance dans la Console Claude
La page Usage de la Claude Console permet de visualiser :
Les graphiques d’utilisation des tokens et des requêtes.
Deux graphiques spécifiques :
Rate Limit - Input Tokens : entrées non mises en cache.
Rate Limit - Output Tokens : sorties.
Ces graphiques montrent la marge de croissance, les pics d’utilisation, et les limites actuelles.
🛑 En-têtes de réponse
Lorsque vous faites une requête, l’API retourne des en-têtes utiles pour suivre vos limites :
En-tête ----> Description
1- retry-after----> Temps à attendre avant de Retenter.
2- anthropic-ratelimit-requests-* ----> Requêtes max/remaining/reset
3- anthropic-ratelimit-tokens-* ---->Tokens max/remaining/reset
4- anthropic-ratelimit-input/output-tokens-* ----> Tokens d’entrée/sortie
anthropic-priority-* ----> Limites prioritaires (si activées)
Les en-têtes indiquent toujours la limite la plus restrictive active.
🚀 Mode rapide (Fast Mode)
Utilisé avec speed: "fast" sur Opus 4.8, 4.7 ou 4.6.
Des limites de débit spécifiques s'appliquent.
Si dépassées : erreur 429 + en-têtes anthropic-fast-*.
🧪 API Rate Limits
Vous pouvez interroger programmatiquement vos limites via l'API Rate Limits.
✅ Bonnes pratiques
Surveillez régulièrement vos limites via la console.
Utilisez le cache pour réduire les tokens consommés.
Définissez des limites par espace de travail pour éviter les surcharges.
Gérez les erreurs 429 avec un mécanisme de retry avec délai.
C’est un mécanisme qui contrôle la quantité de requêtes ou de tokens que vous pouvez envoyer à l’API Claude sur une période donnée, afin de prévenir la surcharge du système.
🧮 Types de limites
1. Limites basées sur les requêtes
Nombre maximum de requêtes par minute.
Exemple : 1000 requêtes/min.
2. Limites basées sur les tokens
Limite d’entrée (tokens dans le prompt).
Limite de sortie (tokens dans la réponse).
Limite totale de tokens (entrée + sortie).
⚙️ Limites par défaut (organisations)
Type de limite Valeur par défaut
Requêtes/min 1000
Tokens d’entrée/min 40 000
Tokens de sortie/min 8 000
Ces limites peuvent être ajustées selon les besoins de l'organisation.
🧩 Limites par espace de travail
Vous pouvez définir des limites personnalisées pour chaque espace de travail.
Utile pour éviter la surutilisation et assurer une répartition équitable des ressources.
Les limites de l'espace de travail doivent être inférieures ou égales aux limites de l'organisation.
⚠️ Vous ne pouvez pas définir de limite sur l’espace de travail par défaut.
📈 Surveillance dans la Console Claude
La page Usage de la Claude Console permet de visualiser :
Les graphiques d’utilisation des tokens et des requêtes.
Deux graphiques spécifiques :
Rate Limit - Input Tokens : entrées non mises en cache.
Rate Limit - Output Tokens : sorties.
Ces graphiques montrent la marge de croissance, les pics d’utilisation, et les limites actuelles.
🛑 En-têtes de réponse
Lorsque vous faites une requête, l’API retourne des en-têtes utiles pour suivre vos limites :
En-tête ----> Description
1- retry-after----> Temps à attendre avant de Retenter.
2- anthropic-ratelimit-requests-* ----> Requêtes max/remaining/reset
3- anthropic-ratelimit-tokens-* ---->Tokens max/remaining/reset
4- anthropic-ratelimit-input/output-tokens-* ----> Tokens d’entrée/sortie
anthropic-priority-* ----> Limites prioritaires (si activées)
Les en-têtes indiquent toujours la limite la plus restrictive active.
🚀 Mode rapide (Fast Mode)
Utilisé avec speed: "fast" sur Opus 4.8, 4.7 ou 4.6.
Des limites de débit spécifiques s'appliquent.
Si dépassées : erreur 429 + en-têtes anthropic-fast-*.
🧪 API Rate Limits
Vous pouvez interroger programmatiquement vos limites via l'API Rate Limits.
✅ Bonnes pratiques
Surveillez régulièrement vos limites via la console.
Utilisez le cache pour réduire les tokens consommés.
Définissez des limites par espace de travail pour éviter les surcharges.
Gérez les erreurs 429 avec un mécanisme de retry avec délai.
لا توجد تعليقات بعد.