đč Quâest-ce quâune limite de dĂ©bit ?
Câest un mĂ©canisme qui contrĂŽle la quantitĂ© de requĂȘtes ou de tokens que vous pouvez envoyer Ă lâAPI Claude sur une pĂ©riode donnĂ©e, afin de prĂ©venir la surcharge du systĂšme.
đ§ź Types de limites
1. Limites basĂ©es sur les requĂȘtes
Nombre maximum de requĂȘtes par minute.
Exemple : 1000 requĂȘtes/min.
2. Limites basées sur les tokens
Limite dâentrĂ©e (tokens dans le prompt).
Limite de sortie (tokens dans la réponse).
Limite totale de tokens (entrée + sortie).
âïž Limites par dĂ©faut (organisations)
Type de limite Valeur par défaut
RequĂȘtes/min 1000
Tokens dâentrĂ©e/min 40âŻ000
Tokens de sortie/min 8âŻ000
Ces limites peuvent ĂȘtre ajustĂ©es selon les besoins de l'organisation.
đ§© Limites par espace de travail
Vous pouvez définir des limites personnalisées pour chaque espace de travail.
Utile pour éviter la surutilisation et assurer une répartition équitable des ressources.
Les limites de l'espace de travail doivent ĂȘtre infĂ©rieures ou Ă©gales aux limites de l'organisation.
â ïž Vous ne pouvez pas dĂ©finir de limite sur lâespace de travail par dĂ©faut.
đ Surveillance dans la Console Claude
La page Usage de la Claude Console permet de visualiser :
Les graphiques dâutilisation des tokens et des requĂȘtes.
Deux graphiques spécifiques :
Rate Limit - Input Tokens : entrées non mises en cache.
Rate Limit - Output Tokens : sorties.
Ces graphiques montrent la marge de croissance, les pics dâutilisation, et les limites actuelles.
đ En-tĂȘtes de rĂ©ponse
Lorsque vous faites une requĂȘte, lâAPI retourne des en-tĂȘtes utiles pour suivre vos limites :
En-tĂȘte ----> Description
1- retry-after----> Temps Ă attendre avant de Retenter.
2- anthropic-ratelimit-requests-* ----> RequĂȘtes max/remaining/reset
3- anthropic-ratelimit-tokens-* ---->Tokens max/remaining/reset
4- anthropic-ratelimit-input/output-tokens-* ----> Tokens dâentrĂ©e/sortie
anthropic-priority-* ----> Limites prioritaires (si activées)
Les en-tĂȘtes indiquent toujours la limite la plus restrictive active.
đ Mode rapide (Fast Mode)
Utilisé avec speed: "fast" sur Opus 4.8, 4.7 ou 4.6.
Des limites de débit spécifiques s'appliquent.
Si dĂ©passĂ©es : erreur 429 + en-tĂȘtes anthropic-fast-*.
đ§Ș API Rate Limits
Vous pouvez interroger programmatiquement vos limites via l'API Rate Limits.
â Bonnes pratiques
Surveillez réguliÚrement vos limites via la console.
Utilisez le cache pour réduire les tokens consommés.
Définissez des limites par espace de travail pour éviter les surcharges.
Gérez les erreurs 429 avec un mécanisme de retry avec délai.
Câest un mĂ©canisme qui contrĂŽle la quantitĂ© de requĂȘtes ou de tokens que vous pouvez envoyer Ă lâAPI Claude sur une pĂ©riode donnĂ©e, afin de prĂ©venir la surcharge du systĂšme.
đ§ź Types de limites
1. Limites basĂ©es sur les requĂȘtes
Nombre maximum de requĂȘtes par minute.
Exemple : 1000 requĂȘtes/min.
2. Limites basées sur les tokens
Limite dâentrĂ©e (tokens dans le prompt).
Limite de sortie (tokens dans la réponse).
Limite totale de tokens (entrée + sortie).
âïž Limites par dĂ©faut (organisations)
Type de limite Valeur par défaut
RequĂȘtes/min 1000
Tokens dâentrĂ©e/min 40âŻ000
Tokens de sortie/min 8âŻ000
Ces limites peuvent ĂȘtre ajustĂ©es selon les besoins de l'organisation.
đ§© Limites par espace de travail
Vous pouvez définir des limites personnalisées pour chaque espace de travail.
Utile pour éviter la surutilisation et assurer une répartition équitable des ressources.
Les limites de l'espace de travail doivent ĂȘtre infĂ©rieures ou Ă©gales aux limites de l'organisation.
â ïž Vous ne pouvez pas dĂ©finir de limite sur lâespace de travail par dĂ©faut.
đ Surveillance dans la Console Claude
La page Usage de la Claude Console permet de visualiser :
Les graphiques dâutilisation des tokens et des requĂȘtes.
Deux graphiques spécifiques :
Rate Limit - Input Tokens : entrées non mises en cache.
Rate Limit - Output Tokens : sorties.
Ces graphiques montrent la marge de croissance, les pics dâutilisation, et les limites actuelles.
đ En-tĂȘtes de rĂ©ponse
Lorsque vous faites une requĂȘte, lâAPI retourne des en-tĂȘtes utiles pour suivre vos limites :
En-tĂȘte ----> Description
1- retry-after----> Temps Ă attendre avant de Retenter.
2- anthropic-ratelimit-requests-* ----> RequĂȘtes max/remaining/reset
3- anthropic-ratelimit-tokens-* ---->Tokens max/remaining/reset
4- anthropic-ratelimit-input/output-tokens-* ----> Tokens dâentrĂ©e/sortie
anthropic-priority-* ----> Limites prioritaires (si activées)
Les en-tĂȘtes indiquent toujours la limite la plus restrictive active.
đ Mode rapide (Fast Mode)
Utilisé avec speed: "fast" sur Opus 4.8, 4.7 ou 4.6.
Des limites de débit spécifiques s'appliquent.
Si dĂ©passĂ©es : erreur 429 + en-tĂȘtes anthropic-fast-*.
đ§Ș API Rate Limits
Vous pouvez interroger programmatiquement vos limites via l'API Rate Limits.
â Bonnes pratiques
Surveillez réguliÚrement vos limites via la console.
Utilisez le cache pour réduire les tokens consommés.
Définissez des limites par espace de travail pour éviter les surcharges.
Gérez les erreurs 429 avec un mécanisme de retry avec délai.
Aucun commentaire pour l'instant.