Квоты и ограничения службы Azure OpenAI

Статья
10/23/2024

В этой статье содержится краткий справочник и подробное описание квот и ограничений для Azure OpenAI в службах ИИ Azure.

Справочник по квотам и ограничениям

В следующих разделах приведены краткие инструкции по квотам по умолчанию и ограничениям, которые применяются к Azure OpenAI:

Имя ограничения	Значение ограничения
Ресурсы OpenAI для каждого региона на подписку Azure	30
Ограничения квоты DALL-E 2 по умолчанию	2 параллельных запроса
Ограничения квоты DALL-E по умолчанию	2 единицы емкости (6 запросов в минуту)
Ограничения квоты Whisper по умолчанию	3 запроса в минуту
Максимальное количество маркеров запроса на запрос	Зависит от модели. Дополнительные сведения см. в разделе "Модели службы Azure OpenAI"
Максимальное количество развертываний уровня "Стандартный" для каждого ресурса	32
Максимальное число развертываний модели точной настройки	5
Общее количество заданий обучения на ресурс	100
Максимальное число одновременных заданий обучения на ресурс	1
Максимальное число заданий обучения в очереди	20
Максимальное количество файлов на ресурс (настройка)	50
Общий размер всех файлов на ресурс (точная настройка)	1 ГБ
Максимальное время задания обучения (задание завершится ошибкой при превышении)	720 часов
Максимальный размер задания обучения (токены в файле обучения) x (# эпохи)	2 млрд
Максимальный размер всех файлов на отправку (Azure OpenAI в данных)	16 МБ
Максимальное число или входные данные в массиве с `/embeddings`	2048
Максимальное `/chat/completions` количество сообщений	2048
Максимальное `/chat/completions` число функций	128
Максимальное `/chat completions` количество инструментов	128
Максимальное количество единиц подготовленной пропускной способности на развертывание	100,000
Максимальное количество файлов на помощника или потока	10 000 при использовании API или AI Studio. 20 при использовании Azure OpenAI Studio.
Максимальный размер файла для помощников и точной настройки	512 МБ
Максимальный размер всех отправленных файлов для помощников	100 ГБ
Ограничение маркера помощников	2 000 000 маркеров
GPT-4o max images per request (#of images in the messages array/conversation history)	10
Максимальные токены GPT-4 `vision-preview` и GPT-4 `turbo-2024-04-09`	16 `max_tokens` Увеличьте значение параметра, чтобы избежать усеченных ответов. Максимальные маркеры GPT-4o по умолчанию — 4096.
Максимальное число пользовательских заголовков в запросах^{API 1}	10

¹ Наши текущие API позволяют до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Мы заметили, что некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки не существует решения, кроме уменьшения объема заголовка. В будущих версиях API мы больше не будем передавать пользовательские заголовки. Мы рекомендуем клиентам не зависеть от пользовательских заголовков в будущих системных архитектурах.

Ограничения региональной квоты

Область/регион	o1-mini	o1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Instruct	o1-mini - GlobalStandard	o1 — GlobalStandard	gpt-4o — GlobalStandard	gpt-4o-mini - GlobalStandard	GPT-4-Turbo — GlobalStandard	GPT-4o — global-Batch	GPT-4o-mini - Global-Batch	GPT-4 — глобальная пакетная служба	GPT-4-Turbo — глобальная пакетная служба	gpt-35-turbo - Global-Batch	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	GPT-4o - finetune	GPT-4o-mini - finetune	GPT-4 — finetune	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune
australiaeast	-	-	40 тыс.	80 K	80 K	30 K	-	-	300 K	-	-	-	30 М	50 М	2 млн	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	-	-	-	-	30 М	50 М	2 млн	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40 тыс.	80 K	80 K	-	-	-	300 K	-	-	-	30 М	50 М	2 млн	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus	1 млн	600 K	-	-	80 K	-	1 млн	2 млн	240 K	240 K	50 М	30 М	30 М	50 М	2 млн	5 B	15 B	150 М	300 М	10 B	240 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus2	1 млн	600 K	-	-	80 K	-	1 млн	2 млн	300 K	-	50 М	30 М	30 М	50 М	2 млн	-	-	-	-	-	350 K	350 K	350 K	250 K	-	-	-	-	-	-	250 K	250 K	250 K
francecentral	-	-	20 тыс.	60 K	80 K	-	-	-	240 K	-	-	-	30 М	50 М	2 млн	-	-	-	-	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 М	50 М	2 млн	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	-	-	30 K	-	-	300 K	-	-	-	30 М	50 М	2 млн	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 М	50 М	2 млн	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1 млн	600 K	-	-	80 K	-	1 млн	2 млн	300 K	-	50 М	30 М	30 М	50 М	2 млн	-	-	-	-	-	350 K	-	-	250 K	500 тыс.	100 тыс.	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	-	-	150 K	-	-	-	-	-	-	-	30 М	50 М	2 млн	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
польшацентральная	-	-	-	-	-	-	-	-	-	-	-	-	30 М	50 М	2 млн	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	30 М	50 М	2 млн	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
southcentralus	1 млн	600 K	-	-	80 K	-	1 млн	2 млн	240 K	-	50 М	30 М	30 М	50 М	2 млн	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150 K	-	-	-	300 K	-	-	-	30 М	50 М	2 млн	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
spaincentral	-	-	-	-	-	-	-	-	-	-	-	-	30 М	50 М	2 млн	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
swedencentral	1 млн	600 K	40 тыс.	80 K	150 K	30 K	1 млн	2 млн	300 K	240 K	50 М	30 М	30 М	50 М	2 млн	5 B	15 B	150 М	300 М	10 B	350 K	-	350 K	250 K	500 тыс.	100 тыс.	240 K	250 K	240 K	250 K	250 K	250 K	250 K
switzerlandnorth	-	-	40 тыс.	80 K	-	30 K	-	-	300 K	-	-	-	30 М	50 М	2 млн	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	-	-	80 K	-	-	-	240 K	-	-	-	30 М	50 М	2 млн	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	-	240 K	-	-	-	30 М	50 М	2 млн	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
westus	1 млн	600 K	-	-	80 K	30 K	1 млн	2 млн	300 K	-	50 М	30 М	30 М	50 М	2 млн	5 B	15 B	150 М	300 М	10 B	350 K	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1 млн	600 K	-	-	80 K	-	1 млн	2 млн	300 K	-	50 М	30 М	30 М	50 М	2 млн	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-

Глобальные ограничения пакетной службы

Имя ограничения	Значение ограничения
Максимальное количество файлов на ресурс	500
Максимальный размер входного файла	200 МБ
Максимальное количество запросов на файл	100,000

Глобальная квота пакетной службы

В таблице показан предел квоты пакетной службы. Значения квот для глобального пакета представлены с точки зрения закрепленных маркеров. При отправке файла для пакетной обработки количество маркеров, присутствующих в файле, учитывается. До тех пор, пока пакетное задание не достигнет состояния терминала, эти маркеры будут учитываться в отношении общего лимита, затраченного на маркер.

Модель	Соглашение Enterprise	По умолчанию.	Ежемесячные подписки на основе кредитной карты	Подписки MSDN	Azure для учащихся, бесплатные пробные версии
`gpt-4o`	5 B	200 М	50 М	90 K	Н/П
`gpt-4o-mini`	15 B	1 B	50 М	90 K	Н/П
`gpt-4-turbo`	300 М	80 М	40 М	90 K	Н/П
`gpt-4`	150 М	30 М	5 М	100 тыс.	Н/П
`gpt-35-turbo`	10 B	1 B	100 М	2 млн	50 тыс

B = миллиард | M = миллион | K = тысяча

ограничения скорости o1-preview и o1-mini

Внимание

Соотношение RPM/TPM для квоты с моделями серии o1 отличается от старых моделей завершения чата:

Старые модели чата: 1 единица емкости = 6 RPM и 1000 TPM.
o1-preview: 1 единица емкости = 1 RPM и 6000 TPM.
o1-mini: 1 единица емкости = 1 RPM на 10 000 TPM.

Это особенно важно для развертывания программной модели, так как это изменение в соотношении RPM/TPM может привести к случайному выделению квоты, если оно по-прежнему предполагает соотношение 1:1000, за которым следует более старые модели завершения чата.

Существует известная проблема с API квот и использования, где предполагается, что старое соотношение применяется к новым моделям серии o1. API возвращает правильный базовый номер емкости, но не применяет правильное соотношение для точного вычисления доверенного платформенного модуля.

o1-preview и o1-mini global standard

Модель	Уровень	Ограничение квоты в маркерах в минуту (TPM)	Число запросов в минуту
`o1-preview`	Соглашение Enterprise	30 М	5000
`o1-mini`	Соглашение Enterprise	50 М	5000
`o1-preview`	По умолчанию.	3 М	500
`o1-mini`	По умолчанию.	5 М	500

o1-preview и o1-mini standard

Модель	Уровень	Ограничение квоты в маркерах в минуту (TPM)	Число запросов в минуту
`o1-preview`	Соглашение Enterprise	600 K	100
`o1-mini`	Соглашение Enterprise	1 млн	100
`o1-preview`	По умолчанию.	300 K	50
`o1-mini`	По умолчанию.	500 тыс.	50

Ограничения скорости gpt-4o и GPT-4 Turbo

gpt-4oи gpt-4o-minigpt-4 (turbo-2024-04-09) имеют уровни ограничений скорости с более высокими ограничениями для определенных типов клиентов.

gpt-4o и GPT-4 Turbo global standard

Модель	Уровень	Ограничение квоты в маркерах в минуту (TPM)	Число запросов в минуту
`gpt-4o`	Соглашение Enterprise	30 М	180 K
`gpt-4o-mini`	Соглашение Enterprise	50 М	300 K
`gpt-4` (turbo-2024-04-09)	Соглашение Enterprise	2 млн	12 тыс.
`gpt-4o`	По умолчанию.	450 K	2.7 K
`gpt-4o-mini`	По умолчанию.	2 млн	12 тыс.
`gpt-4` (turbo-2024-04-09)	По умолчанию.	450 K	2.7 K

M = миллион | K = тысяча

Стандарт зоны данных gpt-4o

Модель	Уровень	Ограничение квоты в маркерах в минуту (TPM)	Число запросов в минуту
`gpt-4o`	Соглашение Enterprise	10 М	60 K
`gpt-4o-mini`	Соглашение Enterprise	20 млн.	120 K
`gpt-4o`	По умолчанию.	300 K	1.8 K
`gpt-4o-mini`	По умолчанию.	1 млн	6 тыс.

M = миллион | K = тысяча

gpt-4o standard

Модель	Уровень	Ограничение квоты в маркерах в минуту (TPM)	Число запросов в минуту
`gpt-4o`	Соглашение Enterprise	1 млн	6 тыс.
`gpt-4o-mini`	Соглашение Enterprise	2 млн	12 тыс.
`gpt-4o`	По умолчанию.	150 K	900
`gpt-4o-mini`	По умолчанию.	450 K	2.7 K

M = миллион | K = тысяча

Уровни использования

Глобальные стандартные развертывания используют глобальную инфраструктуру Azure, динамически маршрутизацию трафика клиентов в центр обработки данных с наилучшей доступностью для запросов вывода клиента. Аналогичным образом развертывания стандартной зоны данных позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных в пределах определенной корпорацией Майкрософт зоны данных с оптимальной доступностью для каждого запроса. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть более вариативность в задержке ответа.

Ограничение использования определяет уровень использования выше, чем клиенты могут видеть большую вариативность в задержке ответа. Использование клиента определяется для каждой модели и является общими маркерами, используемыми во всех развертываниях во всех подписках во всех регионах для данного клиента.

Примечание.

Уровни использования применяются только к стандартным типам развертывания, зонам данных и глобальным типам развертывания уровня "Стандартный". Уровни использования не применяются к глобальным пакетам и подготовленным развертываниям пропускной способности.

GPT-4o global standard, data zone standard, &standard

Модель	Уровни использования в месяц
`gpt-4o`	12 миллиардов токенов
`gpt-4o-mini`	85 миллиардов токенов

Стандарт GPT-4

Модель	Уровни использования в месяц
`gpt-4` + `gpt-4-32k` (все версии)	6 миллиардов

Другие типы предложений

Если подписка Azure связана с определенными типами предложений, максимальные значения квоты ниже значений, указанных в приведенных выше таблицах.

Уровень	Ограничение квоты в маркерах в минуту (TPM)
Azure для учащихся, бесплатные пробные версии	1 K (все модели)
Подписки MSDN	GPT 3.5 Turbo Series: 30 K Серия GPT-4: 8 K
Ежемесячные ^{подписки на основе кредитной карты 1}	GPT 3.5 Turbo Series: 30 K Серия GPT-4: 8 K

¹ Это применимо к типу предложения 0003P

В портал Azure вы можете просмотреть тип предложения, связанный с подпиской, перейдя к подписке и проверив панель обзора подписок. Тип предложения соответствует полю плана в обзоре подписки.

Общие рекомендации по остаться в пределах ограничений скорости

Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:

Реализуйте в приложении логику повторных попыток.
Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
Протестируйте различные шаблоны увеличения нагрузки.
Увеличьте квоту, назначенную развертыванию. При необходимости переместите квоту из другого развертывания.

Как запросить увеличение квот и ограничений по умолчанию

Запросы на увеличение квот можно отправить на странице "Квоты " в Azure AI Studio. Обратите внимание, что из-за подавляющего спроса запросы на увеличение квот принимаются и будут заполнены в порядке их получения. Приоритет будет предоставлен клиентам, которые создают трафик, который потребляет существующее выделение квот, и ваш запрос может быть отклонен, если это условие не выполнено.

Для других ограничений скорости отправьте запрос на обслуживание.

Следующие шаги

Узнайте, как управлять квотой для развертываний Azure OpenAI. Ознакомьтесь с дополнительными сведениями о базовых моделях, лежащих в основе Azure OpenAI.

Поделиться через

Квоты и ограничения службы Azure OpenAI

Справочник по квотам и ограничениям

Ограничения региональной квоты

Глобальные ограничения пакетной службы

Глобальная квота пакетной службы

ограничения скорости o1-preview и o1-mini

o1-preview и o1-mini global standard

o1-preview и o1-mini standard

Ограничения скорости gpt-4o и GPT-4 Turbo

gpt-4o и GPT-4 Turbo global standard

Стандарт зоны данных gpt-4o

gpt-4o standard

Уровни использования

GPT-4o global standard, data zone standard, &standard

Стандарт GPT-4

Другие типы предложений

Общие рекомендации по остаться в пределах ограничений скорости

Как запросить увеличение квот и ограничений по умолчанию

Следующие шаги

Обратная связь

Дополнительные ресурсы