IA generativa em cotas e limites do sistema da Vertex AI

Esta página fornece uma lista de cotas por região e modelo e mostra como visualizar e editar suas cotas no Google Cloud console.

Cotas de modelos ajustados

A inferência de modelos ajustados compartilha a mesma cota do modelo base. Não há uma cota separada para a inferência de modelos ajustados.

Limites de incorporação

As solicitações de gemini-embedding-001 estão sujeitas a cotas regionais, enquanto as solicitações de gemini-embedding-2 estão sujeitas a cotas globais.

Modelo base	Quota	Métrica
base_model: gemini-embedding	5.000.000	`aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	10.000.000	`aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	40.000	`aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model`

Cotas do Vertex AI Agent Engine

As cotas a seguir se aplicam ao Vertex AI Agent Engine para um determinado projeto em cada região:

Descrição	Quota	Métrica
Criar, excluir ou atualizar recursos do Vertex AI Agent Engine por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Criar, excluir ou atualizar sessões do Vertex AI Agent Engine por minuto	100	`aiplatform.googleapis.com/session_write_requests`
Receber, listar ou recuperar sessões do Vertex AI Agent Engine por minuto	10000	`aiplatform.googleapis.com/session_read_requests`
`Query` ou `StreamQuery` do Vertex AI Agent Engine por minuto	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Anexar evento a sessões do Vertex AI Agent Engine por minuto	300	`aiplatform.googleapis.com/session_event_append_requests`
Número máximo de recursos do Vertex AI Agent Engine	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Criar, excluir ou atualizar recursos de memória do Vertex AI Agent Engine por minuto	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Receber, listar ou recuperar do Vertex AI Agent Engine Memory Bank por minuto	300	`aiplatform.googleapis.com/memory_bank_read_requests`
Solicitações de execução do ambiente de sandbox (execução de código) por minuto	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
Entidades do ambiente de sandbox (execução de código) por região	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
Solicitações de gravação do ambiente de sandbox (execução de código) por minuto	500	`aiplatform.googleapis.com/sandbox_environment_write_requests`
Solicitações de postagem do agente A2A, como `sendMessage` e `cancelTask`, por minuto	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
Solicitações de recebimento do agente A2A, como `getTask` e `getCard`, por minuto	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
Conexões bidirecionais simultâneas em tempo real usando a API `BidiStreamQuery` por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

Previsão em lote

As cotas e os limites para jobs de inferência em lote são os mesmos em todas as regiões.

Limites de jobs de inferência em lote simultâneos para modelos do Gemini

Não há limites de cota predefinidos na inferência em lote para modelos do Gemini. Em vez disso, o serviço em lote fornece acesso a um grande pool compartilhado de recursos, alocado dinamicamente com base na disponibilidade e demanda em tempo real do modelo em todos os clientes. Quando mais clientes estão ativos e saturam a capacidade do modelo, as solicitações em lote podem ser enfileiradas para capacidade.

Cotas de jobs de inferência em lote simultâneos para modelos que não são do Gemini

A tabela a seguir lista as cotas para o número de jobs de inferência em lote simultâneos, que não se aplicam a modelos do Gemini:

Quota	Valor
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

Se o número de tarefas enviadas exceder a cota alocada, elas serão colocadas em uma fila e processadas quando a capacidade da cota estiver disponível.

Visualizar e editar as cotas no Google Cloud console

Para visualizar e editar as cotas no Google Cloud console, faça o seguinte:

Acesse a página Cotas e limites do sistema.

Acesse Cotas e limites do sistema

Para ajustar a cota, copie e cole a propriedade aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs no Filtro. Pressione Enter.
Clique nos três pontos no final da linha e selecione Editar cota.
Insira um novo valor de cota no painel e clique em Enviar solicitação.

Vertex AI RAG Engine

Para que cada serviço realize a geração aumentada por recuperação (RAG) usando o mecanismo RAG, as seguintes cotas se aplicam, com a cota medida como solicitações por minuto (RPM).

Serviço	Quota	Métrica
APIs de gerenciamento de dados do mecanismo RAG	60 RPM	`VertexRagDataService requests per minute per region`
API `RetrievalContexts`	600 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1.500 RPM	`Online prediction requests per base model per minute per region per base_model` Um filtro adicional para você especificar é `base_model: textembedding-gecko`

Os seguintes limites são aplicáveis:

Serviço	Limite	Métrica
Solicitações simultâneas de `ImportRagFiles`	3 RPM	`VertexRagService concurrent import requests per region`
Número máximo de arquivos por solicitação `ImportRagFiles`	10.000	`VertexRagService import rag files requests per region`

Para mais limites de taxa e cotas, consulte Limites de taxa da IA generativa na Vertex AI.

Serviço de avaliação de IA generativa

O serviço de avaliação de IA generativa usa o Gemini 2.5 Flash como um modelo de juiz padrão para métricas baseadas em modelo. Uma única solicitação de avaliação para uma métrica baseada em modelo pode resultar em várias solicitações subjacentes ao serviço de avaliação de IA generativa. O consumo de cada modelo é calculado no nível da organização, o que significa que todas as solicitações direcionadas ao modelo de juiz para inferência de modelo e avaliação baseada em modelo contribuem para o consumo do modelo. As cotas do serviço de avaliação de IA generativa e do modelo de juiz subjacente são mostradas na tabela a seguir:

Cota de solicitação	Cota padrão
Solicitações do serviço de avaliação de IA generativa por minuto	1.000 solicitações por projeto em cada região
Taxa de transferência do Gemini	Depende do modelo e da opção de consumo
Execuções de avaliação simultâneas	20 execuções de avaliação simultâneas por projeto em cada região

Se você receber um erro relacionado a cotas ao usar o serviço de avaliação de IA generativa, talvez seja necessário registrar uma solicitação de aumento de cota. Para mais informações, consulte Visualizar e gerenciar cotas.

Limite	Valor
Tempo limite da solicitação de serviço de avaliação de IA generativa	60 segundos

Ao usar o serviço de avaliação de IA generativa pela primeira vez em um novo projeto, você pode ter um atraso na configuração inicial de até dois minutos. Se a primeira solicitação falhar, aguarde alguns minutos e tente novamente. As próximas solicitações de avaliação normalmente são concluídas em 60 segundos.

Os tokens máximos de entrada e saída para métricas baseadas em modelo dependem do modelo usado como modelo de juiz. Consulte Modelos do Google para uma lista de modelos.

Cotas do Vertex AI Pipelines

Cada job de ajuste usa o Vertex AI Pipelines. Para mais informações, consulte Cotas e limites do Vertex AI Pipelines.

A seguir

Visão geral

IA generativa em cotas e limites do sistema da Vertex AI

Cotas de modelos ajustados

Limites de incorporação

Cotas do Vertex AI Agent Engine

Previsão em lote

Limites de jobs de inferência em lote simultâneos para modelos do Gemini

Cotas de jobs de inferência em lote simultâneos para modelos que não são do Gemini

Visualizar e editar as cotas no Google Cloud console

Vertex AI RAG Engine

Serviço de avaliação de IA generativa

Cotas do Vertex AI Pipelines

A seguir

PayGo padrão

Cotas e limites do sistema da Vertex AI

Cotas do Google Cloud

IA generativa em cotas e limites do sistema da Vertex AI Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Cotas de modelos ajustados

Limites de incorporação

Cotas do Vertex AI Agent Engine

Previsão em lote

Limites de jobs de inferência em lote simultâneos para modelos do Gemini

Cotas de jobs de inferência em lote simultâneos para modelos que não são do Gemini

Visualizar e editar as cotas no Google Cloud console

Vertex AI RAG Engine

Serviço de avaliação de IA generativa

Cotas do Vertex AI Pipelines

A seguir

PayGo padrão

Cotas e limites do sistema da Vertex AI

Cotas do Google Cloud

IA generativa em cotas e limites do sistema da Vertex AI