IA generativa em cotas e limites do sistema da Vertex AI

Esta página fornece uma lista de cotas por região e modelo e mostra como visualizar e editar suas cotas no Google Cloud console.

Cotas de modelos ajustados

A inferência de modelos ajustados compartilha a mesma cota do modelo base. Não há uma cota separada para a inferência de modelos ajustados.

Limites de incorporação

As solicitações de gemini-embedding-001 estão sujeitas a cotas regionais, enquanto as solicitações de gemini-embedding-2 estão sujeitas a cotas globais.
Modelo base Quota Métrica
base_model: gemini-embedding 5.000.000 aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model
base_model: gemini-embedding-2 10.000.000 aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model
base_model: gemini-embedding-2 40.000 aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model

Cotas do Vertex AI Agent Engine

As cotas a seguir se aplicam ao Vertex AI Agent Engine para um determinado projeto em cada região:
Descrição Quota Métrica
Criar, excluir ou atualizar recursos do Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Criar, excluir ou atualizar sessões do Vertex AI Agent Engine por minuto 100 aiplatform.googleapis.com/session_write_requests
Receber, listar ou recuperar sessões do Vertex AI Agent Engine por minuto 10000 aiplatform.googleapis.com/session_read_requests
Query ou StreamQuery do Vertex AI Agent Engine por minuto 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Anexar evento a sessões do Vertex AI Agent Engine por minuto 300 aiplatform.googleapis.com/session_event_append_requests
Número máximo de recursos do Vertex AI Agent Engine 100 aiplatform.googleapis.com/reasoning_engine_service_entities
Criar, excluir ou atualizar recursos de memória do Vertex AI Agent Engine por minuto 100 aiplatform.googleapis.com/memory_bank_write_requests
Receber, listar ou recuperar do Vertex AI Agent Engine Memory Bank por minuto 300 aiplatform.googleapis.com/memory_bank_read_requests
Solicitações de execução do ambiente de sandbox (execução de código) por minuto 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
Entidades do ambiente de sandbox (execução de código) por região 1000 aiplatform.googleapis.com/sandbox_environment_entities
Solicitações de gravação do ambiente de sandbox (execução de código) por minuto 500 aiplatform.googleapis.com/sandbox_environment_write_requests
Solicitações de postagem do agente A2A, como sendMessage e cancelTask, por minuto 60 aiplatform.googleapis.com/a2a_agent_post_requests
Solicitações de recebimento do agente A2A, como getTask e getCard, por minuto 600 aiplatform.googleapis.com/a2a_agent_get_requests
Conexões bidirecionais simultâneas em tempo real usando a API BidiStreamQuery por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

Previsão em lote

As cotas e os limites para jobs de inferência em lote são os mesmos em todas as regiões.

Limites de jobs de inferência em lote simultâneos para modelos do Gemini

Não há limites de cota predefinidos na inferência em lote para modelos do Gemini. Em vez disso, o serviço em lote fornece acesso a um grande pool compartilhado de recursos, alocado dinamicamente com base na disponibilidade e demanda em tempo real do modelo em todos os clientes. Quando mais clientes estão ativos e saturam a capacidade do modelo, as solicitações em lote podem ser enfileiradas para capacidade.

Cotas de jobs de inferência em lote simultâneos para modelos que não são do Gemini

A tabela a seguir lista as cotas para o número de jobs de inferência em lote simultâneos, que não se aplicam a modelos do Gemini:
Quota Valor
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
Se o número de tarefas enviadas exceder a cota alocada, elas serão colocadas em uma fila e processadas quando a capacidade da cota estiver disponível.

Visualizar e editar as cotas no Google Cloud console

Para visualizar e editar as cotas no Google Cloud console, faça o seguinte:
  1. Acesse a página Cotas e limites do sistema.
  2. Acesse Cotas e limites do sistema

  3. Para ajustar a cota, copie e cole a propriedade aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs no Filtro. Pressione Enter.
  4. Clique nos três pontos no final da linha e selecione Editar cota.
  5. Insira um novo valor de cota no painel e clique em Enviar solicitação.

Vertex AI RAG Engine

Para que cada serviço realize a geração aumentada por recuperação (RAG) usando o mecanismo RAG, as seguintes cotas se aplicam, com a cota medida como solicitações por minuto (RPM).
Serviço Quota Métrica
APIs de gerenciamento de dados do mecanismo RAG 60 RPM VertexRagDataService requests per minute per region
API RetrievalContexts 600 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1.500 RPM Online prediction requests per base model per minute per region per base_model

Um filtro adicional para você especificar é base_model: textembedding-gecko
Os seguintes limites são aplicáveis:
Serviço Limite Métrica
Solicitações simultâneas de ImportRagFiles 3 RPM VertexRagService concurrent import requests per region
Número máximo de arquivos por solicitação ImportRagFiles 10.000 VertexRagService import rag files requests per region

Para mais limites de taxa e cotas, consulte Limites de taxa da IA generativa na Vertex AI.

Serviço de avaliação de IA generativa

O serviço de avaliação de IA generativa usa o Gemini 2.5 Flash como um modelo de juiz padrão para métricas baseadas em modelo. Uma única solicitação de avaliação para uma métrica baseada em modelo pode resultar em várias solicitações subjacentes ao serviço de avaliação de IA generativa. O consumo de cada modelo é calculado no nível da organização, o que significa que todas as solicitações direcionadas ao modelo de juiz para inferência de modelo e avaliação baseada em modelo contribuem para o consumo do modelo. As cotas do serviço de avaliação de IA generativa e do modelo de juiz subjacente são mostradas na tabela a seguir:
Cota de solicitação Cota padrão
Solicitações do serviço de avaliação de IA generativa por minuto 1.000 solicitações por projeto em cada região
Taxa de transferência do Gemini Depende do modelo e da opção de consumo
Execuções de avaliação simultâneas 20 execuções de avaliação simultâneas por projeto em cada região

Se você receber um erro relacionado a cotas ao usar o serviço de avaliação de IA generativa, talvez seja necessário registrar uma solicitação de aumento de cota. Para mais informações, consulte Visualizar e gerenciar cotas.

Limite Valor
Tempo limite da solicitação de serviço de avaliação de IA generativa 60 segundos

Ao usar o serviço de avaliação de IA generativa pela primeira vez em um novo projeto, você pode ter um atraso na configuração inicial de até dois minutos. Se a primeira solicitação falhar, aguarde alguns minutos e tente novamente. As próximas solicitações de avaliação normalmente são concluídas em 60 segundos.

Os tokens máximos de entrada e saída para métricas baseadas em modelo dependem do modelo usado como modelo de juiz. Consulte Modelos do Google para uma lista de modelos.

Cotas do Vertex AI Pipelines

Cada job de ajuste usa o Vertex AI Pipelines. Para mais informações, consulte Cotas e limites do Vertex AI Pipelines.

A seguir

Visão geral

Saiba mais sobre o PayGo padrão, uma opção de consumo da Vertex AI que permite pagar apenas pelos recursos consumidos, sem exigir compromissos financeiros antecipados.

Recurso

Cotas e limites do sistema relacionados à plataforma Vertex AI, excluindo cotas e limites do sistema específicos do produto.

Visão geral

Saiba como o Google Cloud restringe a quantidade de um recurso que seu projeto na nuvem do Google Cloud pode usar e como as cotas se aplicam a uma variedade de tipos de recursos, incluindo hardware, software e componentes de rede.