Esta página fornece uma lista de cotas por região e modelo e mostra como visualizar e editar suas cotas no Google Cloud console.
Cotas de modelos ajustados
A inferência de modelos ajustados compartilha a mesma cota do modelo base. Não há uma cota separada para a inferência de modelos ajustados.
Limites de incorporação
As solicitações degemini-embedding-001 estão sujeitas a cotas regionais, enquanto as solicitações de gemini-embedding-2 estão sujeitas a cotas globais.
| Modelo base | Quota | Métrica |
|---|---|---|
| base_model: gemini-embedding | 5.000.000 | aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model |
| base_model: gemini-embedding-2 | 10.000.000 | aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model |
| base_model: gemini-embedding-2 | 40.000 | aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model |
Cotas do Vertex AI Agent Engine
As cotas a seguir se aplicam ao Vertex AI Agent Engine para um determinado projeto em cada região:| Descrição | Quota | Métrica |
|---|---|---|
| Criar, excluir ou atualizar recursos do Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Criar, excluir ou atualizar sessões do Vertex AI Agent Engine por minuto | 100 | aiplatform.googleapis.com/session_write_requests |
| Receber, listar ou recuperar sessões do Vertex AI Agent Engine por minuto | 10000 | aiplatform.googleapis.com/session_read_requests |
Query ou StreamQuery do Vertex AI Agent Engine por minuto |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Anexar evento a sessões do Vertex AI Agent Engine por minuto | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Número máximo de recursos do Vertex AI Agent Engine | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Criar, excluir ou atualizar recursos de memória do Vertex AI Agent Engine por minuto | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Receber, listar ou recuperar do Vertex AI Agent Engine Memory Bank por minuto | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Solicitações de execução do ambiente de sandbox (execução de código) por minuto | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entidades do ambiente de sandbox (execução de código) por região | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
| Solicitações de gravação do ambiente de sandbox (execução de código) por minuto | 500 | aiplatform.googleapis.com/sandbox_environment_write_requests |
Solicitações de postagem do agente A2A, como sendMessage e cancelTask, por minuto |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
Solicitações de recebimento do agente A2A, como getTask e getCard, por minuto |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Conexões bidirecionais simultâneas em tempo real usando a API BidiStreamQuery por minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
Previsão em lote
As cotas e os limites para jobs de inferência em lote são os mesmos em todas as regiões.Limites de jobs de inferência em lote simultâneos para modelos do Gemini
Não há limites de cota predefinidos na inferência em lote para modelos do Gemini. Em vez disso, o serviço em lote fornece acesso a um grande pool compartilhado de recursos, alocado dinamicamente com base na disponibilidade e demanda em tempo real do modelo em todos os clientes. Quando mais clientes estão ativos e saturam a capacidade do modelo, as solicitações em lote podem ser enfileiradas para capacidade.Cotas de jobs de inferência em lote simultâneos para modelos que não são do Gemini
A tabela a seguir lista as cotas para o número de jobs de inferência em lote simultâneos, que não se aplicam a modelos do Gemini:| Quota | Valor |
|---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Visualizar e editar as cotas no Google Cloud console
Para visualizar e editar as cotas no Google Cloud console, faça o seguinte:- Acesse a página Cotas e limites do sistema.
- Para ajustar a cota, copie e cole a propriedade
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobsno Filtro. Pressione Enter. - Clique nos três pontos no final da linha e selecione Editar cota.
- Insira um novo valor de cota no painel e clique em Enviar solicitação.
Acesse Cotas e limites do sistema
Vertex AI RAG Engine
Para que cada serviço realize a geração aumentada por recuperação (RAG) usando o mecanismo RAG, as seguintes cotas se aplicam, com a cota medida como solicitações por minuto (RPM).| Serviço | Quota | Métrica |
|---|---|---|
| APIs de gerenciamento de dados do mecanismo RAG | 60 RPM | VertexRagDataService requests per minute per region |
API RetrievalContexts |
600 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1.500 RPM | Online prediction requests per base model per minute per region per base_modelUm filtro adicional para você especificar é base_model: textembedding-gecko |
| Serviço | Limite | Métrica |
|---|---|---|
Solicitações simultâneas de ImportRagFiles |
3 RPM | VertexRagService concurrent import requests per region |
Número máximo de arquivos por solicitação ImportRagFiles |
10.000 | VertexRagService import rag files requests per region |
Para mais limites de taxa e cotas, consulte Limites de taxa da IA generativa na Vertex AI.
Serviço de avaliação de IA generativa
O serviço de avaliação de IA generativa usa o Gemini 2.5 Flash como um modelo de juiz padrão para métricas baseadas em modelo. Uma única solicitação de avaliação para uma métrica baseada em modelo pode resultar em várias solicitações subjacentes ao serviço de avaliação de IA generativa. O consumo de cada modelo é calculado no nível da organização, o que significa que todas as solicitações direcionadas ao modelo de juiz para inferência de modelo e avaliação baseada em modelo contribuem para o consumo do modelo. As cotas do serviço de avaliação de IA generativa e do modelo de juiz subjacente são mostradas na tabela a seguir:| Cota de solicitação | Cota padrão |
|---|---|
| Solicitações do serviço de avaliação de IA generativa por minuto | 1.000 solicitações por projeto em cada região |
| Taxa de transferência do Gemini | Depende do modelo e da opção de consumo |
| Execuções de avaliação simultâneas | 20 execuções de avaliação simultâneas por projeto em cada região |
Se você receber um erro relacionado a cotas ao usar o serviço de avaliação de IA generativa, talvez seja necessário registrar uma solicitação de aumento de cota. Para mais informações, consulte Visualizar e gerenciar cotas.
| Limite | Valor |
|---|---|
| Tempo limite da solicitação de serviço de avaliação de IA generativa | 60 segundos |
Ao usar o serviço de avaliação de IA generativa pela primeira vez em um novo projeto, você pode ter um atraso na configuração inicial de até dois minutos. Se a primeira solicitação falhar, aguarde alguns minutos e tente novamente. As próximas solicitações de avaliação normalmente são concluídas em 60 segundos.
Os tokens máximos de entrada e saída para métricas baseadas em modelo dependem do modelo usado como modelo de juiz. Consulte Modelos do Google para uma lista de modelos.
Cotas do Vertex AI Pipelines
Cada job de ajuste usa o Vertex AI Pipelines. Para mais informações, consulte Cotas e limites do Vertex AI Pipelines.
A seguir
PayGo padrão
Saiba mais sobre o PayGo padrão, uma opção de consumo da Vertex AI que permite pagar apenas pelos recursos consumidos, sem exigir compromissos financeiros antecipados.
Cotas e limites do sistema da Vertex AI
Cotas e limites do sistema relacionados à plataforma Vertex AI, excluindo cotas e limites do sistema específicos do produto.
Cotas do Google Cloud
Saiba como o Google Cloud restringe a quantidade de um recurso que seu projeto na nuvem do Google Cloud pode usar e como as cotas se aplicam a uma variedade de tipos de recursos, incluindo hardware, software e componentes de rede.