PayGo padrão

O pagamento padrão conforme o uso (Standard PayGo) é uma opção de consumo para usar o conjunto de modelos de IA generativa da Vertex AI, incluindo as famílias de modelos Gemini e Imagen na Vertex AI. Com o Standard PayGo, você paga apenas pelos recursos consumidos, sem precisar de compromissos financeiros iniciais. Para oferecer uma performance mais previsível para cargas de trabalho escalonáveis, o Standard PayGo incorpora um sistema de níveis de uso. A Vertex AI ajusta dinamicamente a capacidade de capacidade de processamento de linha de base da sua organização com base no gasto total em serviços qualificados da Vertex AI durante um período de 30 dias. À medida que o gasto da sua organização aumenta, ela é promovida automaticamente a níveis mais altos que oferecem maior acesso a recursos compartilhados e limites de performance mais altos.

Níveis de uso e capacidade de processamento

Cada nível de uso do Standard PayGo tem como objetivo fornecer uma capacidade de processamento de linha de base, medida em tokens por minuto (TPM), que serve como um limite de performance previsível para o tráfego da sua organização. Os limites de capacidade de processamento são baseados em solicitações enviadas ao endpoint global. Usar o endpoint global é uma prática recomendada, porque ele oferece acesso a um pool maior e multirregional de capacidade de processamento e permite o roteamento de solicitações para o local com mais disponibilidade para maximizar a performance.

O tráfego não é estritamente limitado ao limite de capacidade de processamento de linha de base. A Vertex AI permite que o tráfego exceda esse limite da melhor maneira possível. No entanto, durante períodos de alta demanda na plataforma Vertex AI, esse tráfego de pico excessivo pode ter maior variabilidade na performance. Para otimizar a performance e minimizar a probabilidade de receber esses erros, também é recomendável suavizar o tráfego da maneira mais uniforme possível a cada minuto. Evite enviar solicitações em picos acentuados de segundo nível. O tráfego alto e instantâneo pode levar à limitação, mesmo que o uso médio por minuto esteja abaixo do limite. Distribuir as chamadas de API de maneira mais uniforme ajuda o sistema a gerenciar a carga de maneira previsível e melhora a performance geral.

Os seguintes níveis estão disponíveis no Standard PayGo:

Família do modelo Nível Gasto do cliente (30 dias) TPM de tráfego (nível da organização)
Modelos do Gemini Pro Nível 1 US$ 10 a US$ 250 500.000
Nível 2 US$ 250 a US$ 2.000 1.000.000
Nível 3 Acima de US$ 2.000 2.000.000
Modelos do Gemini Flash e Flash-Lite Nível 1 US$ 10 a US$ 250 2.000.000
Nível 2 US$ 250 a US$ 2.000 4.000.000
Nível 3 Acima de US$ 2.000 10.000.000

Observe que o limite de capacidade de processamento mostrado para uma família de modelos se aplica de maneira independente a cada modelo dessa família. Por exemplo, um cliente no nível 3 tem uma capacidade de processamento de linha de base de 10.000.000 TPM para o Gemini 2.5 Flash e outra capacidade de processamento de linha de base de 10.000.000 TPM para o Gemini 2.0 Flash. O uso de um desses limites não afeta a capacidade de processamento de outros modelos. Não há um limite separado de solicitações por minuto (RPM) para cada nível. No entanto, o limite do sistema de 30.000 RPM por modelo por região se aplica. As solicitações do Gemini com entradas multimodais estão sujeitas a os limites de taxa do sistema correspondentes, incluindo imagem, áudio, vídeo, e documento.

Se você precisar de maior capacidade de processamento para um caso de uso empresarial, entre em contato com a equipe da sua conta para mais informações sobre um nível personalizado.

Como os níveis de uso funcionam

O nível de uso é determinado automaticamente pelo gasto total da sua organização em serviços qualificados da Vertex AI durante um período de 30 dias. À medida que o gasto da sua organização aumenta, o sistema promove você a um nível mais alto com maior capacidade de processamento.

Cálculo de gastos

Esse cálculo inclui uma ampla variedade de serviços, desde previsões em todas as famílias de modelos do Gemini até instâncias de CPU, GPU e TPU da Vertex AI, além de SKUs baseadas em compromisso, como a capacidade de processamento provisionada.

Clique para saber mais sobre as SKUs incluídas no cálculo de gastos.

A tabela a seguir lista as categorias de Google Cloud SKUs incluídas no cálculo do gasto total.

Categoria Descrição das SKUs incluídas
Modelos do Gemini Todas as famílias de modelos do Gemini (por exemplo, 2.0, 2.5, 3.0 nas versões Pro, Flash e Lite) para previsões em todas as modalidades (texto, imagem, áudio, vídeo), incluindo variações em lote, de contexto longo, ajustadas e de "pensamento"
Recursos do modelo do Gemini Todas as SKUs do Gemini relacionadas a recursos como armazenamento em cache, armazenamento em cache e níveis de prioridade, em todas as modalidades e versões de modelo
CPU da Vertex AI Previsões on-line e em lote em todas as famílias de instâncias baseadas em CPU (por exemplo, C2, C3, E2, N1, N2 e variantes)
GPU da Vertex AI Previsões on-line e em lote em todas as instâncias aceleradas por GPU NVIDIA (por exemplo, A100, H100, H200, B200, L4, T4, V100 e série RTX)
TPU da Vertex AI Previsões on-line e em lote em todas as instâncias baseadas em TPU (por exemplo, TPU-v5e, v6e)
Gerenciamento e taxas Todas as SKUs de "taxa de gerenciamento" associadas a várias instâncias de previsão da Vertex AI
Capacidade de processamento provisionada Todas as SKUs baseadas em compromisso para capacidade de processamento provisionada
Outros serviços Serviços especializados, como "LLM Grounding for Gemini... com a ferramenta Pesquisa Google"

Verificar o nível de uso

Para verificar o nível de uso da sua organização, acesse o painel da Vertex AI no Google Cloud console.

Acessar o painel da Vertex AI

Verificar gastos

Para revisar os gastos da Vertex AI, acesse o Cloud Billing no Google Cloud console. Os gastos são agregados no nível da organização.

Acessar o Cloud Billing

Erros de recurso esgotado (429)

Se você receber um erro 429, isso não indica que você atingiu uma cota fixa. Ele indica alta contenção temporária para um recurso compartilhado específico. Recomendamos implementar uma estratégia de repetição de espera exponencial para lidar com esses erros, já que a disponibilidade nesse ambiente dinâmico pode mudar rapidamente. Além de uma estratégia de repetição, recomendamos o uso do endpoint global. Ao contrário de um endpoint regional (por exemplo, us-central1), o endpoint global encaminha dinamicamente as solicitações para a região com a maior capacidade disponível no momento. Isso permite que o aplicativo acesse um pool maior e multirregional de capacidade compartilhada, aumentando significativamente o potencial de pico bem-sucedido e reduzindo a probabilidade de erros 429.

Para melhores resultados, combine o uso do endpoint global com a suavização de tráfego. Evite enviar solicitações em picos acentuados de segundo nível, porque o tráfego alto e instantâneo pode levar à limitação, mesmo que o uso médio por minuto esteja dentro do limite de capacidade de processamento de linha de base. Distribuir as chamadas de API de maneira mais uniforme ajuda o sistema a gerenciar a carga de maneira previsível e melhora a performance geral. Para mais informações sobre como lidar com erros de esgotamento de recursos, consulte Criar aplicativos de LLM resilientes na Vertex AI e Reduzir erros 429 e Código do erro 429.

Modelos compatíveis

Os seguintes modelos do Gemini em disponibilidade geral (GA) e os modelos ajustados supervisionados são compatíveis com o Standard PayGo com níveis de uso:

Os seguintes GA e os modelos ajustados supervisionados também são compatíveis com o Standard PayGo, mas os níveis de uso não se aplicam a esses modelos:

Esses níveis não se aplicam a modelos de pré-lançamento. Consulte a documentação oficial específica de cada modelo para obter as informações mais precisas e atualizadas.

Monitorar a capacidade de processamento e a performance

Para monitorar o consumo de tokens em tempo real da sua organização, acesse o Metrics Explorer no Cloud Monitoring.

Acessar o Metrics Explorer

Para mais informações sobre como monitorar o tráfego do endpoint do modelo, consulte Monitorar modelos.

Os níveis de uso são aplicados no nível da organização. Para informações sobre como definir o escopo de observabilidade para representar a capacidade de processamento em vários projetos da sua organização, consulte Configurar escopos de observabilidade para consultas de vários projetos.

A seguir

Recurso

Cotas e limites relacionados à plataforma Vertex AI, excluindo limitações específicas do produto.

Visão geral

Saiba como o Google Cloud restringe a quantidade de um recurso que seu projeto do Google Cloud pode usar e como as cotas se aplicam a uma variedade de tipos de recursos, incluindo hardware, software e componentes de rede.