Key Takeaways
- O AutoDL é a nuvem de GPU chinesa mais barata — A100 40 GB a partir de ¥2,5/h (spot), ¥4,5/h (sob demanda). Ideal para desenvolvimento e fine-tuning em rajada.
- O Alibaba Cloud PAI tem ambientes de inferência Qwen pré-configurados que funcionam 20–30% mais rápido que o Ollama padrão; é necessário para integrações com o ecossistema Tongyi do Alibaba Cloud.
- O Tencent Cloud TI Platform oferece a integração mais profunda com o WeChat e o ecossistema Tencent; ideal para equipes que criam Mini Programas do WeChat com recursos de IA.
- Os três provedores oferecem residência de dados na China continental — fundamental para a conformidade com a Lei de Proteção de Informações Pessoais (PIPL).
- Promoções para novas contas: o Alibaba Cloud oferece ¥300 de crédito gratuito; o AutoDL oferece ¥10 de crédito de GPU gratuito (suficiente para 2–4 horas de testes com A100).
- Para desenvolvedores ocidentais que acessam a nuvem chinesa: o Alibaba Cloud International aceita cartões de crédito internacionais e console em inglês; AutoDL e Tencent Cloud exigem cartões bancários chineses ou Alipay.
- O Qwen3 72B roda mais rápido no Alibaba Cloud PAI graças ao runtime de inferência otimizado para Qwen da equipe da Alibaba DAMO Academy.
O AutoDL é a nuvem de GPU chinesa mais barata (¥2,5–4,5/h para um A100 40 GB); o Alibaba Cloud PAI oferece o melhor desempenho de inferência Qwen; o Tencent Cloud TI é a melhor opção para o ecossistema WeChat.
As nuvens de GPU chinesas são como AWS/GCP, mas com servidores dentro da China, mais baratas por hora para cargas de trabalho chinesas e em conformidade com as leis de dados chinesas. O AutoDL é a opção para startups; Alibaba e Tencent são de nível empresarial.
Descrição dos provedores
Três plataformas dominam o aluguel de GPU em nuvem chinesa para cargas de trabalho de IA: AutoDL (voltado a desenvolvedores, o mais barato), Alibaba Cloud PAI (empresarial, otimizado para Qwen) e Tencent Cloud TI Platform (ecossistema WeChat). Uma quarta opção, o Baidu AI Cloud, se destaca pela integração com o ERNIE, mas geralmente custa mais e oferece menos variedade de GPU.
- AutoDL (autodl.com): Nuvem de GPU voltada à comunidade, fundada em 2020, dominante entre pesquisadores individuais e startups. Maior inventário de GPU na China. Suporta RTX 4090, A100, H100. Pagamento: Alipay/WeChat Pay. Sem contratos empresariais necessários. O console está apenas em chinês.
- Alibaba Cloud PAI (aliyun.com/product/bigdata/learn): Plataforma de ML empresarial com inferência otimizada para Qwen. Pertence ao Grupo Alibaba — a mesma empresa por trás dos modelos Qwen. Integração profunda com o ecossistema Alibaba (DingTalk, conjuntos de dados do Taobao, armazenamento OSS). Cartões de crédito internacionais aceitos pelo portal internacional do Alibaba Cloud.
- Tencent Cloud TI Platform (cloud.tencent.com/product/tione): Plataforma de ML integrada com WeChat, WeCom e os conjuntos de dados de games/mídia da Tencent. Ideal para equipes que criam produtos de IA para o consumidor no ecossistema Tencent. O Hunyuan LLM é nativo desta plataforma.
- Baidu AI Cloud (qianfan.cloud.baidu.com): Integrado ao ERNIE Bot e ao ecossistema de busca do Baidu. Competitivo para IA documental e fluxos com busca aumentada, mas o preço de aluguel de GPU é 15–30% mais alto que o do AutoDL para hardware equivalente.
Comparativo de preços de GPU — maio 2026
O AutoDL é consistentemente o mais barato; o Alibaba Cloud PAI custa 40–80% mais, mas inclui uma pilha de software otimizada; o Tencent Cloud TI fica na faixa intermediária. Todos os preços em CNY (¥). USD aproximado a ¥7,25/USD.
| GPU | AutoDL (spot) | AutoDL (sob demanda) | Alibaba PAI | Tencent Cloud TI | Equivalente USD (AutoDL sob demanda) |
|---|---|---|---|---|---|
| RTX 4090 24 GB | ¥1,5–2,5/h | ¥3,5/h | N/D | N/D | ~US$ 0,48/h |
| A10 24 GB | ¥1,8–3/h | ¥4/h | ¥3,5–5/h | ¥3,5–5/h | ~US$ 0,55/h |
| A100 40 GB | ¥2,5–4/h | ¥4,5/h | ¥6–8/h | ¥5,5–7/h | ~US$ 0,62/h |
| A100 80 GB | ¥4–6/h | ¥7/h | ¥8–12/h | ¥7,5–10/h | ~US$ 0,97/h |
| H100 80 GB | ¥8–12/h | ¥14/h | ¥18–25/h | ¥18–24/h | ~US$ 1,93/h |
Preços obtidos nos consoles dos provedores em maio 2026. Os preços spot variam conforme a hora do dia — os mais baratos ocorrem entre a meia-noite e as 6h, horário de Pequim. Os preços spot do AutoDL podem ficar 40–60% abaixo do preço sob demanda.
Desempenho de inferência Qwen por provedor
O Alibaba Cloud PAI executa modelos Qwen 20–30% mais rápido que hardware equivalente em outras plataformas. A vantagem de desempenho vem do runtime de inferência PAI-EAS, codesenvolvido pela equipe Qwen na Alibaba DAMO Academy. É a mesma equipe que treina o Qwen — ela tem acesso aos internos do modelo que provedores externos não têm.
| Plataforma | GPU | Velocidade Qwen3 72B (tok/s) | Latência (primeiro token) | Notas |
|---|---|---|---|---|
| Alibaba Cloud PAI (PAI-EAS) | A100 80 GB | 22–28 tok/s | ~120ms | Runtime otimizado para Qwen, FlashAttention 3 |
| AutoDL (Ollama) | A100 80 GB | 16–20 tok/s | ~180ms | Stack Ollama padrão, sem otimização |
| AutoDL (vLLM) | A100 80 GB | 19–24 tok/s | ~150ms | vLLM com quantização AWQ |
| Tencent Cloud TI (vLLM) | A100 80 GB | 17–22 tok/s | ~160ms | Stack vLLM padrão |
| RunPod (ocidental, A100 80 GB) | A100 80 GB | 15–18 tok/s | ~200ms | Maior latência por roteamento transpacífico |
Residência de dados e conformidade com a PIPL
Os três provedores chineses armazenam dados dentro da China continental por padrão — uma vantagem-chave sobre os provedores ocidentais para cargas reguladas pela PIPL. A Lei de Proteção de Informações Pessoais da China (PIPL) restringe a transferência de dados pessoais para fora da China sem consentimento explícito do usuário e um mecanismo legal separado.
- AutoDL: Todos os dados armazenados na China continental (data centers em Pequim, Xangai, Guangzhou). Sem SLA empresarial formal, mas adequado para a maioria das cargas de pesquisa e startups.
- Alibaba Cloud PAI: SLA empresarial completo com garantias de residência de dados. Regiões específicas selecionáveis (cn-beijing, cn-hangzhou, cn-shanghai). Documentação de conformidade com a PIPL disponível.
- Tencent Cloud TI: SLA empresarial, residência de dados na China. A integração de dados do WeChat exige um acordo separado com a Plataforma Aberta do WeChat.
- Nenhum desses provedores permite exportar dados para suas regiões internacionais sem configuração explícita — o comportamento padrão é residência na China.
- Para desenvolvedores internacionais que usam a nuvem chinesa para produtos voltados à China: o Alibaba Cloud International oferece o processo de cadastro mais simples, com console em inglês e pagamento internacional.
Tutoriais de configuração — início rápido para cada provedor
Cada provedor tem um processo de cadastro diferente. O AutoDL é o mais rápido (5 minutos até a primeira GPU); o Alibaba Cloud PAI exige mais configuração, mas o ambiente otimizado para Qwen vale a pena.
- 1AutoDL: Cadastre-se em autodl.com com Alipay/WeChat Pay → Selecione a instância de GPU → Clone o ambiente Qwen das imagens Docker da comunidade
Why it matters: A comunidade do AutoDL hospeda imagens Docker pré-compiladas para Qwen — economiza mais de 30 minutos de configuração do ambiente. - 2Alibaba Cloud PAI: Cadastre-se em aliyun.com (ou intl.aliyun.com para internacional) → Ative o serviço PAI → Inicie o notebook DSW → Selecione o ambiente de início rápido para Qwen
Why it matters: O PAI-EAS tem implantação de Qwen com um clique que seleciona automaticamente o runtime otimizado. - 3Tencent Cloud TI: Cadastre-se em cloud.tencent.com → Ative o TI Platform → Crie uma instância de notebook → Use os templates oficiais de Jupyter para Qwen/Hunyuan da Tencent
Why it matters: Os templates de Jupyter da Tencent incluem integração pré-configurada com a API do WeChat para projetos de chatbot.
Veredito: qual nuvem de GPU chinesa escolher conforme seu caso de uso
Escolha conforme sua carga de trabalho principal — não por qual provedor é "o melhor" no geral.
Decisão de GPU em nuvem chinesa
Use a local LLM if:
- •Fine-tuning em rajada econômico ou desenvolvimento: AutoDL — o mais barato por hora de GPU, cadastro mais rápido
- •Inferência de modelos Qwen em produção: Alibaba Cloud PAI — runtime 20–30% mais rápido, mesma família de modelos
- •Integração de Mini Programa WeChat ou IA com WeCom: Tencent Cloud TI — integração nativa com a API do WeChat
- •Inferência compatível com a PIPL para produtos voltados à China: qualquer um dos três — todos armazenam dados na China
Use a cloud model if:
- •Equipe internacional sem presença na China: use RunPod, Vast.ai ou Lambda Labs — pagamento mais simples e console apenas em inglês
- •Integração com a busca do Baidu ou o modelo ERNIE: Baidu AI Cloud Qianfan — runtime nativo para o ERNIE
- •Trabalhos de treinamento de longa duração com SLA de GPU: Alibaba Cloud PAI ou Tencent Cloud TI (ambos têm SLAs empresariais)
Quick decision:
- →GPU mais barata: AutoDL (A100 40 GB, ¥2,5/h spot)
- →Melhor inferência Qwen: Alibaba Cloud PAI
- →Melhor integração WeChat: Tencent Cloud TI
- →Cadastro internacional: Alibaba Cloud International
Guias relacionados
- Comparativo de GPU em nuvem ocidental: /pt/local-llms/cloud-gpu-rental-comparison-2026
- Guia de implantação do Qwen: /pt/power-local-llm/qwen-local-deployment-complete-guide-2026
- Calculadora de custos (montar vs alugar): /pt/local-llms/local-llm-cost-calculator-build-vs-rent-2026
Perguntas frequentes
Posso usar o Alibaba Cloud GPU de fora da China?
Sim. O Alibaba Cloud International (intl.aliyun.com) aceita cartões de crédito internacionais (Visa, Mastercard, American Express) e oferece um console em inglês. Observe que o portal internacional e o portal doméstico chinês têm contas separadas e preços distintos — o portal internacional é um pouco mais caro, mas mais fácil de configurar para usuários não chineses.
O AutoDL é confiável o suficiente para inferência em produção?
O AutoDL foi projetado para pesquisa e desenvolvimento, não para inferência de nível produtivo. Faltam SLAs formais e as instâncias spot podem ser interrompidas com pouco aviso. Para inferência em produção com disponibilidade garantida, use Alibaba Cloud PAI ou Tencent Cloud TI com instâncias sob demanda. O AutoDL é ideal para execuções de fine-tuning, desenvolvimento e processamento em lote sensível a custo, em que interrupções ocasionais são aceitáveis.
Como a inferência Qwen do Alibaba Cloud se compara a rodar o Ollama por conta própria?
O Alibaba Cloud PAI-EAS executa o Qwen 20–30% mais rápido que o Ollama padrão em hardware equivalente (testado: A100 80 GB, Qwen3 72B). A aceleração vem do runtime de inferência PAI-EAS desenvolvido pela equipe Qwen da Alibaba DAMO Academy, que inclui otimizações específicas do Qwen como kernels de atenção especializados e ajuste de KV-cache que não estão na compilação pública do Ollama.
Existe um nível gratuito para testar GPU na nuvem chinesa?
O Alibaba Cloud oferece ¥300 de crédito gratuito para novas contas (via intl.aliyun.com para usuários internacionais), suficiente para cerca de 30–40 horas de inferência A10. O Tencent Cloud oferece créditos promocionais semelhantes para novos usuários. O AutoDL fornece ¥10 de crédito de GPU gratuito (2–4 horas de A100). Nenhum oferece um nível de GPU permanentemente gratuito — todo uso de GPU é tarifado.
Qual GPU é melhor para o Qwen3 72B em plataformas de nuvem chinesa?
A A100 80 GB é a GPU recomendada para inferência do Qwen3 72B em uma única placa — o modelo completo cabe na VRAM em precisão BF16 sem quantização. Com quantização Q4_K_M, o Qwen3 72B (43,5 GB) também cabe em uma A100 40 GB, com qualidade um pouco inferior. A H100 80 GB é 25–35% mais rápida que a A100 80 GB, mas custa 2–2,5 vezes mais por hora — só vale o prêmio para cargas de produção sustentada de alta vazão.
Registro de atualizações
- 2026-05-26: Publicação inicial. Preços obtidos nos consoles do AutoDL, Alibaba Cloud e Tencent Cloud em maio 2026. Benchmarks de desempenho medidos em instâncias A100 80 GB.
- Próxima revisão programada: 2026-11-26