Allan Ravagnani AI-451

DeepSeek volta pro jogo e resolve gargalo bilionário do setor de I.A.

Publicado 23/06/2026 • 13:31 | Atualizado há 2 horas

Allan Ravagnani

Repórter

Allan Ravagnani é jornalista há 20 anos, duas vezes eleito entre os 50 jornalistas de Economia mais admirados do Brasil. Assina a coluna AI-451 e é repórter do Times Brasil | CNBC. Estudou Publicidade na ESPM e Jornalismo na Fapcom, fez pós-graduações em Macroeconomia, Finanças e Ciência Política.

DeepSeek levanta bilhões, populariza bots baratos e resolve o gargalo que travava a inferência de inteligência artificial no mundo

A DeepSeek chegou ao mercado das inteligências artificiais generativas com o pé na porta no comecinho de 2025, provocou uma sangria nas ações de tecnologia americana e depois, por meses, foi tratada como assunto resolvido, um susto passageiro que o mercado já tinha digerido e seguido a vida. Pois quem cravou esse diagnóstico errou feio.

A DeepSeek não só continua viva como acaba de fechar a maior captação da sua história, virou ferramenta de estimação de um hobbyista que ressuscitou um jogo morto e, nos bastidores, ajudou a resolver um dos problemas mais caros e menos comentados de toda a indústria de IA, o gargalo que faz placas de vídeo bilionárias trabalharem pela metade da capacidade.

Começa pelo dinheiro, que é a parte que chama atenção primeiro. A DeepSeek fechou uma rodada de 50 bilhões de yuans, algo perto de US$ 7,4 bilhões, avaliando a empresa em mais de US$ 50 bilhões. O detalhe que fez analistas levantarem a sobrancelha não foi o valor, foi a engenharia jurídica por trás dele.

Liang Wenfeng, fundador da companhia, entrou como maior investidor individual da própria rodada, com cerca de 20 bilhões de yuans do bolso, e estruturou tudo através de uma sociedade limitada sob seu comando. Resultado prático, quem coloca dinheiro não tem direito a voto e ainda fica com as ações trancadas por cinco anos. Tencent, JD.com, NetEase e a fabricante de baterias CATL toparam o acordo assim mesmo, ao lado de um fundo estatal chinês de inteligência artificial.

Barata o suficiente para brincar de Deus

Enquanto o mundo financeiro discutia governança, um desenvolvedor decidiu fazer outra coisa com a mesma tecnologia. Ele pegou um servidor privado abandonado de World of Warcraft, encheu de 1.800 personagens controlados por bots e ligou cada um deles à API da DeepSeek.

O resultado é um chat que borbulha como cidade viva, caçador relembrando talento antigo, mago batizando sua raide favorita, gente de mentira trocando ironia que parece gente de verdade. A conta final, qualquer um pode pagar, 43 euros por mês, o preço de um jantar razoável. Os bots, por enquanto, só conversam, não agem, mas a fronteira entre as duas coisas está caindo na mesma velocidade que o preço da inteligência artificial.

O gargalo bilionário resolvido pelo DeepSeek

A parte mais interessante da história do DeepSeek, no entanto, quem explicou foi o húngaro Károly Zsolnai Féhér, o cientista da computação que toca o canal Two Minute Papers, voz conhecida de quem acompanha pesquisa de IA no YouTube há anos.

Zsolnai Féhér resumiu a questão com uma metáfora, imagine alguém com um cérebro do tamanho de uma montanha, capaz de guardar e processar qualquer quantidade de informação, mas obrigado a receber tudo através de um canudinho fino. O cérebro sobra, o canudo é que falta.

É exatamente isso que acontece com os chips que rodam modelos de IA em produção, empresas pagam fortunas por GPUs de ponta e descobrem que elas passam boa parte do tempo ociosas, operando perto de 40% da capacidade total em tarefas longas de agentes, enquanto o resto do tempo é gasto relendo informação que já tinha sido processada antes.

🔎 na inferência de IA existem dois tipos de tarefa dentro da mesma máquina, o prefill, que lê tudo que já foi conversado, e o decoding, que escreve a próxima palavra. Quando os dois disputam a mesma estrada de dados, um trava o outro.

A solução que a DeepSeek encontrou, segundo a explicação de Zsolnai Féhér, foi reconhecer que existem dois tipos de máquina nessa rede, as que fazem a leitura inicial, com o canudo completamente entupido, e as que geram o texto final, com o canudo praticamente vazio e ocioso.

A engenharia chinesa desviou parte da leitura para essas máquinas ociosas, criando um caminho alternativo até as máquinas de leitura principal. O risco óbvio era que esse desvio competisse pela mesma estrada de dados que o raciocínio da IA precisa para funcionar, recriando o engarrafamento em outro lugar. A resposta foi um sistema de prioridade, o tráfego de pensamento sempre passa primeiro, e a memória usa só o espaço que sobra.

A engenharia não comprou um chip mais rápido, ela aprendeu a usar melhor o que já estava pago. O salto medido foi de 40% para cerca de 80% de utilização, quase o dobro de trabalho extraído do mesmo hardware, e a empresa liberou a técnica de graça para qualquer concorrente copiar, sem cobrar licença e sem fechar o código.

Huawei entra no jogo

Esse mesmo espírito de otimizar o que está disponível em casa explica por que a DeepSeek lançou o modelo V4 já pensando nos chips Huawei Ascend 950, reduzindo a dependência da Nvidia justamente no momento em que Washington aperta o controle de exportação de semicondutores para a China. A equipe de engenharia aberta que documenta esse tipo de avanço, batizada de InferenceX, registrou que o suporte da Huawei ao novo modelo chinês apareceu já no dia do lançamento, o chamado Day 0, prova de que a parceria entre a DeepSeek e o fabricante chinês de chips foi pensada desde o desenho do modelo, e não encaixada depois às pressas.

Do lado americano, a história foi mais acidentada. A Nvidia tropeçou feio justamente no motor que deveria ser seu cartão de visitas, o TensorRT-LLM, por causa de um valor travado no código que limitava o tamanho de uma camada interna do modelo a 4096, quando o DeepSeek V4 Pro precisava de 7168.

Em vez de corrigir o limite, engenheiros da própria Nvidia simplesmente removeram a trava, o que fez o erro desaparecer da tela e, ao mesmo tempo, gerar respostas corrompidas sem avisar ninguém. O problema levou mais de uma semana para ser identificado e corrigido, com a correção final vindo de fora da empresa, da equipe da SemiAnalysis que audita esse tipo de falha.

A AMD não saiu melhor na fita, sua pilha de software ROCm não conseguiu nem rodar o formato nativo do modelo nos primeiros dias, entregando uma experiência tão lenta que o assistente de IA virava inutilizável na prática. A equipe da AMD liderada por HaiShaw levou 26 dias para multiplicar esse desempenho por cem, uma virada e tanto, mas que mostra a distância que ainda separa o ecossistema de software da AMD do terreno dominado pela Nvidia havia anos.

Enquanto isso, ByteDance e Alibaba já disputam os mesmos lotes de chips Huawei que a DeepSeek provou funcionarem bem o suficiente para rodar inferência em escala, e o controle dessa briga por hardware doméstico pode valer tanto quanto qualquer rodada de investimento.

O que conecta o dinheiro, o jogo ressuscitado e a engenharia invisível é a mesma cadeia de pensamento de longo prazo, intensificada em cada capítulo. Inteligência artificial ficou barata o bastante para criar mundos inteiros por capricho, e ao mesmo tempo cara o bastante para que resolver um gargalo de tubulação valha bilhões de avaliação de mercado. A DeepSeek aprendeu a jogar nos dois tabuleiros ao mesmo tempo, e isso talvez explique por que ninguém mais a trata como história encerrada.

Leia outras colunas em AI-451.