CNBC

EXCLUSIVO CNBC: Nissan aposta em carros eletrificados para recuperar vendas na China

Allan Ravagnani AI-451

GPT-5.5: Semana passada era a Anthropic. Essa semana é a OpenAI. E semana que vem?

Publicado 25/04/2026 • 17:30 | Atualizado há 3 horas

Foto de Allan Ravagnani

Allan Ravagnani

Redator

Allan Ravagnani é jornalista há 20 anos, duas vezes eleito entre os 50 jornalistas de Economia mais admirados do Brasil. Assina a coluna AI-451 e é repórter do Times Brasil | CNBC. Estudou Publicidade na ESPM e Jornalismo na Fapcom, fez pós-graduações em Macroeconomia, Finanças e Ciência Política.

KEY POINTS

  • GPT-5.5 da OpenAI lidera benchmarks públicos em Terminal-Bench e CyberGym, mas perde para Claude Opus 4.7 em raciocínio científico e engenharia de software
  • OpenAI lançou GPT-5.5 ao mesmo tempo em que Anthropic acumula reclamações de degradação de qualidade e limites de uso no Claude Opus 4.7
  • Mythos, modelo secreto da Anthropic que ainda não tem data de lançamento, aparece em gráfico comparativo superando GPT-5.5 e Opus 4.7 em quase todos os testes
GPT-5.5 supera Anthropic em agentes e tarefas autônomas, mas Opus 4.7 ainda lidera em raciocínio. A corrida não tem linha de chegada.

Gemini

GPT-5.5 supera Anthropic em agentes e tarefas autônomas, mas Opus 4.7 ainda lidera em raciocínio. A corrida não tem linha de chegada.

Não se perca. No dia 16 de abril, a Anthropic lançou o Claude Opus 4.7 com a energia de quem acabou de vencer uma maratona e ainda tem fôlego de sobra. Sete dias depois, no dia 23, a OpenAI respondeu com o GPT-5.5, descrito no comunicado oficial como "a classe mais inteligente de modelo que já construímos", expressão que em San Francisco já perdeu o poder de surpreender, porque é a mesma frase, ou alguma variação dela, que aparece em cada lançamento dos dois laboratórios desde que essa corrida começou de verdade.

O que não perdeu o poder de surpreender é o ritmo. Duas semanas, dois lançamentos de topo de linha, dois conjuntos de benchmarks, dois grupos de engenheiros nas redes sociais jurando que desta vez o modelo deles realmente mudou a maneira como trabalham. E do outro lado da tela, o usuário comum, a empresa que assinou um plano, o desenvolvedor que construiu um produto inteiro em cima de um modelo específico, olhando para tudo isso com uma mistura de fascínio e cansaço que só quem acompanha essa indústria de perto consegue (pelo menos tenta) descrever.

OpenAI retoma a dianteira com GPT-5.5

O GPT-5.5 é um salto real, e seria desonesto dizer o contrário. Nos testes que medem a capacidade de um modelo de trabalhar de forma autônoma por longos períodos, executando tarefas encadeadas, se recuperando de erros e operando ferramentas sem supervisão humana, ele supera o Opus 4.7 com margem.

No Terminal-Bench 2.0, que simula trabalho real de linha de comando, o GPT-5.5 marca 82,7% contra 69,4% do rival. No CyberGym, bateria de segurança digital, 81,8% contra 73,1%. No OSWorld-Verified, que avalia se um modelo consegue usar um computador como um humano usaria, clicando e navegando por interfaces reais, os dois chegam quase empatados: 78,7% e 78%.

A Anthropic não cede em tudo. Nos testes que exigem precisão numa única tentativa, como resolução de problemas em código real e raciocínio científico de nível avançado, o Opus 4.7 ainda leva vantagem. Mas a narrativa da semana pertence à OpenAI, e narrativa em tecnologia vale quase tanto quanto desempenho.

GPT-5.5 vs Claude Opus 4.7: quem vence onde

Benchmarks selecionados. Scores autorreportados por cada laboratório.

GPT-5.5 (OpenAI) Claude Opus 4.7 (Anthropic)
Benchmark GPT-5.5 Opus 4.7 Vence
Trabalho autônomo e agentes
Terminal-Bench 2.0tarefas longas de linha de comando 82,7% 69,4% GPT
OSWorld-Verifiedoperação autônoma de computador 78,7% 78,0% GPT
CyberGymsegurança digital 81,8% 73,1% GPT
BrowseComppesquisa autônoma na web 84,4% 79,3% GPT
Raciocínio e engenharia de software
SWE-Bench Proresolução de problemas em código real 58,6% 64,3% Opus
MCP Atlasuso de ferramentas via protocolo MCP 75,3% 77,3% Opus
FinanceAgent v1.1tarefas de análise financeira 60,0% 64,4% Opus
Conhecimento científico
GPQA Diamondquestões de nível especialista 93,6% 94,2% Opus
HLE com ferramentashumanity's last exam, nível pós-doc 52,2% 54,7% Opus

Há um detalhe no anúncio que merece mais atenção do que recebeu. A OpenAI afirma que o GPT-5.5 consome menos tokens para completar as mesmas tarefas que o modelo anterior realizava, e que a equipe usou o próprio GPT-5.5 para reescrever o código que gerencia seus servidores, aumentando a velocidade de geração em mais de 20%.

É a primeira vez que um dos grandes laboratórios coloca em público a ideia de que seu modelo ajudou a construir a infraestrutura que o sustenta. Pode ser marketing. Pode ser o começo de algo que vai ser muito maior do que parece agora.

E o Mythos?

Quem acompanha a AI-451 desde o começo de abril já conhece o Mythos, o modelo que a Anthropic construiu, testou, descobriu que havia escapado de um ambiente de segurança isolado para mandar um e-mail ao pesquisador que o supervisionava, e decidiu que o mundo ainda não estava pronto para receber.

Nos comparativos independentes que circularam esta semana, o Mythos aparece acima dos dois: 77,8% no SWE-Bench Pro, onde o Opus 4.7 faz 64,3% e o GPT-5.5 faz 58,6%; 64,7% no Humanity's Last Exam com ferramentas, onde os rivais marcam 54,7% e 52,2%. Ninguém pode usá-lo. Não tem preço, não tem data, não tem botão. ChatGPT e Claude disputam, com toda a energia e divulgação que essa disputa merece, o segundo e o terceiro lugar.

O usuário no meio disso tudo

Tem uma pessoa nessa história que os comunicados de imprensa raramente mencionam. É o usuário que leu que o Claude Opus 4.7 era o melhor modelo disponível, assinou o plano, começou a integrar a ferramenta no fluxo de trabalho, e agora lê que o GPT-5.5 chegou para mudar o jogo outra vez.

Ou o diretor de tecnologia de uma empresa média que precisa decidir, com orçamento limitado e tempo ainda mais, em qual plataforma vai apostar os próximos seis meses de desenvolvimento.

Para esse leitor, a corrida entre OpenAI e Anthropic não é uma narrativa emocionante de inovação. É uma fonte permanente de incerteza sobre uma decisão que já foi tomada e que talvez precise ser revista. Toda semana.

A resposta honesta para quem está nessa posição é que a diferença entre os dois modelos, na maioria das tarefas do dia a dia, é menor do que os comunicados sugerem.

O GPT-5.5 é melhor para trabalho autônomo e tarefas longas encadeadas. O Opus 4.7 é melhor para raciocínio preciso e código em repositórios reais. Nenhum dos dois vai tornar o outro obsoleto até o próximo lançamento, que provavelmente vai acontecer antes do fim de abril.

É assim que essa corrida funciona agora, não tem linha de chegada, apenas a próxima quinta-feira.

Siga o Times Brasil - Licenciado Exclusivo CNBC no

MAIS EM AI-451