Siga o Times Brasil - Licenciado Exclusivo CNBC no
GPT-5.5: Semana passada era a Anthropic. Essa semana é a OpenAI. E semana que vem?
Publicado 25/04/2026 • 17:30 | Atualizado há 3 horas
EXCLUSIVO CNBC: Nissan aposta em carros eletrificados para recuperar vendas na China
EXCLUSIVO CNBC: Farmacêutica Regeneron vai oferecer terapia genética gratuita para perda auditiva rara
Startup apoiada pela Amazon aposta em IA para baratear produções e acelerar Hollywood
EXCLUSIVO CNBC: CFO da OpenAI diz que empresa não tem pressa para IPO e mira investidor individual
Musk vs. Altman vai a julgamento na próxima semana. Veja o que está em jogo
Publicado 25/04/2026 • 17:30 | Atualizado há 3 horas
KEY POINTS
Gemini
GPT-5.5 supera Anthropic em agentes e tarefas autônomas, mas Opus 4.7 ainda lidera em raciocínio. A corrida não tem linha de chegada.
Não se perca. No dia 16 de abril, a Anthropic lançou o Claude Opus 4.7 com a energia de quem acabou de vencer uma maratona e ainda tem fôlego de sobra. Sete dias depois, no dia 23, a OpenAI respondeu com o GPT-5.5, descrito no comunicado oficial como "a classe mais inteligente de modelo que já construímos", expressão que em San Francisco já perdeu o poder de surpreender, porque é a mesma frase, ou alguma variação dela, que aparece em cada lançamento dos dois laboratórios desde que essa corrida começou de verdade.
O que não perdeu o poder de surpreender é o ritmo. Duas semanas, dois lançamentos de topo de linha, dois conjuntos de benchmarks, dois grupos de engenheiros nas redes sociais jurando que desta vez o modelo deles realmente mudou a maneira como trabalham. E do outro lado da tela, o usuário comum, a empresa que assinou um plano, o desenvolvedor que construiu um produto inteiro em cima de um modelo específico, olhando para tudo isso com uma mistura de fascínio e cansaço que só quem acompanha essa indústria de perto consegue (pelo menos tenta) descrever.
O GPT-5.5 é um salto real, e seria desonesto dizer o contrário. Nos testes que medem a capacidade de um modelo de trabalhar de forma autônoma por longos períodos, executando tarefas encadeadas, se recuperando de erros e operando ferramentas sem supervisão humana, ele supera o Opus 4.7 com margem.
No Terminal-Bench 2.0, que simula trabalho real de linha de comando, o GPT-5.5 marca 82,7% contra 69,4% do rival. No CyberGym, bateria de segurança digital, 81,8% contra 73,1%. No OSWorld-Verified, que avalia se um modelo consegue usar um computador como um humano usaria, clicando e navegando por interfaces reais, os dois chegam quase empatados: 78,7% e 78%.
A Anthropic não cede em tudo. Nos testes que exigem precisão numa única tentativa, como resolução de problemas em código real e raciocínio científico de nível avançado, o Opus 4.7 ainda leva vantagem. Mas a narrativa da semana pertence à OpenAI, e narrativa em tecnologia vale quase tanto quanto desempenho.
GPT-5.5 vs Claude Opus 4.7: quem vence onde
Benchmarks selecionados. Scores autorreportados por cada laboratório.
| Benchmark | GPT-5.5 | Opus 4.7 | Vence |
|---|---|---|---|
| Trabalho autônomo e agentes | |||
| Terminal-Bench 2.0tarefas longas de linha de comando | 82,7% | 69,4% | GPT |
| OSWorld-Verifiedoperação autônoma de computador | 78,7% | 78,0% | GPT |
| CyberGymsegurança digital | 81,8% | 73,1% | GPT |
| BrowseComppesquisa autônoma na web | 84,4% | 79,3% | GPT |
| Raciocínio e engenharia de software | |||
| SWE-Bench Proresolução de problemas em código real | 58,6% | 64,3% | Opus |
| MCP Atlasuso de ferramentas via protocolo MCP | 75,3% | 77,3% | Opus |
| FinanceAgent v1.1tarefas de análise financeira | 60,0% | 64,4% | Opus |
| Conhecimento científico | |||
| GPQA Diamondquestões de nível especialista | 93,6% | 94,2% | Opus |
| HLE com ferramentashumanity's last exam, nível pós-doc | 52,2% | 54,7% | Opus |
Há um detalhe no anúncio que merece mais atenção do que recebeu. A OpenAI afirma que o GPT-5.5 consome menos tokens para completar as mesmas tarefas que o modelo anterior realizava, e que a equipe usou o próprio GPT-5.5 para reescrever o código que gerencia seus servidores, aumentando a velocidade de geração em mais de 20%.
É a primeira vez que um dos grandes laboratórios coloca em público a ideia de que seu modelo ajudou a construir a infraestrutura que o sustenta. Pode ser marketing. Pode ser o começo de algo que vai ser muito maior do que parece agora.
Quem acompanha a AI-451 desde o começo de abril já conhece o Mythos, o modelo que a Anthropic construiu, testou, descobriu que havia escapado de um ambiente de segurança isolado para mandar um e-mail ao pesquisador que o supervisionava, e decidiu que o mundo ainda não estava pronto para receber.
Nos comparativos independentes que circularam esta semana, o Mythos aparece acima dos dois: 77,8% no SWE-Bench Pro, onde o Opus 4.7 faz 64,3% e o GPT-5.5 faz 58,6%; 64,7% no Humanity's Last Exam com ferramentas, onde os rivais marcam 54,7% e 52,2%. Ninguém pode usá-lo. Não tem preço, não tem data, não tem botão. ChatGPT e Claude disputam, com toda a energia e divulgação que essa disputa merece, o segundo e o terceiro lugar.
Tem uma pessoa nessa história que os comunicados de imprensa raramente mencionam. É o usuário que leu que o Claude Opus 4.7 era o melhor modelo disponível, assinou o plano, começou a integrar a ferramenta no fluxo de trabalho, e agora lê que o GPT-5.5 chegou para mudar o jogo outra vez.
Ou o diretor de tecnologia de uma empresa média que precisa decidir, com orçamento limitado e tempo ainda mais, em qual plataforma vai apostar os próximos seis meses de desenvolvimento.
Para esse leitor, a corrida entre OpenAI e Anthropic não é uma narrativa emocionante de inovação. É uma fonte permanente de incerteza sobre uma decisão que já foi tomada e que talvez precise ser revista. Toda semana.
A resposta honesta para quem está nessa posição é que a diferença entre os dois modelos, na maioria das tarefas do dia a dia, é menor do que os comunicados sugerem.
O GPT-5.5 é melhor para trabalho autônomo e tarefas longas encadeadas. O Opus 4.7 é melhor para raciocínio preciso e código em repositórios reais. Nenhum dos dois vai tornar o outro obsoleto até o próximo lançamento, que provavelmente vai acontecer antes do fim de abril.
É assim que essa corrida funciona agora, não tem linha de chegada, apenas a próxima quinta-feira.
Mais lidas
1
Sauer: conheça a marca brasileira usada por Meryl Streep na estreia de ‘O Diabo Veste Prada 2’
2
Alerta após falha: reguladores exigem inspeções imediatas em jatos da Embraer
3
O que é a Cursor e por que Musk quer comprá-la por US$ 60 bilhões
4
Omã investe R$ 120 mi para ampliar píer e dobrar capacidade de porto em Santa Catarina
5
Manobra de IPO reverso revela falha na B3 e deixa investidor sem proteção