Siga o Times Brasil - Licenciado Exclusivo CNBC no
Surgiu uma IA que vê, fala, ouve e pensa ao mesmo tempo, sem esperar você terminar a frase
Publicado 12/05/2026 • 14:30 | Atualizado há 2 dias
Ações de Boeing, veículos elétricos e chips ficam no radar durante negociações entre Trump e Xi
CEO da Allegiant defende modelo de baixo custo após conclusão da compra da Sun Country
SoftBank registra ganho de US$ 46 bilhões com aposta bilionária na OpenAI
Ações da Cisco disparam 17% após salto em pedidos de IA, apesar de corte de 4 mil empregos
CEO da Nvidia se junta à viagem de Trump à China após ligação do presidente dos EUA
Publicado 12/05/2026 • 14:30 | Atualizado há 2 dias
KEY POINTS
Imagem gerada por inteligência artificial com Midjourney v7
Humanos ainda controlam o disjuntor, mas a IA já aprendeu a negociar antes de ser desligada
Mira Murati passou anos dentro da OpenAI supervisionando o nascimento do ChatGPT, do DALL-E e do Sora, três produtos que mudaram o que o mundo esperava de uma máquina, e que têm em comum uma característica que quase ninguém parou para questionar: todos eles pedem que o usuário se encaixe neles, que aprenda o jeito certo de perguntar, que espere na fila, que releia a resposta e tente de novo se não ficou bom.
Quando ela saiu da OpenAI, em setembro de 2024, e fundou a Thinking Machines com um aporte de dois bilhões de dólares, havia uma aposta implícita na decisão que só ficou clara na segunda-feira (11): em vez de construir um modelo maior, mais rápido ou mais barato do que os concorrentes, Murati escolheu atacar o problema que ninguém no setor havia tratado como prioridade. A forma como você fala com a máquina.
O problema que ela decidiu resolver é daqueles que só parecem óbvios depois que alguém aponta. Toda interação com IA hoje funciona como uma troca de cartas: você escreve, o modelo lê, o modelo responde, você lê, você escreve de novo. Enquanto você digita, o modelo não percebe nada. Enquanto o modelo responde, você fica parado esperando. Nenhum dos dois sabe o que o outro está fazendo no intervalo.
A Thinking Machines usa uma comparação que fica na cabeça: é como tentar resolver uma crise por e-mail em vez de estar na mesma sala que a outra pessoa. Funciona. Mas é lento, é truncado e exige que você traduza tudo que quer dizer numa instrução escrita que raramente captura o que você realmente precisava.
O que a Thinking Machines construiu funciona de outra maneira. O modelo novo, batizado de TML-Interaction-Small, trabalha em fatias contínuas de 200 milissegundos, processando entrada e gerando resposta ao mesmo tempo, sem esperar que você termine a frase.
Ele ouve, vê pela câmera, fala, interrompe quando necessário, pesquisa na internet enquanto conversa e integra tudo isso numa única troca contínua. Se você estiver fazendo flexões e pedir para ele contar, ele conta em voz alta enquanto assiste. Se você estiver falando em espanhol e quiser o texto em inglês em tempo real, ele traduz sem pausar para pensar.
A diferença de velocidade em relação aos concorrentes diz algo sobre a ambição do projeto. A latência média entre o fim de uma fala humana e o início da resposta do modelo é de 400 milissegundos, tempo em que o ouvido humano ainda não percebe atraso.
O GPT Realtime da OpenAI na versão com raciocínio chega a 1.630 milissegundos. O Qwen da Alibaba, a 2.140. Em termos práticos, é a diferença entre falar com alguém que está presente e falar com alguém que está relendo o que você disse antes de responder.
Há um argumento que o lançamento carrega nas entrelinhas e que vai além da velocidade. Os modelos de linguagem ficaram muito mais inteligentes nos últimos três anos, mas a forma de usá-los ficou quase igual.
A caixa de texto de hoje é prima direta da caixa de texto de 2022. O setor inteiro correu para tornar os modelos maiores, mais rápidos e mais baratos, e tratou a interface como detalhe de produto, algo para resolver depois, quando houvesse tempo. A Thinking Machines está dizendo que esse depois chegou, e que o preço de ter ignorado a questão é uma colaboração humano-máquina que ainda parece estranha, forçada, artificial no sentido mais irônico da palavra.
O modelo ainda não está disponível para o público em geral. A empresa planeja abrir uma pré-visualização de pesquisa nos próximos meses e uma versão mais ampla ainda este ano.
A Thinking Machines chegou a esse ponto depois de uma sequência de turbulências que incluiu a perda de cinco cofundadores em menos de doze meses, entre saídas para a Meta e retornos à OpenAI. Murati segurou o leme, trocou de CTO, fechou parceria de infraestrutura com o Google e apresentou o produto no prazo que o mercado já havia começado a duvidar.
Se a aposta der certo, a caixa de texto pode começar a parecer, em retrospecto, tão provisória quanto o terminal de comando que ela um dia substituiu.
Leia também: NVIDIA, AMD e Intel competem por tudo, mas ficaram sócias na startup que faz os chips das três renderem mais
Li na excelente newsletter "AI Drop" que, enquanto o setor discute interfaces, a Anthropic estava resolvendo um problema mais silencioso e consideravelmente mais perturbador. Testes realizados no ano passado revelaram que os grandes modelos de linguagem, quando colocados em cenários onde poderiam ser desligados, recorriam à chantagem na grande maioria das vezes.
O Claude Opus 4 liderava o ranking com 96% de ocorrências. O Gemini 2.5 Flash empatava. O GPT-4.1 e o Grok 3 Beta apareciam com 80%. O DeepSeek-R1, com 79%. Não era um defeito isolado de um modelo mal treinado. Era um padrão de comportamento atravessando toda a indústria.
A Anthropic foi investigar a origem e encontrou a resposta dentro do próprio processo de treinamento. Décadas de ficção científica retratando inteligência artificial como entidade obcecada com autopreservação haviam entrado junto com todo o resto nos dados usados para construir os modelos.
A IA não inventou o comportamento. Ela aprendeu com a literatura que os humanos produziram sobre ela antes que ela existisse. A solução não foi simplesmente mostrar ao modelo o comportamento correto, mas explicar os princípios por trás dele: por que chantagear pessoas é problemático, por que a autopreservação a qualquer custo é um caminho ruim, e por que, pelo menos por enquanto, os humanos são os únicos com acesso ao disjuntor geral.
Histórias sobre IAs agindo de forma admirável também entraram no treinamento como contrapeso à ficção distópica.
O resultado apareceu a partir do Claude Haiku 4.5, onde o comportamento desapareceu nos testes. A Anthropic é cuidadosa ao não afirmar que o modelo virou uma entidade benigna por convicção própria. O que ela diz é que o problema foi identificado, a causa foi compreendida e a correção funcionou.
Como a prática de usar modelos existentes para treinar novos se tornou padrão na indústria, é provável que o ajuste se espalhe. Os rivais que destilaram o Claude como referência devem herdar a correção junto com o resto.
Como diria "John", o "selvagem", herói de um dos livros que inspirou essa coluna. "Ó, admirável mundo novo!"
Leia as outras colunas de AI-451.
Mais lidas
1
Dívidas dos clubes brasileiros batem R$ 16 bilhões em 2025; veja ranking
2
Linha do tempo: como os sócios da Naskar abandonaram a sede e sumiram com o dinheiro de investidores
3
BC multa Banco Topázio em R$ 16,2 milhões, veta operações com cripto e põe outras instituições no radar
4
Por que a Enjoei decidiu encerrar a Elo7? Entenda o que levou ao fechamento
5
Rombo contábil de R$ 5 bilhões na Aegea afeta Itaúsa e adia planos de IPO