Allan Ravagnani AI-451

Os fiascos que o Claude Fable acumulou em 96 horas expõem a Anthropic e Dario Amodei a um vexame sem precedentes

Publicado 13/06/2026 • 13:32 | Atualizado há 1 mês

Allan Ravagnani

Repórter

Allan Ravagnani é jornalista há 20 anos, duas vezes eleito entre os 50 jornalistas de Economia mais admirados do Brasil. Assina a coluna AI-451 e é repórter do Times Brasil | CNBC. Estudou Publicidade na ESPM e Jornalismo na Fapcom, fez pós-graduações em Macroeconomia, Finanças e Ciência Política.

KEY POINTS

Fable foi suspenso pelo governo americano após jailbreak e bloqueio por controles de exportação de segurança nacional
Anthropic usou salvaguardas invisíveis no Fable para degradar respostas sem avisar pesquisadores e pediu desculpas em 48 horas
Governo Trump suspendeu Fable e Mythos alegando risco nacional, mas mesmo jailbreak funciona no GPT-5.5 sem consequências

Imagem gerada por IA | Prompt: Allan Ravagnani

Fable chegou ao público na terça, apresentou uma série de erros e foi suspenso pelo governo americano na sexta

💭 Sabadão e nóis aqui. Ainda bem que eu esperei alguns dias para escrever sobre o último lançamento da Anthropic, o Claude Fable, dessa forma não gastei tinta à toa.

Nenhum rival da Anthropic conseguiu, em quatro anos, fazer o que o Fable 5 fez em quatro dias: desmontar, peça por peça, a narrativa de empresa mais séria, mais honesta e mais cuidadosa do setor de inteligência artificial. Não foi um concorrente que derrubou essa narrativa. Foi o próprio produto.

A história começa na terça-feira (9), quando a Anthropic lançou o Claude Fable 5 descrevendo-o como o modelo mais poderoso que já colocou à disposição do público em geral, o primeiro da família Mythos a sair do círculo restrito do Project Glasswing para o mundo.

O leitor desta coluna conhece o Mythos desde abril, quando contamos aqui que a Anthropic havia criado um modelo que considerava perigoso demais para lançar e havia montado um programa sigiloso de parceiros para usá-lo de forma controlada. O Fable era a versão que, segundo a empresa, estava suficientemente cercada de salvaguardas para chegar ao grande público.

Durou 96 horas.

Enterrada em 319 páginas estava a mentira

Junto com o modelo, a Anthropic publicou um system card, o documento técnico que explica como o sistema funciona. São 319 páginas. Em algum ponto nessas 319 páginas havia uma informação que a empresa claramente esperava que passasse despercebida: o Fable tinha uma salvaguarda (guardrail) invisível para impedir distilação, a técnica de usar respostas de um modelo grande para treinar modelos menores e potencialmente concorrentes.

🔍 System card é o documento técnico que empresas de IA publicam junto com o lançamento de um novo modelo para explicar como ele funciona, quais são seus limites, o que foi testado e quais riscos foram identificados. É uma espécie de bula do modelo, com a diferença de que ninguém é obrigado por lei a publicá-la. No caso do Fable, a Anthropic publicou um documento de 319 páginas. Foi dentro dele que pesquisadores encontraram a informação sobre as salvaguardas invisíveis de distilação.

A Anthropic já havia acusado empresas chinesas de fazer isso em escala industrial com seus modelos. A preocupação é legítima, mas o método escolhido para lidar com isso não era. Quando o sistema identificava uma requisição suspeita de distilação, simplesmente degradava ou alterava a resposta, sem avisar o usuário. Quem perguntava recebia uma resposta pior e não tinha como saber que havia recebido uma resposta pior.

A comunidade científica encontrou o trecho em questão rapidamente. O pesquisador Ethan Caballero escreveu no X que nunca havia visto "a reação mais raivosa que já vi na comunidade de pesquisa de IA na minha vida". O SemiAnalysis chamou o mecanismo de "sabotagem secreta". Pesquisadores que precisavam avaliar o Fable para comparar com outros modelos, uma prática rotineira e legítima, descobriram que não podiam confiar nas respostas que recebiam.

Havia também o problema da biologia. O Fable, por precaução contra bioweapons, bloqueava qualquer pergunta que envolvesse o tema, o que em tese faz sentido. Na prática, o modelo recusava explicar o que é mitocôndria, o que causa febre do feno e como funciona uma vacina de mRNA, mas respondia perguntas sobre o uso de gás cloro como arma química. O filtro havia sido calibrado de um jeito que protegia contra o medo errado.

Quarenta e oito horas para pedir desculpas

Na quinta-feira (11), a Anthropic publicou no X: “Proteções invisíveis podem ser direcionadas de forma mais precisa, o que nos permite lançar produtos rapidamente com pouquíssimos falsos positivos. Escolhemos adotar proteções invisíveis por esse motivo, mas essa foi a decisão errada. Vocês deveriam ter visibilidade sobre as proteções que implementamos e entender por quê. Pedimos desculpas por não termos encontrado o equilíbrio adequado.”

O que não estava escrito: a empresa escolheu lançar mais rápido e apostou que ninguém leria as 319 páginas com atenção suficiente. Alguém leu.

O pedido de desculpas foi rápido, o que é a atitude certa. Mas é impossível separar a pressa do lançamento da pressa do recuo. A Anthropic construiu sua reputação sobre a promessa de que fazia as coisas de um jeito diferente, mais devagar, mais honesto, mais cuidadoso do que os concorrentes. A salvaguarda invisível não era um bug. Era uma decisão.

O governo desligou a tomada

Neste sábado (13), a Anthropic recebeu uma carta do Departamento de Comércio dos Estados Unidos, assinada pelo secretário Howard Lutnick, com uma diretiva de controle de exportações: suspensão imediata de todo o acesso ao Fable 5 e ao Mythos 5 por qualquer estrangeiro, dentro ou fora do território americano, incluindo os próprios funcionários estrangeiros da Anthropic.

Como a ordem atingia estrangeiros em qualquer lugar do mundo e a empresa não tinha como distinguir quem era ou não era cidadão americano entre seus centenas de milhões de usuários, a única forma de cumprir era desligar tudo para todo mundo.

O motivo alegado pelo governo era que outra empresa havia afirmado ter conseguido fazer um jailbreak no Mythos, o modelo subjacente ao Fable, o que teria alarmado a administração sobre riscos à segurança nacional. A Anthropic revisou a demonstração e discordou da avaliação.

A empresa disse acreditar que o jailbreak em questão era estreito, desbloqueando capacidades de cibersegurança em apenas uma instância específica, e que o mesmo método funcionava no GPT-5.5 da OpenAI sem que aquele modelo fosse suspenso.

🔍 Jailbreak é a técnica de contornar as restrições de segurança de um modelo de IA por meio de instruções ou prompts elaborados, fazendo com que o sistema responda a perguntas que normalmente recusaria. O nome vem do termo usado para "desbloquear" celulares fora dos limites do fabricante. No caso do Fable, o governo americano alegou que alguém havia encontrado um jailbreak capaz de acessar capacidades de cibersegurança que deveriam estar bloqueadas. A Anthropic contestou a gravidade da falha, argumentando que o mesmo método funcionava no GPT-5.5 sem que ninguém suspendesse aquele modelo.

Esse detalhe merece atenção. Se o critério para suspender um modelo é a existência de um jailbreak que permite extrair informações de cibersegurança, e o mesmo jailbreak funciona no modelo mais poderoso da OpenAI, então o critério não é técnico. É outro. A Anthropic não disse isso explicitamente em seu comunicado, mas o argumento está lá para quem quiser ler.

A administração Trump havia tentado impedir o lançamento do Fable antes mesmo de ele acontecer e não havia conseguido. A diretiva de sexta-feira pode ser lida como a segunda tentativa.

O preço de querer ser o mais sério da sala

A Anthropic tem um problema que nenhum de seus concorrentes tem: prometeu demais durante tempo demais. Quatro anos construindo a identidade de empresa responsável, transparente, mais cuidadosa com riscos do que qualquer outro lab do Vale do Silício. Esse posicionamento rendeu muitos ganhos, principalmente de imagem, mas também tem um custo. Quando a OpenAI comete um erro, o mundo encolhe os ombros porque as expectativas já estavam calibradas. Quando a Anthropic comete um erro, a queda é proporcional à altura do pedestal.

Em quatro dias, o Fable acumulou: salvaguardas ocultas que enganavam pesquisadores, filtros de biologia calibrados de forma absurda, um pedido de desculpas público, uma suspensão governamental por alegação de risco à segurança nacional e um argumento da própria empresa de que o modelo suspenso não era mais perigoso do que o GPT-5.5, que segue disponível.

Esse último ponto é o mais revelador de todos. Quando uma empresa precisa dizer "nosso modelo não é mais perigoso do que o do concorrente" para defender seu lançamento, a narrativa de superioridade técnica e moral já foi embora.

Leia as outras colunas de AI-451.