O modelo que a Anthropic não queria que você visse (ainda)

Eu vi. E mudei o que estou recomendando aos meus clientes.

mar 30, 2026

Na última quinta-feira, a Anthropic cometeu um erro que nenhuma empresa de IA queria cometer.

Deixou públicos quase 3.000 arquivos internos, incluindo o rascunho de lançamento do seu modelo mais poderoso até hoje: o Claude Mythos.

Fui um dos primeiros a ler. E o que está lá mexeu com o que eu penso sobre o futuro de algumas empresas com quem trabalho.

O vazamento que virou parábola

O vazamento revelou dois rascunhos do mesmo post, um com o nome “Mythos” e outro com “Capybara”, o que indica que a empresa ainda não tinha batido o martelo sobre o nome do modelo.

Capybara (ou Mythos) no aguardo do seu lançamento oficial

O que ficou claro nos dois rascunhos: não é um update incremental. É outra coisa.

Segundo os documentos, o Claude Mythos supera o Opus 4.6, até então o modelo mais avançado da Anthropic, com folga em testes de programação, raciocínio acadêmico e cibersegurança. A própria empresa chama de “step change”, não de evolução, e sim de ruptura.

O rascunho foi ainda mais direto sobre os riscos: o sistema consegue identificar e explorar vulnerabilidades em software a uma velocidade que, segundo a própria Anthropic, pode superar a capacidade de defesa dos times de segurança. Por isso, o rollout vai ser controlado — começando com parceiros de cibersegurança, com acesso restrito.

“Uma empresa construindo o modelo de IA com as maiores capacidades cibernéticas já documentadas deixou os detalhes dele em um repositório público e desprotegido.”

Essa ironia não passou despercebida. E diz mais sobre o momento em que estamos do que qualquer benchmark: a velocidade da inovação está atropelando os controles das próprias empresas que inovam.

A Anthropic não parou no Mythos

O Claude Mythos não apareceu do nada. Ele é o resultado de uma sequência de movimentos que a Anthropic vem fazendo há meses.

Em janeiro, a empresa lançou o Claude Code e o Claude Cowork, ferramentas para desenvolvedores e produtividade que viraram o principal motor de crescimento de assinantes pagos. Esta semana, chegou o Computer Use: o Claude agora abre arquivos, acessa ferramentas, clica, navega e executa tarefas de forma autônoma, sem configuração prévia.

Março foi um mês agitado para a Anthropic (fonte: ProducCompass)

Os números acompanham: os assinantes pagos mais do que dobraram neste ano. Um engenheiro do Google relatou publicamente que o Claude Code construiu, em uma hora, o que o time dele levou um ano para desenvolver.

Enquanto isso, a Anthropic se recusou a permitir o uso de seus modelos para operações letais autônomas ou para vigilância em massa. Isso gerou atrito com o Departamento de Defesa dos EUA, mas também resultou em algo mais difícil de conseguir: diferenciação de marca. E consumidores responderam.

Não estamos mais falando de um assistente. Estamos falando de um agente que age. E isso muda a produtividade, a estrutura de times e a estratégia de inovação de qualquer empresa que preste atenção.

3 perguntas que todo CEO brasileiro precisa responder agora

Trabalho com inovação há mais de 25 anos. Já vi ondas tecnológicas chegarem, gerarem hype, se acomodarem e, eventualmente, redesenharem setores inteiros. Essa onda é diferente. Não pela velocidade, mas pelo tipo de coisa que está mudando.

No aeroporto de Boston em junho de 2025 (Fonte: Francisco Milagres)

Estamos saindo da era das ferramentas de IA e entrando na era dos agentes de IA.

1. Sua organização está preparada para trabalhar COM agentes autônomos ou apenas USANDO ferramentas de IA?

A ferramenta responde quando você pergunta. O agente age quando você autoriza e, às vezes, antes disso. Isso muda o desenho de processos, a governança de dados, a composição dos times e quem responde pelas decisões. A maioria das empresas brasileiras ainda opera no modo ferramenta, mesmo quando a tecnologia que usam já é agêntica.

2. Você sabe quanto custa NÃO ter adotado IA enquanto seus concorrentes avançam?

Um agente que usa computador, acessa sistemas, executa código e toma decisões operacionais não é uma linha de custo. É um multiplicador. A pergunta deixou de ser “quanto custa adotar” e passou a ser “quanto já perdemos”.

3. Você está construindo capacidade interna ou terceirizando sem prazo para parar?

As organizações que vão liderar essa transição são as que constroem agentes confiáveis, reutilizáveis, colados nos seus processos. Competência se constrói. Não se aluga para sempre. Quem não fizer isso em 2026 vai passar 2027 correndo atrás.

O momento chegou antes do que eu esperava

O que aconteceu nos meses recentes com modelos, agentes e o volume de capital entrando em startups de IA me levou de volta ao início da minha carreira técnica. Eu comecei nos BBSs, nos primórdios da Internet, programando em C e Assembly. Quando migrei para a segurança cibernética, as ameaças passaram a se automatizar; os ataques passaram a ser cometidos por amadores que, na época, chamávamos de script kiddies. Gente que não entendia o código, mas usava ferramentas prontas para causar estrago.

Eu reconheço esse padrão. Está acontecendo de novo, só que em escala e velocidade que não se comparam. A automação de ataques agora é feita com modelos de IA cada vez mais potentes. E, como naquela época, quem entende o que está por trás do código é quem vai conseguir se posicionar à frente do perímetro.

Passei os últimos meses desenvolvendo um diagnóstico para medir exatamente isso: o quanto uma organização está pronta para operar com agentes autônomos.

O lançamento do Computer Use e o vazamento do Mythos confirmaram que esse momento chegou mais cedo do que a maioria dos executivos admite. Não é coisa do futuro. Está nos processos que seus concorrentes já redesenharam e nas ferramentas que já usam.

O diagnóstico não é técnico. Ele mede prontidão organizacional: cultura, processos, dados, governança, liderança. O maior gargalo para adoção agêntica quase nunca é de tecnologia. É de gente.

A pergunta que importa

Não estou te dizendo para migrar tudo para o Claude amanhã. Estou te dizendo para fazer a pergunta certa esta semana: qual é o nosso nível de prontidão agêntica?

Se você não sabe a resposta, esse é o ponto de partida.

Enquanto você delibera, o modelo que pode redefinir a sua indústria está sendo testado com um grupo seleto de clientes. Em algum momento vai estar disponível para todo mundo. E aí a pergunta vai ser outra: por que demoramos tanto?

Participe do Chat de assinantes de Francisco Milagres

Disponível no app Substack e na web

Tenho feito esse diagnóstico com executivos nas últimas semanas. Se quiser discutir o que encontrei, pode comentar aqui ou me mandar uma mensagem.

Radar Mirach: clareza onde existe complexidade

Discussão sobre este post

Pronto para mais?