Mistral Leanstral 1.5: O Modelo Open-Source que Está Provando Teoremas e Encontrando Bugs
A Mistral AI acaba de lançar o Leanstral 1.5, um modelo open-source sob licença Apache 2.0 que está redefinindo o que significa "verificação formal acessível". Com apenas 6 bilhões de parâmetros ativos (de um total de 119B via Mixture of Experts), o modelo não só saturou o benchmark miniF2F — acertando 100% tanto no conjunto de validação quanto no de teste — como também resolveu 587 dos 672 problemas do PutnamBench, uma das competições de matemática mais exigentes do mundo.
Mas os números contam só metade da história. O que torna o Leanstral 1.5 realmente notável é sua aplicação prática: ele foi capaz de encontrar 5 bugs previamente desconhecidos em repositórios open-source reais, usando um pipeline automatizado que traduz código Rust para Lean e tenta provar — ou refutar — propriedades de corretude.
Como o Leanstral aprendeu a provar teoremas
O treinamento do Leanstral 1.5 segue três estágios: mid-training, supervised fine-tuning e reinforcement learning com uma técnica chamada CISPO. O modelo opera em dois ambientes distintos de RL:
- Ambiente multiturno: o modelo recebe um teorema e deve prová-lo ou refutá-lo. Ele submete uma prova, recebe feedback do compilador Lean 4 e itera até resolver ou esgotar seu orçamento de tokens.
- Ambiente de agente de código: o Leanstral age como um desenvolvedor real — edita arquivos, executa comandos bash, usa o language server do Lean para inspecionar objetivos e erros em tempo real. Tudo isso com múltiplas rodadas de compactação de contexto.
O resultado? Um modelo que escala monotonicamente com o orçamento de tokens: no PutnamBench, o Leanstral salta de 44 problemas resolvidos com 50k tokens para 587 problemas com 4 milhões de tokens. Ele não desiste quando uma prova fica longa — simplesmente continua raciocinando.
Encontrando bugs que testes tradicionais não acham
O caso mais impressionante do Leanstral 1.5 não está nos benchmarks, mas na sua aplicação prática de code verification. A Mistral construiu um pipeline onde o Aeneas traduz Rust para Lean, e o Leanstral infere a intenção do código e gera propriedades de corretude para provar.
Em 57 repositórios testados, o pipeline sinalizou 47 propriedades violadas — 11 das quais apontavam para bugs genuínos, sendo 5 completamente inéditos no GitHub. Um desses bugs estava na função sign de decodificação zigzag da biblioteca datrs/varinteger: ao receber Std.U64.MAX, a expressão (value + 1) causava overflow — crash em modo debug, corrupção silenciosa em modo release. Um edge case que fuzzing e testes tradicionais provavelmente nunca encontrariam.
Por que isso importa
Estamos falando de um modelo que custa cerca de US$ 4 por problema no PutnamBench — contra estimados US$ 300+ do Seed-Prover 1.5. Ele alcança 87% no FATE-H e 34% no FATE-X (benchmarks de álgebra abstrata em nível de doutorado), estabelecendo novo estado da arte em ambos.
O Leanstral 1.5 prova que verificação formal não precisa ser um luxo acadêmico. Com pesos totalmente abertos, API gratuita e licença Apache 2.0, qualquer desenvolvedor pode começar a usar proof engineering no Lean 4 hoje. A era em que IA não apenas escreve código, mas prova matematicamente que ele está correto, chegou — e é open-source.
"Proof abundance for all" — é assim que a Mistral define a missão do Leanstral 1.5. E, olhando para os resultados, o slogan não parece exagero.
Fontes: Mistral AI — Leanstral 1.5 Announcement · Hacker News Discussion