
ARI — Um Sistema Universal de Automação de Pesquisa que Funciona de Laptop a Supercomputador
Introdução
A ideia de automatizar a pesquisa não é nova. Desde o AI Scientist v2 da Sakana AI, houve muitas tentativas de entregar todo o processo de pesquisa a agentes LLM. Mas, na prática, esses sistemas exigem um orçamento de nuvem, uma equipe de engenharia interna ou ferramentas específicas de domínio — tornando-os ferramentas para poucos que já possuem recursos.
ARI (Inteligência Artificial de Pesquisa) é um sistema de automação de pesquisa de código aberto projetado para derrubar essa barreira. Ele funciona de forma idêntica em uma instância local do Ollama em seu laptop e em um cluster de supercomputador SLURM com APIs comerciais — usando um único arquivo Markdown. O núcleo não contém nenhum conhecimento de domínio codificado; cada decisão é tomada pelo LLM em tempo de execução. Esse design significa que o mesmo pipeline pode lidar com benchmarks de desempenho HPC, ajuste de hiperparâmetros de ML e — em princípio — otimização química.
Neste artigo, vou apresentar o design do sistema e percorrer um verdadeiro artigo de análise de desempenho SpMM de 11 páginas que o ARI produziu com zero intervenção humana.
- Página inicial do projeto: https://kotama7.github.io/ARI/
- GitHub: https://github.com/kotama7/ARI
Resumo em 3 Linhas
- Entrada: Um arquivo Markdown descrevendo seu objetivo de pesquisa (mínimo 3 linhas)
- Saída: Código de experimento, dados medidos, figuras, artigo em LaTeX, revisão por pares e relatório de verificação de reprodutibilidade
- Ambiente: Alterna sem problemas entre laptop (Ollama local) e cluster HPC (SLURM + API comercial) com o mesmo arquivo de experimento
Versão atual: v0.4.1 (lançada em 2026-04-08). Inclui um painel web de 9 páginas em React/TypeScript, 14 habilidades MCP e documentação em 3 idiomas.
Por que ARI — Democratizando a Automação de Pesquisa
A automação de pesquisa historicamente exigiu:
- Orçamentos de nuvem caros
- Equipes de engenharia internas
- Ferramentas específicas de domínio que não se generalizam
ARI é construído em uma única afirmação: a distância entre "Eu tenho uma ideia" e "Eu tenho resultados" deve ser medida em horas, não meses — independentemente dos seus recursos.
O sistema escala ao longo de 5 eixos com uma única base de código unificada:
| Eixo | Mínimo | Completo |
|---|---|---|
| Computação | Laptop (processo local) | Supercomputador (cluster SLURM) |
| LLM | Ollama local (qwen3:8b) | API comercial (GPT-4, Claude) |
| Especificação do experimento | 3 linhas .md
|
Scripts SLURM detalhados + regras |
| Domínio | Benchmarks de computação | Mundo físico (robótica, sensores, laboratório) |
| Especialização | Iniciante (apenas objetivo) | Especialista (controle total de parâmetros) |
O arquivo de experimento mínimo é realmente apenas isso:
# Otimização de Multiplicação de Matrizes
## Objetivo da Pesquisa
Maximizar GFLOPS de DGEMM nesta máquina.
<!-- metric_keyword: GFLOPS -->
A partir deste objetivo de 3 linhas, o ARI executa pesquisa → geração de hipótese → implementação → execução → geração de figuras → redação de artigo → verificação de reprodutibilidade de ponta a ponta.
Arquitetura — "experiment.md → artigo + relatório de verificação"
experiment.md ──► ARI Core ──► resultados + artigo + relatório de reprodutibilidade
│
┌───────────┼──────────────────────┐
│ │ │
BFTS Engine ReAct Loop Post-BFTS Pipeline
(Busca de Árvore (agente por nó) (driven por workflow.yaml)
de Melhor Primeiro) │
MCP Skill Servers
(sistema de plugins)
O núcleo do ARI possui três camadas:
- Motor BFTS (Busca de Árvore de Melhor Primeiro) — explora o espaço da hipótese de forma orientada por evidências, não exaustivamente
- Ciclo ReAct — agente LLM executando por nó: raciocínio → chamada de ferramenta → observação
- Servidores de habilidades MCP — ferramentas puramente funcionais implementadas via Protocolo de Contexto de Modelo (submissão de trabalho HPC, geração de artigo, geração de figuras, etc.)
Após a conclusão do BFTS, o Pipeline Pós-BFTS definido em workflow.yaml executa extração de dados → geração de figuras → redação de artigo → revisão por pares → verificação de reprodutibilidade automaticamente.
Fluxo de Dados de Ponta a Ponta (10 Passos)
- Pesquisa — buscar trabalhos relacionados no arXiv / Semantic Scholar
- Geração de hipótese — deliberação multi-agente estilo VirSci determina hipóteses, métricas-chave e critérios de avaliação
- Busca em árvore — BFTS expande nós candidatos em ordem de prioridade
- Execução do experimento — agente ReAct gera, compila e executa código por nó (polling automático até que o trabalho SLURM seja concluído)
-
Avaliação de revisão por pares — LLMEvaluator atribui
scientific_score(0.0–1.0) - Análise em toda a árvore — Transform skill BFS atravessa a árvore para extrair insights de hardware/método/ablação
- Geração de figuras — O skill de plotagem do LLM escreve código matplotlib e gera figuras em PDF
- Redação de artigo em LaTeX — O skill de artigo gera um artigo completo com citações BibTeX
- Revisão por pares do artigo — O LLM atua como árbitro e pontua o artigo
- Verificação de reprodutibilidade — Um agente ReAct separado lê apenas o texto do artigo, re-executa o experimento e verifica os valores reivindicados em relação às medições reais
O passo 10 merece destaque: o agente de reprodutibilidade lê apenas o artigo — sem acesso à configuração original do experimento. Isso verifica se os métodos descritos no artigo são realmente suficientes para reproduzir os resultados. Esta é uma verificação que a revisão por pares humana não pode realizar realisticamente.
O Design Central — Princípio de Zero Conhecimento de Domínio
Ao ler o código-fonte do ARI, você notará algo: ari-core não contém palavras-chave específicas de domínio para HPC, ML, química ou qualquer outra coisa. Isso não é acidental — é um invariante de design imposto na revisão de código.
| ❌ Proibido | ✅ Correto |
|---|---|
if "GFLOP" in metric_name |
Usar scientific_score do LLM
|
| `grep -i "gcc\ | openmp"` |
| "Comparar contra MKL" no prompt | LLM decide comparações |
| Codificar tipo de figura | LLM escolhe a partir dos dados |
+0.2 peso de pontuação |
LLM pontua de forma holística |
lscpu no prompt do sistema |
LLM chama se necessário |
O núcleo especifica apenas três coisas:
- Formato: chamadas de ferramenta em JSON, descrições de experimento em Markdown
- Protocolo: comunicação de habilidades via MCP
-
Sinal: classificação BFTS via
scientific_scoreatribuído pelo LLM (0.0–1.0)
Tudo o mais — o que medir, o que comparar, quais informações de hardware importam, quais figuras desenhar, quais citações incluir — é determinado autonomamente pelo LLM em tempo de execução.
O ARI pode impactar empresas brasileiras ao facilitar a automação de processos de pesquisa, reduzindo custos e tempo. Isso pode democratizar o acesso a inovações e melhorar a competitividade no mercado. A adoção de ferramentas como o ARI pode acelerar o desenvolvimento de soluções baseadas em IA.


