E se os navegadores fossem projetados para IA, não para humanos?

A dor que eu assisti de perto

Sou engenheiro de infraestrutura em nuvem, com 6 anos de experiência. Eu vi engenheiros em equipes de produtos de IA passarem pelo mesmo ciclo doloroso mais vezes do que consigo contar.

Eles armazenavam dados de referência com cuidado. Alimentavam a IA. A IA ainda assim alucina. Números errados. Contexto errado. Dito com total confiança. Então alguém passava três horas rastreando fontes manualmente, tentando descobrir de onde a IA tirou seus "fatos". Eu sentei ao lado dessas pessoas. Eu vi seus rostos.

Eu faço a mesma coisa. Eu digo à IA, "vá encontrar fontes confiáveis na internet e verifique isso para mim." E então me pergunto se a resposta realmente tem algum respaldo. Toda vez.

Em algum momento, parei de culpar a IA e comecei a culpar a ferramenta. Por que estamos forçando a IA a navegar na web como um humano? Humanos leem visualmente. A IA não. E se houvesse um navegador construído para como a IA realmente processa informações?

Eu construí o touch-browser para descobrir. Usei o Codex para isso, o que parecia certo: construir um navegador de IA com uma IA. Primeiro projeto de código aberto. Não sei se é útil. Adoraria ouvir o que você pensa.

GitHub: nangman-infra/touch-browser

Eu perguntei primeiro

Eu conversei com pessoas. Li fóruns. Fiquei de olho em canais do Discord. Antes de escrever uma linha de código, eu queria saber se esse problema era só meu ou se outras pessoas estavam enfrentando a mesma barreira.

Acontece que estavam:

"A IA cita fontes com confiança que não dizem o que ela afirma." Engenheiros pedem à IA para verificar uma especificação. Eles recebem uma resposta confiante com uma URL. A página diz algo completamente diferente.
"Não posso confiar na pesquisa da IA sem verificar manualmente cada fonte." Você passa 30 minutos verificando o que a IA te disse em 5 segundos. Qual é o ponto?
"Agentes de IA clicam em coisas que não deveriam." Fluxos de trabalho agentes onde a IA segue instruções maliciosas incorporadas em páginas da web. Clica em botões de pagamento. Preenche formulários em sites hostis.
"Não há trilha de auditoria." A IA te dá um resumo de pesquisa. Não há como rastrear qual parágrafo em qual página levou a qual conclusão.

O que já está no mercado

Eu olhei para todas as ferramentas de IA relacionadas a navegadores que consegui encontrar. Três categorias:

Categoria 1: Scrapers de Markdown (Exa, Firecrawl, Jina Reader)

Convertem páginas da web em markdown limpo para consumo da IA
Ótimos na extração, zero verificação
Sem conceito de "este conteúdo apoia a afirmação?"

Categoria 2: Automação de Navegador (Playwright MCP, Puppeteer MCP, Browserbase)

Dão controle aos agentes de IA sobre um navegador real — clicar, digitar, navegar
Poderoso para tarefas de automação (preenchendo formulários, testando)
Sem pontuação de evidência, sem política de segurança, sem rastreamento de citações

Categoria 3: Uso de Computador / Controle de Tela Cheia (Anthropic Computer Use, OpenAI Operator)

A IA vê a tela real e controla o mouse/teclado
Mais poderoso, mas também mais caro e de maior risco
A própria Anthropic alerta sobre os riscos de injeção de prompt nesse modo

O que estava faltando: Categoria 0

Nenhuma dessas ferramentas verifica o que a IA lê. Todas se concentram em como obter conteúdo (raspar, automatizar, ver) mas não se esse conteúdo é confiável.

É como construir um carro com um ótimo motor, mas sem freios. Quanto mais rápido você vai, mais perigoso fica.

Por que isso não existia?

Acho que existem razões estruturais:

O navegador foi projetado para humanos. Todas as ferramentas existentes começam a partir de "como damos acesso da IA a um navegador humano?" em vez de "o que a IA realmente precisaria da web?"
A verificação é difícil de vender. "Nós buscamos páginas 10x mais rápido" é fácil de medir. "Nós verificamos se o conteúdo apoia sua afirmação" requer definir o que verificação realmente significa — e ainda não há um padrão para isso.
O ecossistema MCP era voltado para automação. Quando o MCP foi lançado, as primeiras ferramentas de navegador naturalmente se concentraram no caso de uso mais óbvio: automatizar o que os humanos fazem. A verificação de evidências é um modelo mental completamente diferente.
Ninguém combinou as camadas. Algumas ferramentas fazem segurança (sandboxing, permissões). Algumas fazem extração (markdown, árvore de acessibilidade). Algumas fazem pesquisa (multi-página). Mas combinar pontuação de evidências + política de segurança + sessões de pesquisa + citações em um único runtime? Essa interseção não tinha um produto.

Então eu decidi construí-lo.

O que eu projetei: 4 capacidades principais

Antes de escrever código, listei o que cada ponto de dor realmente precisava:

A IA cita fontes que não correspondem → Mecanismo de Evidência pontua afirmações contra o conteúdo da página (core/crates/evidence)
Não posso confiar sem verificação manual → Contratos Estruturados para que cada saída siga um JSON Schema (contracts/schemas, 15 esquemas)
Agentes clicam em coisas perigosas → Núcleo de Políticas classifica e bloqueia conteúdo hostil (core/crates/policy)
Sem trilha de auditoria para pesquisa → Memória de Sessão para pesquisa em múltiplas abas com síntese (core/crates/memory)

Então as peças de apoio:

Observação (core/crates/observation) normaliza o DOM bruto em blocos estruturados com referências estáveis. HTML bagunçado da web entra, dados limpos e pontuáveis saem.
Aquisição (core/crates/acquisition) lida com busca, redirecionamentos, cache. Nada entra no domínio sem verificação.
VM de Ação (core/crates/action-vm) executa ações tipadas (clicar, digitar, enviar) com uma taxonomia de falhas. Sem falhas silenciosas.
Contratos (contracts/schemas) são a linguagem publicada. 15 JSON Schemas. Nenhuma ferramenta retorna texto livre.

Eu organizei isso como contextos delimitados de DDD. Cada crate possui uma coisa, se comunica através de contratos tipados. O estado bruto do navegador nunca toca a lógica de domínio. O adaptador Playwright fica na fronteira como uma camada de anti-corrupção.

Web Externa → Aquisição → Observação → Evidência
                                         → Política
                                         → Memória
                              ↓
                         CLI / Ponte MCP (28 ferramentas)
                              ↓
                         Adaptador Playwright (execução do navegador)

137 commits em 6 dias. A maioria deles gerados pelo Codex, eu revisando e direcionando. Aqui está o que realmente aconteceu durante a implementação, começando com o que levou mais tempo.

A coisa que mais quebrou: detecção de contradições

A pontuação de evidências em si foi direta. Sobreposição TF-IDF, ajuste estrutural, correspondência numérica. O Codex acertou isso na primeira tentativa. A fórmula de pontuação acabou assim:

E se os navegadores fossem projetados para IA, não para humanos?

A dor que eu assisti de perto

Eu perguntei primeiro

O que já está no mercado

Por que isso não existia?

O que eu projetei: 4 capacidades principais

A coisa que mais quebrou: detecção de contradições

Noticias relacionadas

Além do RAG: Por que cada plataforma de busca em IA agora é agentiva e o que isso significa para seu conteúdo

Fontes Preferenciais se Expandem, Aumento de Visibilidade de Marca no Gmail, Pichai Sobre Visões Gerais de IA

Desmistificando a Onda da IA: Um Guia para Engenheiros de Backend sobre LLMs, RAG e Agentes

Gostou do conteudo?