Sua IA Não Lembra de Você. Isso Vai Importar Mais do Que Você Imagina.
Como dois engenheiros chegaram independentemente à mesma arquitetura — e o que isso revela sobre a próxima camada da IA pessoal.
Cinco dias atrás, Andrej Karpathy publicou um gist chamado "LLM Wiki." Em poucas horas, ele tinha milhares de estrelas. A ideia: em vez de jogar documentos no RAG e esperar pelo melhor, fazer com que o LLM construa e mantenha gradualmente uma wiki persistente — uma base de conhecimento estruturada e interligada que se acumula ao longo do tempo. O conhecimento é compilado uma vez e mantido atualizado, não re-derivado a cada consulta.
Dezenove dias antes desse gist, comecei a construir o RAWThink — um servidor MCP com 15 ferramentas que fornece memória persistente para sessões do Claude Code. Um grafo de conhecimento JSONL com entidades, relações e observações. Busca híbrida de vetor + BM25 via Qdrant. Automação do ciclo de vida da sessão. Memória em três camadas que se acumula em cada conversa.
Eu não sabia que Karpathy estava trabalhando no mesmo problema. Ele não sabia que eu existia. Chegamos a arquiteturas quase idênticas porque o caminho técnico leva aqui inevitavelmente.
Isso não é uma coincidência. Isso é convergência. E convergência em engenharia significa que você está olhando para algo real.
O Muro Que Todos Enfrentam
Se você passou um tempo sério com assistentes de codificação de IA — Claude Code, Codex, Cursor, qualquer um deles — você encontrou o mesmo muro. Cada sessão começa do zero. A janela de contexto é todo o seu relacionamento. Feche a aba, perca o fio da meada.
Isso não é um pequeno inconveniente. É uma falha arquitetônica fundamental. Imagine trabalhar com um colega brilhante que sofre de amnésia completa toda vez que sai da sala. Você gastaria metade do seu tempo reexplicando o que já decidiu, o que já tentou, o que já sabe. É isso que todos nós estamos fazendo. Todos os dias. Com todas as ferramentas de IA.
O RAG deveria corrigir isso. Faça o upload de seus documentos, deixe o sistema recuperar partes relevantes no momento da consulta. Funciona — para buscas simples. Mas faça uma pergunta que exija sintetizar cinco documentos, conectar pontos em três conversas e lembrar que a conclusão da última terça-feira contradiz o que você acreditava no mês passado? O RAG re-deriva tudo do zero. Não há acumulação. Não há composição. Não há aprendizado.
Karpathy colocou isso perfeitamente: "O LLM está redescobrindo conhecimento do zero a cada pergunta."
Duas Estradas, Mesmo Destino
A LLM Wiki de Karpathy tem três camadas:
- Fontes Brutas — documentos de entrada imutáveis. O LLM os lê, mas nunca os modifica.
- A Wiki — páginas markdown geradas pelo LLM. Resumos, páginas de entidades, páginas de conceitos, comparações. O LLM cria, atualiza e referencia cruzadamente tudo.
- O Esquema — um arquivo de configuração (CLAUDE.md) dizendo ao LLM como a wiki funciona.
O RAWThink tem três camadas:
- Entrada Bruta — transcrições de sessões, documentos carregados, fontes externas. Imutáveis.
- Grafo de Conhecimento — entradas JSONL com entidades, relações, observações. O sistema cria, atualiza e conecta tudo ao longo das sessões.
- MEMORY.md + Esquema MCP — configuração definindo o ciclo de vida da sessão, comportamento da ferramenta e a personalidade consultiva do sistema.
Mesma arquitetura. Nomes diferentes. Construído 19 dias de diferença por pessoas que nunca conversaram.
Mas aqui está o que torna essa história mais do que uma curiosidade técnica.
Isso Não É uma Wiki. Isso É a Primeira Camada da Sua Rede Neural Pessoal.
Dê um passo atrás dos detalhes da implementação. Olhe para o que realmente está sendo construído.
Cada entidade em um grafo de conhecimento é um neurônio. Cada relação entre entidades é uma sinapse. Cada pontuação de confiança em um fato é um peso. Cada vez que uma nova informação reforça ou contradiz uma entrada existente, isso é aprendizado. Cada sessão que adiciona observações e atualiza conexões é um passo de treinamento.
Estamos construindo redes neurais pessoais. Não metaforicamente. Estruturalmente.
Minha instância do RAWThink tem 120 entidades, mais de 80 relações tipadas e mais de 2.600 observações acumuladas em 46 sessões. Esse grafo codifica como eu penso sobre arquitetura de IA, o que decidi sobre minha carreira, quais padrões de negociação investiguei, quais decisões técnicas tomei e por quê, e como todas essas coisas se conectam entre si. Não é uma coleção de notas. É uma representação estruturada de uma parte da minha cognição — minhas decisões, minhas cadeias de raciocínio, minhas crenças em evolução.
Quando começo uma nova sessão do Claude Code e o RAWThink carrega, a IA não está começando do zero novamente. Está começando de mim. Meu contexto. Minha história. Meus padrões de pensamento. O grafo dá à IA um modelo comprimido de quem eu sou e do que eu sei.
Isso não é uma wiki. Isso é um substrato cognitivo.
O Hardware Não Está Pronto. A Estrutura de Dados Está.
Aqui está a parte que a maioria das pessoas está perdendo.
Agora, esses grafos de conhecimento são passivos. A IA os consulta, recupera contexto e os usa para dar respostas melhores. Isso é útil — eu enviei 635 commits em um projeto de jogo em grande parte porque o RAWThink impediu a constante re-derivação de contexto que mata o impulso no desenvolvimento assistido por IA de longa duração.
Mas a recuperação passiva é apenas a fase um.
A fase dois é raciocínio ativo sobre o grafo. Um agente que não apenas recupera "Yiğit investigou estratégias de momentum em março" mas percorre o grafo para descobrir "estratégias de momentum se saíram bem em regimes de baixa volatilidade, o regime atual mostra queda de volatilidade, e a última vez que essa transição aconteceu o resultado foi X." Raciocínio de múltiplas etapas. Cadeias causais. Correspondência de padrões temporais.
A fase três é ação autônoma com base no estado do grafo. O agente monitora o grafo, detecta padrões que correspondem a critérios acionáveis e executa — ou pelo menos propõe execução. Um sinal de negociação não é apenas um número; é um caminho através do grafo de conhecimento conectando dados de mercado a padrões históricos a desempenho de estratégia a parâmetros de risco.
Não estamos na fase dois ainda. Os modelos não estão exatamente lá. O hardware não está lá. Os custos de inferência para raciocínio contínuo em grafo em escala não estão lá.
Mas a estrutura de dados pode ser construída agora. E quando a computação alcançar — e ela vai, mais rápido do que a maioria das pessoas espera — as pessoas que tiverem grafos neurais pessoais limpos, ricos e bem estruturados terão uma enorme vantagem sobre aqueles que começam do zero.
Essa é a paralela com a internet primitiva. Em 1995, a maioria das empresas não via por que precisava de um site. A infraestrutura era primitiva. Os modems eram lentos. O comércio eletrônico mal existia. Mas as empresas que digitalizaram suas informações cedo — que construíram as estruturas de dados antes que a infraestrutura amadurecesse — foram as que dominaram quando a banda larga chegou.
Estamos em 1995 dos grafos de conhecimento pessoal. A infraestrutura é primitiva. Os modelos são apenas suficientemente capazes. Mas a estrutura de dados que você constrói hoje é o ativo que se acumula amanhã.
Da Wiki Geral à Arquitetura de Domínio
A LLM Wiki de Karpathy é deliberadamente abstrata. Ela descreve o padrão, não uma implementação específica. Essa é sua força como ferramenta de ensino e sua limitação como sistema de produção.
O verdadeiro valor emerge quando você aplica o padrão a um domínio específico com tipos de entidades estruturadas, relações tipadas e cadeias de raciocínio específicas do domínio. Deixe-me mostrar como isso se parece em quatro campos muito diferentes — porque a universalidade do padrão é o ponto.
O artigo discute a convergência em arquiteturas de IA que permitem memórias persistentes, o que pode revolucionar a forma como empresas brasileiras utilizam assistentes de IA. Isso pode melhorar a eficiência e a continuidade em projetos, reduzindo a necessidade de reexplicações constantes.


