
Alternativas ao Atlan: Comparação de 6 Catálogos de Dados Open-Source
Atlan faz muitas coisas bem. Também custa entre $40-80k/ano para implantações de médio porte, e bloqueia várias funcionalidades (classificação automática por machine learning, certas integrações, linhagem avançada) atrás de níveis empresariais. Se você tem um orçamento, um roteiro que não depende da velocidade de um único fornecedor, ou apenas uma forte preferência por código aberto, as alternativas são mais fortes em 2026 do que eram há apenas seis meses.
Este é o campo, classificado pelo que cada um é realmente melhor — não pela contagem de recursos. Diremos explicitamente onde o Atlan ainda é melhor, porque fingir o contrário desperdiça seu tempo.
Matriz de Comparação Rápida
| Ferramenta | Licença | Mais Forte em | Mais Fraco em | Melhor Para |
|---|---|---|---|---|
| OpenMetadata | Apache 2.0 | Linhagem, glossário, integrações nativas | Polimento da interface, atualizações em tempo real | Equipes que querem profundidade + comunidade |
| DataHub (Acryl) | Apache 2.0 | Linhagem em streaming, API programática | Complexidade de configuração, curva de aprendizado | Equipes lideradas por engenharia |
| Amundsen (Lyft) | Apache 2.0 | Busca rápida, UX de descoberta | Linhagem, fluxos de trabalho de governança | Casos de uso focados na descoberta |
| Marquez (OpenLineage) | Apache 2.0 | Linhagem como um primitivo, especificação OpenLineage | UI do catálogo, metadados de negócios | Equipes de engenharia de dados |
| Unity Catalog (open) | Apache 2.0 | Governança multi-nuvem, nativo do Iceberg | Maturidade fora do Databricks | Loja Databricks + Iceberg |
| Data Workers Catalog Agent | Apache 2.0 | Busca cruzada de catálogos via MCP, nativo do agente | UI de painel único (é primeiro para agentes) | Equipes usando Claude/Cursor/ChatGPT |
1. OpenMetadata — O Mais Próximo Equivalente Aberto do Atlan
OpenMetadata é o catálogo de código aberto mais maduro por adoção. Apoiado pela Collate (fork comercial) e uma grande comunidade no GitHub (~6k estrelas, ~1k contribuidores). Ele cobre descoberta de dados, linhagem, governança, glossário, qualidade e observabilidade em um único binário.
O que ele faz bem: mais de 90 conectores nativos (Snowflake, BigQuery, Redshift, Databricks, Looker, Tableau, Power BI, Airflow, dbt, Fivetran). Linhagem de ponta a ponta, incluindo nível de coluna. Tagging embutido, glossário, classificações. Estrutura de teste de qualidade de dados embutida. Cadência de lançamentos ativa.
Onde não é Atlan: a interface é menos polida. Alguns fluxos de trabalho de governança avançados são mais simples. Atualizações em tempo real podem atrasar em ambientes maiores. A documentação ainda está se atualizando em relação ao conjunto de recursos.
Escolha OpenMetadata se: você deseja o conjunto de recursos mais amplo, está confortável em executar uma implantação de Postgres + Elasticsearch + serviço, e tem uma equipe que pode ocasionalmente ler código-fonte em Java/Python.
2. DataHub (Acryl) — O Catálogo Liderado por Engenharia
DataHub surgiu do LinkedIn e agora impulsiona a oferta comercial da Acryl. É o catálogo mais extensível programaticamente no espaço — emite CloudEvents, possui uma forte API GraphQL, integra linhagem em streaming via Kafka.
O que ele faz bem: linhagem em tempo real e streaming (unicamente forte aqui). A ingestão programática é um cidadão de primeira classe — você pode enviar metadados de qualquer fonte sem escrever um conector. RBAC forte. Boas integrações com Snowflake / dbt / Airflow.
Onde não é Atlan: curva de aprendizado mais acentuada. A interface assume um usuário técnico. A configuração é mais envolvente do que o OpenMetadata (Kafka, MySQL, Elasticsearch, múltiplos serviços).
Escolha DataHub se: sua equipe é liderada por engenharia, você deseja um catálogo que pode ser estendido programaticamente, e você tem dados em streaming que precisam de linhagem em streaming.
3. Amundsen — A Opção Focada na Descoberta
Amundsen surgiu do Lyft e é focado na descoberta de dados — busca rápida, resultados classificados por uso, UX simples. É intencionalmente menos uma ferramenta tudo-em-um do que OpenMetadata ou DataHub.
O que ele faz bem: a classificação de busca é a melhor do campo. Descoberta em sub-segundos em milhões de tabelas. Pilha simples de Neo4j + Elasticsearch + Flask. A UX leva os analistas aos dados mais rápido do que qualquer uma das alternativas.
Onde não é Atlan: fraco em fluxos de trabalho de governança. O suporte à linhagem melhorou, mas ainda está atrás do OpenMetadata/DataHub. A atividade da comunidade diminuiu desde 2023 — menos commits recentes do que os outros nesta lista.
Escolha Amundsen se: o problema que você está resolvendo é 'os analistas não conseguem encontrar dados', e você ainda não está tentando governá-los.
4. Marquez + OpenLineage — Linhagem Como Um Cidadão de Primeira Classe
Marquez é a implementação de referência da especificação OpenLineage — o padrão emergente para emitir eventos de linhagem de qualquer ferramenta de dados (Airflow, dbt, Spark, Flink). Não é um catálogo completo, mas é a maneira canônica de acertar a linhagem.
O que ele faz bem: foco puro em linhagem. Padrão aberto (OpenLineage) significa que você não está preso. O Airflow tem suporte nativo ao OpenLineage; existe um adaptador dbt-OpenLineage. Boa história de implantação no Kubernetes.
Onde não é Atlan: não é um catálogo. Sem glossário, classificações, fluxos de trabalho de governança. Você o emparegará com OpenMetadata ou DataHub ou similar.
Escolha Marquez se: a linhagem é a maior lacuna, e você deseja uma linhagem que sobreviva a mudanças de ferramentas (porque OpenLineage é a especificação subjacente).
5. Unity Catalog (Código Aberto) — Governança Multi-Nuvem, Nativo do Iceberg
O Databricks open-sourced Unity Catalog em junho de 2024. É o único catálogo nesta lista que é explicitamente projetado para Iceberg + governança multi-nuvem (Snowflake, Databricks, BigQuery todos legíveis através de uma única API).
O que ele faz bem: nativo do Iceberg. Acesso a tabelas multi-nuvem através de um único modelo de concessões. A API REST é a mesma do catálogo comercial Unity do Databricks (portabilidade é real). Forte em políticas de acesso.
Onde não é Atlan: a maturidade fora das implantações do Databricks ainda está se atualizando. A UI de descoberta/busca é mínima em comparação com outras. Menos uma ferramenta de glossário de negócios, mais um plano de governança.
Escolha Unity Catalog se: você está apostando no Iceberg, deseja acesso a tabelas multi-nuvem governadas em um só lugar, e se importa menos com uma UI de descoberta.
6. Data Workers Catalog Agent — Nativo do Agente, Cruzado de Catálogo
Este somos nós. Construímos o Catalog Agent porque todo catálogo nesta lista assume um usuário humano clicando através de uma interface. Agentes de IA (Claude Code, Cursor, ChatGPT) não podem clicar. Eles precisam de acesso ao catálogo através de ferramentas MCP.
O que ele faz bem: federar através de OpenMetadata, DataHub, Amundsen, Unity Catalog (e Atlan via API) para que uma única chamada de ferramenta MCP resolva 'onde estão os dados do pedido?' contra qualquer catálogo que tenha a resposta. 18 ferramentas de catálogo (resolução de entidades, conjuntos de ferramentas, classificação RRF de 4 sinais, suíte de avaliação de 200 consultas de ouro). Apache 2.0. Sem bloqueio de fornecedor.
Onde não é Atlan: não há uma UI independente. O Catalog Agent é projetado para ser consumido por um agente de IA ou para envolver um catálogo existente. Se você deseja uma interface de painel único para humanos, emparelhe-o com OpenMetadata.
Escolha Data Workers Catalog Agent se: agentes de IA são os principais consumidores do seu catálogo, ou você deseja descoberta federada cruzada de catálogos.
Quando Você Ainda Deve Pagar Pelo Atlan
O código aberto não é a resposta certa para todos. Pague pelo Atlan se:
- Você precisa de uma interface polida que usuários não técnicos adotarão sem treinamento. O Atlan investe pesadamente aqui; catálogos de código aberto estão alcançando, mas não são equivalentes.
- Você quer que o roteiro de um único fornecedor seja o seu
As empresas brasileiras podem se beneficiar de catálogos de dados open-source para otimizar a gestão de dados sem depender de fornecedores únicos. A comparação ajuda na escolha de ferramentas que atendam a necessidades específicas, como governança e integração de dados.

