Recuperação de Informação Parte 3: Vetorização e Transformers (Não o Filme)

Sistemas de recuperação de informação são projetados para satisfazer um usuário. Para fazer um usuário feliz com a qualidade de sua recuperação. É importante entendermos isso. Cada sistema e seus insumos e resultados são projetados para fornecer a melhor experiência ao usuário. Desde os dados de treinamento até a pontuação de similaridade e a capacidade da máquina de "entender" nossa cansativa e triste conversa – esta é a terceira parte de uma série que intitulei, recuperação de informação para leigos.

TL;DR No modelo de espaço vetorial, a distância entre vetores representa a relevância (similaridade) entre os documentos ou itens. A vetorização permitiu que os motores de busca realizassem buscas por conceito em vez de por palavra. É o alinhamento de conceitos, não letras ou palavras. Documentos mais longos contêm mais termos semelhantes. Para combater isso, o comprimento do documento é normalizado e a relevância é priorizada. O Google tem feito isso há mais de uma década. Talvez você também tenha feito isso há mais de uma década.

Coisas que Você Deve Saber Antes de Começarmos

Alguns conceitos e sistemas que você deve estar ciente antes de mergulharmos. Eu não me lembro de todos eles, e você também não. Apenas tente aproveitar e espere que, através da osmose e consistência, você se lembre vagamente das coisas ao longo do tempo.

TF-IDF significa frequência de termo - frequência inversa de documento. É uma estatística numérica usada em NLP e recuperação de informação para medir a relevância de um termo dentro de um corpus de documentos.
A similaridade cosseno mede o cosseno do ângulo entre dois vetores, variando de -1 a 1. Um ângulo menor (mais próximo de 1) implica maior similaridade.
O modelo bag-of-words é uma forma de representar dados textuais ao modelar texto com algoritmos de aprendizado de máquina.
Modelos de extração/ codificação de características são usados para converter texto bruto em representações numéricas que podem ser processadas por modelos de aprendizado de máquina.
A distância euclidiana mede a distância em linha reta entre dois pontos no espaço vetorial para calcular a similaridade (ou dissimilaridade) dos dados.
Doc2Vec (uma extensão do Word2Vec), projetado para representar a similaridade (ou falta dela) em documentos em vez de palavras.

O Que É O Modelo de Espaço Vetorial?

O modelo de espaço vetorial (VSM) é um modelo algébrico que representa documentos textuais ou itens como "vetores". Essa representação permite que os sistemas criem uma distância entre cada vetor. A distância calcula a similaridade entre termos ou itens. Comumente usado em recuperação de informação, classificação de documentos e extração de palavras-chave, modelos vetoriais criam estrutura. Este espaço numérico estruturado e de alta dimensão permite o cálculo de relevância através de medidas de similaridade como a similaridade cosseno. Os termos recebem valores. Se um termo aparece no documento, seu valor é diferente de zero. Vale a pena notar que os termos não são apenas palavras-chave individuais. Eles podem ser frases, sentenças e documentos inteiros.

Como Funciona?

Uma vez que consultas, frases e sentenças são atribuídas a valores, o documento pode ser pontuado. Ele tem um lugar físico no espaço vetorial conforme escolhido pelo modelo. Neste caso, palavras, representadas em um gráfico para denotar relacionamentos entre elas. Com base em sua pontuação, os documentos podem ser comparados entre si com base na consulta inserida. Você gera pontuações de similaridade em escala. Isso é conhecido como similaridade semântica, onde um conjunto de documentos é pontuado e posicionado no índice com base em seu significado. Não apenas sua similaridade lexical. Eu sei que isso soa um pouco complicado, mas pense assim: palavras em uma página podem ser manipuladas. Repletas de palavras-chave. Elas são muito simples. Mas se você pode calcular o significado (do documento), você está um passo mais perto de uma saída de qualidade.

Por Que Funciona Tão Bem?

As máquinas não apenas gostam de estrutura. Elas adoram. Entradas e saídas de comprimento fixo (ou estilizadas) criam resultados previsíveis e precisos. Quanto mais informativo e compacto um conjunto de dados, melhor qualidade de classificação, extração e previsão você obterá. O problema com o texto é que ele não tem muita estrutura. Pelo menos não aos olhos de uma máquina. É bagunçado. É por isso que tem uma vantagem sobre o clássico Modelo de Recuperação Booleano. Nos Modelos de Recuperação Booleanos, documentos são recuperados com base em se satisfazem as condições de uma consulta que usa lógica booleana. Ele trata cada documento como um conjunto de palavras ou termos e usa operadores AND, OR e NOT para retornar todos os resultados que se encaixam. Sua simplicidade tem suas utilidades, mas não pode interpretar significado. Pense nisso mais como recuperação de dados do que identificar e interpretar informações. Frequentemente caímos na armadilha da frequência de termos (TF) com buscas mais sutis. Fácil, mas preguiçoso no mundo de hoje. Enquanto o modelo de espaço vetorial interpreta a relevância real para a consulta e não requer termos de correspondência exata. Essa é a beleza disso. É essa estrutura que cria um recall muito mais preciso.

A Revolução do Transformer (Não Michael Bay)

Diferente da série de Michael Bay, a verdadeira arquitetura de transformer substituiu métodos de incorporação estáticos mais antigos (como Word2Vec) por incorporações contextuais. Enquanto modelos estáticos atribuem um vetor a cada palavra, transformers geram representações dinâmicas que mudam com base nas palavras circundantes em uma frase. E sim, o Google tem feito isso há algum tempo. Não é novo. Não é GEO. É apenas recuperação moderna de informações que "entende" uma página. Quero dizer, obviamente não. Mas você, como um ser esperançoso e consciente, entende o que quero dizer. Mas transformers, bem, eles fingem: Transformers pesam a entrada de dados por significância. O modelo presta mais atenção a palavras que demandam ou fornecem contexto extra. Deixe-me dar um exemplo. "Os dentes do morcego brilharam enquanto ele voava para fora da caverna." Morcego é um termo ambíguo. Ambiguidade é ruim na era da IA. Mas a arquitetura do transformer vincula morcego com "dentes", "voou" e "caverna", sinalizando que morcego é muito mais provável de ser um roedor vampírico* do que algo que um cavalheiro usaria para acariciar a bola em um limite no melhor esporte do mundo. *Não tenho certeza se um morcego é um roedor, mas...

Recuperação de Informação Parte 3: Vetorização e Transformers (Não o Filme)

Recuperação de Informação Parte 3: Vetorização e Transformers (Não o Filme)

Coisas que Você Deve Saber Antes de Começarmos

O Que É O Modelo de Espaço Vetorial?

Como Funciona?

Por Que Funciona Tão Bem?

A Revolução do Transformer (Não Michael Bay)

Noticias relacionadas

Controle em Tempo de Execução vs Guardrails Estáticos em Sistemas Agentes

Por que os usuários estão fugindo da busca sem IA e o que isso significa para o SEO

Relatório de Visão Geral de IA do GSC: Como Podemos Usar Essas Informações?

Gostou do conteudo?