Mineração de texto: Entenda a importância e quais as suas principais técnicas

Espalhe a palavra!
  •  
  •  
  •  
  •  
  •  
  •  
  •  

O processo de obtenção de conhecimento pode ser complicado quando falamos de uma massa de dados volumosa. Se feita diretamente sem a ajuda de uma máquina, simplesmente será inviável. Por esse motivo foram criadas técnicas de mineração de dados (MD), ou data mining (DM).

O termo surgiu em comunidades de TI em 1990 para recuperação de informação e reconhecimento de padrões.

De acordo com a IBM, estima-se que 85% de toda a informação do mundo está armazenada em forma de documentos textuais, ou seja, estruturas rígidas, assim como livros, e-books, imagens e áudio.

Utilizando rotinas automatizadas por computadores conseguimos facilmente alcançar a obtenção de informação criando rotinas ou robôs que farão o serviço pesado. Porém, é pré-requisito ter o conhecimento básico sobre o domínio da aplicação.

Por isso, antes do início do processamento, é necessário estabelecer:

-Os objetivos;

-Critérios de desempenho;

-Minuciosidade;

DESCOBRINDO O CONHECIMENTO

As etapas são praticamente sobre análise de dados e levam em conta processos interativos, iterativos, cognitivos e exploratórios.

Cada passo é feito por um analista. Veja:

1.Ele irá decidir qual é o tipo de conhecimento que será descoberto, compreendendo o domínio da aplicação e o que é relevante.

2.Selecionará um conjunto de dados onde será explorado e descoberto as informações significativas.

3.Limpeza de dados e pré-processamento: Em estruturas rígidas onde é necessário a decodificação da massa de dados para um formato aberto, PDF para texto por exemplo, são retirados caracteres com baixa relevância, marcações, notas e outros ruídos textuais.

4.Redução de dados e projeção: Localizações pontuais que representam os dados de acordo com a necessidade da tarefa. É feito o descarte do que não será aproveitado, visando a redução das variáveis para enriquecer a semântica das informações.

5.Mineração de dados: Métodos para localizar padrões nos dados, busca por padrões particulares, busca pelo melhor algoritmo para a tarefa de mineração.

6.Interpretação de padrões, onde possivelmente será retornado aos passos 1-6 para novas iterações.

7.Utilização do conhecimento descoberto: Incorporação do conhecimento no sistema, documentando e reportando aos interessados.

PRÁTICAS CORPORATIVAS

MD é também muito utilizada por empresas para o cruzamento de informações visando inovação e lucratividade. Elas coletam a todo instante (e em volumes imensos), e as empresas investem continuamente em novas tecnologias que agreguem valor ao negócio.

Esse comportamento atinge diferentes empreendimentos:

  • Estudo do DNA: Mapeamento e identificação de sequências genéticas, busca por similaridades e comparações. 
  • Estudos médicos: Análise de imagens de raio-x, tomografia, ultrassom, prescrição automática de exames, diagnósticos e tratamentos. O objetivo é preferencialmente a redução de custos.
  • Dados financeiros: Detecção de fraudes, lavagem de dinheiro, análise de mercado, tendências, especulações, análise de crédito, classificação de clientes.
  • Dados comerciais: Análise de vendas, comportamento dos clientes, fenômenos sazonais, giro de produtos, avaliações para campanhas publicitárias e marketing com objetivo de fidelizar clientes.
  • Telecomunicações: Avaliação de uso, tráfego, identificação de padrões de consumo,detecção de invasões e anomalias nos sistemas.

TÉCNICAS QUE FORMAM CONHECIMENTO ATRAVÉS DE MD

Descoberta por Extração de Passagens

Este tipo de descoberta tem por objetivo encontrar informações específicas, de forma um pouco mais independente de domínio, auxiliando usuários a encontrarem detalhes de informação, sem que este precise ler todo texto.

Entretanto, ainda assim, é necessário que o usuário leia e interprete as partes do texto que forem recuperadas para extrair a informação desejada.

Descoberta por Análise Linguística

Nesta abordagem, informações e regras podem ser descobertas através de análises linguísticas em níveis léxico, morfológico, sintático e semântico.

Descoberta por Análise de Conteúdo

Semelhante à descoberta por extração de passagens e à descoberta por análise linguística, este tipo de descoberta investiga linguisticamente os textos e apresenta ao seu usuário informações sobre o conteúdo dos textos.

Entretanto, a sua diferença está relacionada à forma de análise de conteúdo, onde há maior esforço no tratamento semântico dos textos, extrapolando o limite léxico-sintático.

Em relação à extração de passagens, a diferença é que, neste caso, o objetivo é encontrar o significado do texto pretendido pelo autor ao invés de partes ou informações específicas.

Descoberta por Sumarização

Este tipo de descoberta utiliza as técnicas de descoberta por extração de passagens, descoberta por análise de conteúdo, e descoberta por análise linguística, com ênfase na produção de resumos ou sumários (abstração das partes mais importantes do conteúdo do texto) a partir de textos.

Descoberta por Associação entre Passagens

Este tipo de descoberta tem por objetivo encontrar automaticamente conhecimento e informações relacionadas no mesmo texto ou em textos diferentes.

Esta abordagem combina a recuperação de informações por passagens com a recuperação contextual.

Sua principal aplicação está relacionada à definição automática de links em sistemas de hipertexto, sendo que principal vantagem é apresentar ao usuário partes de textos que tratam do mesmo assunto específico.

Descoberta por Listas de Conceitos-Chave

O objetivo deste tipo de descoberta é apresentar uma lista com os conceitos principais de um único texto, utilizando técnicas semelhantes à geração de centróides de classes, que permitem, por exemplo, extrair os termos mais frequentes dos textos.

Descoberta de Estruturas de Textos

Determinar a estrutura de um texto ajuda a entender seu significado. Neste sentido, esta técnica analisa as coesões léxicas de um texto, tendo como resultado cadeias de termos relacionados que contribuem para a continuidade do seu significado léxico.

Estas cadeias léxicas delimitam partes do texto que têm forte unidade de significado e ajudam também na resolução de ambiguidades, além da identificação da estrutura do discurso.

Além da estrutura léxica, também são analisadas as relações de coesão entre as partes e elementos do texto, e as relações de coerência entre sentenças.

Descoberta por Recuperação de Informações (RI)

RI é parte de um processo maior de exploração, correlação e síntese de informação.

Suas técnicas podem ajudar apresentando documentos com visão geral das informações ou assuntos (RI tradicional), ou apresentando partes de documentos com detalhes de informações (recuperação por passagens).

Existem ferramentas de RI por filtragem que contribuem garimpando documentos interessantes para seus usuários, sem que este precise formular consultas.

Descoberta Tradicional após Extração

É o tipo de descoberta mais simples. Nesta abordagem os dados são extraídos dos textos e formatados em bases de dados estruturadas com o auxílio de técnicas de Extração de Informações (EI).

Depois, são aplicadas técnicas e algoritmos de Mineração de Dados Estruturados (KDD), no sentido de descobrir conhecimento útil para seus usuários.

Basicamente, este processo segue os seguintes passos:

1.Tratar o problema de erros de digitação nos textos do universo considerado;

2.Recuperar documentos textuais que contenham as informações a serem estruturadas;

3.Extrair as partes que interessam dos documentos recuperados;

4.Extrair as informações destas partes com técnicas de EI;

5.Estruturar as informações coletadas para um formato próprio;

6.Extrair padrões nos dados coletados, com técnicas de descoberta de conhecimento;

7.Formatar a saída para o usuário (por exemplo, em linguagem natural).

Descoberta por Clusterização

A clusterização auxilia o processo de descoberta de conhecimento, facilitando a identificação de padrões (características comuns dos elementos) nas classes.

Esta técnica pode ser utilizada para estruturar e sintetizar o conhecimento quando este é incompleto ou quando há muitos atributos a serem considerados.

Também pode ser utilizada para facilitar o entendimento e identificação de classes potenciais para a descoberta de algum conhecimento útil.

Geralmente, esta técnica vem associada com alguma técnica de descrição de conceitos, para identificar os atributos de cada classe. 

Descoberta por Descrição de Classes de Textos

Dada uma classe de documentos textuais (já previamente agrupados) e uma categoria associada a esta classe (por exemplo, tema ou assunto dos textos), este tipo de descoberta busca encontrar as características principais desta classe, as quais possam identificá-la para os usuários e distingui-las das demais classes.

Esta abordagem geralmente também segue as técnicas para construção do centróide de classes e pode ser utilizada em conjunto com a clusterização.

Ela é diferente da abordagem por listas de conceitos-chave, porque descobre características comuns em vários textos e não em um único texto.

Descoberta por Associação entre Textos

Esta técnica procura relacionar descobertas presentes em vários textos diferentes. As descobertas estão presentes no conteúdo ou significado dos textos.

Esta abordagem é diferente do que acontece na descoberta por associação entre passagens, cujo objetivo é somente relacionar partes de textos sobre o mesmo assunto.

Na associação entre textos, a interpretação semântica é fundamental.

Descoberta por Associação entre Características

Esta abordagem procura relacionar tipos de informação (atributos) presentes em textos, aplicando a técnica de correlação ou associação tradicional em Mineração de Dados diretamente sobre partes do texto.

Uma das diferenças é que os valores para os atributos são partes do texto e não necessariamente dados extraídos por técnicas de extração de informações.

Descoberta por Hipertextos

Um caso especial de descoberta utilizando técnicas de recuperação de informações (RI) é a descoberta com uso de hipertextos.

Nesta abordagem, a descoberta é exploratória e experimental, feita através de mecanismos de navegação (browsing).

Com tais ferramentas, é possível expandir e comparar o conhecimento através dos links que relacionam as informações, funcionando de modo análogo à mente humana (memória associativa).

A aprendizagem pode ocorrer acidentalmente e de forma cumulativa, não exigindo estratégias cognitivas. A criatividade e a curiosidade guiam tal processo.

Tal abordagem é útil quando os problemas de falta de informação são mal definidos e quando se quer explorar novos domínios.

Descoberta por Manipulação de Formalismos

Uma vez que é possível representar o conteúdo dos textos em formalismos, mecanismos de manipulação simbólica podem inferir novos conhecimentos, simplesmente por transformações na forma.

As representações resultantes podem ser depois transformadas para estruturas na linguagem natural, facilitando a compreensão de usuários leigos no formalismo.

Descoberta por Combinação de Representações

Um caso especial da descoberta por associação entre textos é a descoberta por combinação de representações.

A diferença é que os textos, antes de serem combinados, passam por um processo de representação interna.

Então, na verdade, não são os textos que são combinados, mas sim seus conteúdos, conforme o formalismo e as regras internas.

A combinação de representações diferentes, permite que pontos de vista diferentes possam ser usados para criar novas representações e consequentemente novo conhecimento.

Os formalismos internos podem ser modelos conceituais ou tradicionais (por exemplo, o modelo relacional) ou ontologias, linguagens baseadas em lógica, etc.

A saída do processo de combinação deve estar representada em linguagem natural, podendo utilizar técnicas de processamento de linguagem natural como as citadas anteriormente.

Descoberta por Comparação de Modelos Mentais

Esta abordagem procura representar documentos textuais e o estado de conhecimento do usuário (modelo mental das informações) em um formalismo padrão, para após, compará-los.

Se for possível verificar o que há nos documentos que falta no estado mental do usuário, então um conhecimento novo foi descoberto.

O problema maior desta abordagem está na aquisição ou elicitação do conhecimento ou estado mental do usuário para poder representá-lo.

Descoberta por Análise de Sequências Temporais

Esta técnica permite descobrir dependências entre conceitos que aparecem em textos dentro de uma mesma janela de tempo.

O objetivo é saber se um conceito condiciona a aparição de outro no futuro. Os textos a serem analisados neste processo devem obrigatoriamente seguir uma ordem cronológica, formando uma sequência temporal.

Essas sequências podem ser independentes, não havendo relação explícita entre textos de uma sequência e de outra.

PRÓXIMO ARTIGO

Na semana que vem, no próximo artigo sobre Tecnologia, utilizaremos expressões regulares para explorar os dados utilizando as técnicas que foram abordadas neste artigo.

Continue com a gente e mergulhe cada vez mais no mundo da informação.

Até!

Deixar Um Comentário

Quer receber mais conteúdos brilhantes?