Tratamento Textual: um script agrupando funções de Tratamento e Sumarização de Textos em Português

O programa foi desenvolvido com o intuito de realizar tratamentos de textos para apoiar outros processos associados à mineração de textos. O script produzido agrupa funções para: sumarização textual baseada em frequência, pré-processamento de textos, lematização, definir as palavras mais comuns em textos e contar entidades nomeadas mencionadas em textos.

Registrado(a) Área: Ciências Exatas e da Terra Categoria: Tecnologia da Informação e Comunicações

O programa consiste em um script desenvolvido em linguagem Python, versão 3.6, com o objetvo de disponibilizar funções pré-defnidas, para uso em outras aplicações de mineração de texto como no caso de análises de sentmentos, de opiniões, emoções e mineração de tópicos. Dentre as funções implementadas estão:

  • resumir(), destnada à sumarização de textos com base em frequencia normalizada de palavras
    (ou termos)
  • preprocessamento(), destnada ao pré-processamento de textos considerando eliminação de
    caracteres especiais e pontuações por meio de expressões regulares; eliminação de stopwords;
    case-folding (remoção de maiúsculas); tokenização e criação de lista de tokens
  • lematzacao(), para a lematzação dos textos;
  • palavras_mais_comuns(), para obtenção das palavras mais comuns em um conjunto de textos;

contar_entdades(), para contagem da quantdade de entdades encontradas ao longo de um conjunto de textos. A função preprocessamento() recebe também um conjunto externo adicional de stopwords, complementando o conjunto padrão utlizado (da biblioteca Spacy) para serem removidas caso encontradas nos textos, contendo inclusive termos comumente abreviados em textos oriundos de redes sociais. Foram empregadas as bibliotecas spacy, string, re, numpy, pandas e collectons para o desenvolvimento do script. O script é fruto de uma compilação de funções desenvolvidas e aplicadas em diversos trabalhos de pesquisa desenvolvidos pelo solicitante. 

Número do Pedido: BR 51 2023 001283 1

Área / Categoria: Ciências Exatas e da Terra

Problema Resolvido: O programa resolve a dificuldade de realizar, de forma padronizada e eficiente, o pré-processamento e tratamento de textos necessários para aplicações de mineração de textos. Esses processos normalmente exigem várias etapas manuais ou scripts separados, o que aumenta o tempo, o esforço e a chance de inconsistências. O programa reúne em um único script funções essenciais como sumarização textual baseada em frequência, pré-processamento, lematização, identificação das palavras mais comuns e contagem de entidades nomeadas. Assim, simplifica e automatiza etapas fundamentais para análises mais complexas, como sentimentos, opiniões, emoções e mineração de tópicos.

Aplicações / Vantagens:
O programa pode ser utilizado em pesquisas acadêmicas, análise de redes sociais, estudos linguísticos, sistemas de monitoramento de mídia, aplicações de inteligência artificial e soluções de mineração de texto em geral. Entre as vantagens estão: organização das funções em um único script reutilizável; padronização do pré-processamento; sumarização automática de textos; lematização eficaz; suporte à análise semântica por meio da identificação de entidades; compatibilidade com conjuntos personalizados de stopwords; e integração facilitada com outras ferramentas de IA e análise de dados. O uso de bibliotecas consolidadas como Spacy, NumPy e Pandas aumenta a robustez e a eficiência do programa.

Data de Concessão: 16/05/2023

Data de depósito do pedido: 09/05/2023

Interessado nessa Tecnologia?

Entre em contato conosco
Clique aqui!