O processo de Mineração de Texto não é simples, mas possui pilares que direcionam qualquer projeto ao êxito: objetivo bem definido, profissionais qualificados, softwares emetodologia são a base do sucesso.
Definição do objetivo
Tenha um objetivo claro e sucinto. De preferência, tenha um problema a ser solucionado com KDT (Knowledge Discovery in Text) dentro de um desses tipos de respostas do algoritmo:
  • Classificação;
  • Valor numérico;
  • Regra de negócio.

Para alcançar essas respostas, é importante traçar metas plausíveis e estar ciente de que o modelo obtido  nome dado ao produto final de mineração  pode ser constantemente refinado. Há 2 fatores-chave que determinam a conclusão do refinamento: tempo e recurso. Quando o projeto impactar um desses 2 indicadores, é hora de finalizá-lo. Comece determinando seu fim.
Equipe necessária
É necessário ter conhecimento em diversas áreas de estudo para construir um modelo de Mineração de Texto. Para construir modelos eficientes, é desejável que esse conhecimento seja dividido entre profissionais de suas respectivas áreas para extrair o máximo de informação de cada uma. O analista de negócio é necessário para direcionar os objetivos dos estudos às necessidades do cliente; o engenheiro de dados deve trabalhar em conjunto com um estatístico e um linguista para determinar, processar e testar a eficácia dos algoritmos. Por fim, o gerente de projeto é necessário para garantir que os profissionais sigam a metodologia proposta.
Softwares, técnicas e algoritmos
Para criar um modelo é necessário ter uma base de dados de histórico com as “respostas” que o seu projeto atual busca encontrar. Esses dados são imputados nas ferramentas de modelagem, para treinamento dos algoritmos. Atualmente o mercado tecnológico tem oferecido uma vasta gama de opções para a construção de um modelo preditivo, sejam elas pagas ou open source, visando maior facilidade de implementação e eficiência. A linguagem R permite bastante flexibilidade por ser uma linguagem de programação estatística; a ferramenta Weka também é comumente utilizada e difundida no mercado, ambas as opções oferecem algoritmos prontos como K-Means, Naive Bayes, Árvores de Decisão e afins, que dependendo do projeto alcançam bons resultados. Outra opção em destaque é o Orange, em Python, que oferece uma rica interface gráfica, além de código aberto.
Algumas ferramentas pagas, como o Google Prediction, dispensam algumas etapas de pré-processamento por executarem técnicas como Filtering (remoção de caracteres especiais e acentuação de palavras), Steaming (sintetização de palavras para seu radical) e Stop Words (exclusão de palavras irrelevantes) de forma oculta, diretamente nos seus algoritmos. Os softwares concorrentes como Amazon MLMicrosoft Azure ML e IBM Watson também são boas opções, oferecendo inclusive técnicas de validação para o preditivo.
Metodologia
A metodologia é um guia que direciona os profissionais envolvidos no projeto à conclusão de um modelo satisfatório. O CRISP-DM (Cross Industry Standard for Data Mining) é a metodologia referência no mercado de Data Mining e é comumente utilizado em projetos de Text Mining. Elaborado por diversos profissionais da área, na década de 90, e hoje sob os direitos da IBM, o documento lista 6 fases que devem constar em quaisquer projetos de mineração, cada fase contendo tarefas genéricas designadas a profissionais específicos. Apesar de sequencial, a metodologia não é linear, permitindo a equipe refazer etapas para o refinamento do modelo. Suas fases são:
  • Entendimento do Negócio;
  • Entendimento dos Dados;
  • Preparação dos Dados;
  • Modelagem;
  • Avaliação;
  • Entrega.

Seguindo a metodologia, tendo profissionais qualificados, um objetivo bem definido entre o grupo de trabalho e com os softwares adequados, certamente você terá um modelo satisfatório.