Tese de Doutorado
Tese de Doutorado submetida ao Programa de Pós-Graduação em Computação da Universidade Federal Do Rio de Janeiro como requisito parcial para a obtenção do título de Doutor.
Aprovada por: Alexandre Plastino de Carvalho, D.Sc. / IC-UFF (Presidente) Nelson Francisco Favilla Ebecken, D.Sc. / COPPE-UFRJ Andre Carlos Ponce de Leon Ferreira de Carvalho, Ph.D. / ICMC-USP Ana Cristina Bicharra Garcia, Ph.D. / IC-UFF Bianca Zadrozny, Ph.D. / IC-UFF Niterói,
28 de agosto de 1999.
Resumo:
Classificação é uma das tarefas de Mineração de Dados que tem se mostrado útil em diversas áreas de aplicação, em particular, na área de Bioinformática. A revolução genômica resultou em um crescimento exponencial da quantidade de dados biológicos gerados pela comunidade científica. Com a Fidelidade de armazenar toda essa informação biológica gerada, foram criados os bancos de dados biológicos. A necessidade por ferramentas computacionais capazes de realizar análises nesses dados tornou-se cada vez mais evidente, fazendo com que técnicas de mineração de dados começassem a ser empregadas. O trabalho desta tese concentra-se na tarefa de classificação e, inicialmente, na sua aplicação em bioinformática. O objetivo inicial é apresentar um método de classificação de proteínas computacionalmente eficiente e capaz de alcançar altas taxas de acurácia, superando resultados apresentados anteriormente na literatura. Os bons resultados, em termos de acurácia preditiva e tempo computacional, obtidos a partir do método proposto nesta tese, demonstram o seu potencial para o problema de classificação de proteínas. Além disso, visando a construção de um classificador adequado para diversos tipos de aplicação, o método proposto inicialmente para o problema de classificação de proteínas foi estendido e mostrou-se eficiente também quando utilizado com diferentes tipos de bases de dados pertencentes a aplicações distintas. Palavras-chave: mineração de dados, classificação, bioinformática
Introdução:
A quantidade de dados disponível no mundo, em ambientes computacionais, tem aumentado consideravelmente a cada dia. A necessidade por ferramentas computacionais capazes de analisar esses dados motivou o surgimento da área de pesquisa e aplicação em ciência da computação conhecida como mineração de dados [29]. Processos de mineração de dados permitem a transformação de dados, uma matéria bruta, em informação e conhecimento úteis em diversas áreas de aplicação, tais como administração, finanças, saúde, educação, marketing, entre outras. O progresso verificado na tecnologia de hardware de computadores e nas técnicas de processamento, armazenamento e transmissão de informações digitais propiciou o acúmulo de grandes quantidades de dados históricos nas últimas décadas, motivando, a partir de 1990, o desenvolvimento de técnicas e ferramentas específicas de mineração de dados. Tais ferramentas realizam análises em dados com o objetivo de extrair informações novas e úteis. De forma simples, tarefas em mineração de dados podem ser definidas como processos automatizados de descoberta de novas informações a partir de grandes massas de dados armazenadas em bancos de dados, arquivos de texto, data warehouses, ou em algum outro repositório de dados. Sendo uma área de estudo extensa e interdisciplinar, a mineração de dados envolve a integração de conceitos e técnicas de diversas áreas, tais como: banco de dados, estatística, inteligência artificial, visualização de dados e otimização. Apesar de alguns autores utilizarem o termo mineração de dados como sinônimo de KDD (Knowledge Discovery in Database) [29] O processo de descoberta de conhecimento em bases de dados , outros consideram que a mineração de dados representa a etapa central desse processo maior denominado KDD. As outras etapas tratam, basicamente.
do pré-processamento dos dados (seleção, limpeza e transformação) e pós processamento da informação minerada (visualização e análise). Os problemas tratados em mineração de dados são resolvidos por dois grandes grupos de soluções ou tarefas: • Tarefas descritivas: têm como objetivo encontrar padrões que descrevam os dados, permitindo sua análise. As principais tarefas descritivas são: Extração de Regras de Associação e Agrupamento (Clustering). • Tarefas preditivas: realizam inferências sobre os dados existentes para predizer o comportamento de novos dados. As principais tarefas preditivas são: Classificação e Regressão. Classificação é uma das tarefas mais importantes em mineração de dados, sendo portanto objeto de inúmeras pesquisas. Os resultados apresentados nesta tese concentram-se nessa tarefa e na sua aplicação na área de bioinformática. Dentre as diversas áreas de aplicação das técnicas de mineração de dados, a bioinformática vem se destacando nas últimas décadas. Essa nova área de estudo, também surgida recentemente, trata do armazenamento, organização, análise, interpretação e utilização de informações provenientes de dados biológicos [92]. A revolução genômica resultou num crescimento exponencial da quantidade de dados biológicos gerados pela comunidade científica. Com a finalidade de armazenar toda essa informação biológica gerada, foram criados os bancos de dados biológicos [10]. A necessidade por ferramentas capazes de realizar análises nesses dados tornou-se evidente, fazendo com que técnicas de mineração de dados começassem a ser empregadas nesse contexto. Desse modo, diversas técnicas de mineração de dados vêm sendo propostas por pesquisadores para solucionar problemas biológicos [92], tais como: descobrir associações e correlações entre genes, localizar genes específicos em uma sequência, predizer a estrutura ou a função de uma proteína, agrupar proteínas em famílias de sequências relacionadas entre si, entre outros.