Tese de Doutorado

Tese de Doutorado submetida ao Programa de Pós-Graduação em Computação da Universidade Federal Do Rio de Janeiro como requisito parcial para a obtenção do título de Doutor.

Aprovada por: Alexandre Plastino de Carvalho, D.Sc. / IC-UFF (Presidente) Nelson Francisco Favilla Ebecken, D.Sc. / COPPE-UFRJ Andre Carlos Ponce de Leon Ferreira de Carvalho, Ph.D. / ICMC-USP Ana Cristina Bicharra Garcia, Ph.D. / IC-UFF Bianca Zadrozny, Ph.D. / IC-UFF Niterói,

28 de agosto de 1999.

Resumo:

Classificação é uma das tarefas de Mineração de Dados que tem se mostrado útil em diversas áreas de aplicação, em particular, na área de Bioinformática. A revolução genômica resultou em um crescimento exponencial da quantidade de dados biológicos gerados pela comunidade científica. Com a Fidelidade de armazenar toda essa informação biológica gerada, foram criados os bancos de dados biológicos. A necessidade por ferramentas computacionais capazes de realizar análises nesses dados tornou-se cada vez mais evidente, fazendo com que técnicas de mineração de dados começassem a ser empregadas. O trabalho desta tese concentra-se na tarefa de classificação e, inicialmente, na sua aplicação em bioinformática. O objetivo inicial é apresentar um método de classificação de proteínas computacionalmente eficiente e capaz de alcançar altas taxas de acurácia, superando resultados apresentados anteriormente na literatura. Os bons resultados, em termos de acurácia preditiva e tempo computacional, obtidos a partir do método proposto nesta tese, demonstram o seu potencial para o problema de classificação de proteínas. Além disso, visando a construção de um classificador adequado para diversos tipos de aplicação, o método proposto inicialmente para o problema de classificação de proteínas foi estendido e mostrou-se eficiente também quando utilizado com diferentes tipos de bases de dados pertencentes a aplicações distintas. Palavras-chave: mineração de dados, classificação, bioinformática

Introdução:

A quantidade de dados disponível no mundo, em ambientes computacionais, tem aumentado consideravelmente a cada dia. A necessidade por ferramentas computacionais capazes de analisar esses dados motivou o surgimento da área de pesquisa e aplicação em ciência da computação conhecida como mineração de dados [29]. Processos de mineração de dados permitem a transformação de dados, uma matéria bruta, em informação e conhecimento úteis em diversas áreas de aplicação, tais como administração, finanças, saúde, educação, marketing, entre outras. O progresso verificado na tecnologia de hardware de computadores e nas técnicas de processamento, armazenamento e transmissão de informações digitais propiciou o acúmulo de grandes quantidades de dados históricos nas últimas décadas, motivando, a partir de 1990, o desenvolvimento de técnicas e ferramentas específicas de mineração de dados. Tais ferramentas realizam análises em dados com o objetivo de extrair informações novas e úteis. De forma simples, tarefas em mineração de dados podem ser definidas como processos automatizados de descoberta de novas informações a partir de grandes massas de dados armazenadas em bancos de dados, arquivos de texto, data warehouses, ou em algum outro repositório de dados. Sendo uma área de estudo extensa e interdisciplinar, a mineração de dados envolve a integração de conceitos e técnicas de diversas áreas, tais como: banco de dados, estatística, inteligência artificial, visualização de dados e otimização. Apesar de alguns autores utilizarem o termo mineração de dados como sinônimo de KDD (Knowledge Discovery in Database) [29] O processo de descoberta de conhecimento em bases de dados , outros consideram que a mineração de dados representa a etapa central desse processo maior denominado KDD. As outras etapas tratam, basicamente.

do pré-processamento dos dados (seleção, limpeza e transformação) e pós processamento da informação minerada (visualização e análise). Os problemas tratados em mineração de dados são resolvidos por dois grandes grupos de soluções ou tarefas: • Tarefas descritivas: têm como objetivo encontrar padrões que descrevam os dados, permitindo sua análise. As principais tarefas descritivas são: Extração de Regras de Associação e Agrupamento (Clustering). • Tarefas preditivas: realizam inferências sobre os dados existentes para predizer o comportamento de novos dados. As principais tarefas preditivas são: Classificação e Regressão. Classificação é uma das tarefas mais importantes em mineração de dados, sendo portanto objeto de inúmeras pesquisas. Os resultados apresentados nesta tese concentram-se nessa tarefa e na sua aplicação na área de bioinformática. Dentre as diversas áreas de aplicação das técnicas de mineração de dados, a bioinformática vem se destacando nas últimas décadas. Essa nova área de estudo, também surgida recentemente, trata do armazenamento, organização, análise, interpretação e utilização de informações provenientes de dados biológicos [92]. A revolução genômica resultou num crescimento exponencial da quantidade de dados biológicos gerados pela comunidade científica. Com a finalidade de armazenar toda essa informação biológica gerada, foram criados os bancos de dados biológicos [10]. A necessidade por ferramentas capazes de realizar análises nesses dados tornou-se evidente, fazendo com que técnicas de mineração de dados começassem a ser empregadas nesse contexto. Desse modo, diversas técnicas de mineração de dados vêm sendo propostas por pesquisadores para solucionar problemas biológicos [92], tais como: descobrir associações e correlações entre genes, localizar genes específicos em uma sequência, predizer a estrutura ou a função de uma proteína, agrupar proteínas em famílias de sequências relacionadas entre si, entre outros.

Pesquisar este blog

Doutor, Mestre em Ciência da Informação

Tese de Doutorado

Postagens mais visitadas deste blog

Spring Toll Suite - Instalando o Spring boot

Boas práticas para o desenvolvimento de software - Parte 2

Arquivo