Data Mining - (Mineração de Dados)

Data Mining - (Mineração de Dados)


Joel De Bortoli - www.joeldebortoli.com


Data Mining ou Mineração de Dados consiste em um processo analítico projetado para explorar grandes quantidades de dados (tipicamente relacionados a negócios, mercado ou pesquisas científicas), na busca de padrões consistentes ou relacionamentos sistemáticos entre variáveis e, então, validá-los aplicando os padrões detectados a novos subconjuntos de dados. O processo consiste basicamente em 3 etapas: exploração; construção de modelo ou definição do padrão e validação/verificação.

Atualmente, as organizações têm se mostrado extremamente eficientes em capturar, organizar e armazenar grandes quantidades de dados, obtidos de suas operações diárias ou pesquisas científicas, porém, ainda não usam adequadamente essa gigantesca montanha de dados para transformá-la em conhecimentos que possam ser utilizados em suas próprias atividades, sejam elas comerciais ou científicas.


2 Data Mining

É o processo de exploração e análise de grandes quantidades de dados, com o objetivo de descobrir padrões ou regras que permitam uma melhor compreensão da informação contida nos mesmos.

As ferramentas de data mining podem prever futuras tendências e comportamentos, permitindo às empresas um novo processo de tomada de decisão, baseado principalmente no conhecimento acumulado e frequentemente desprezado, contido em seus próprios bancos de dados.

A mudança de paradigma, causada por uma conjunção de fatores, como a grande acumulação e coleta de dados, o relativo barateamento do processamento e dos computadores, e o surgimento de novas oportunidades, como o marketing um a um, trouxe um desenvolvimento impar às técnicas conhecidas como data mining.

Os projetos de data mining podem ser implementados de várias formas: comprando software específico para data mining, contratando consultores externos que façam a coleta dos dados e a apresentação de um relatório pronto ao cliente final ou processando os dados no próprio cliente, criando um ambiente em que o processo de data mining possa ser repetido e aprimorado sucessivas vezes.

Os projetos de data mining normalmente se beneficiam da criação de um ciclo, o chamado “ciclo virtuoso de data mining”, em que os algorítmos e a informação obtida se utilizam de processamentos anteriores do mesmo modelo, incorporando as respostas obtidas em futuros processamentos.


Figura 1 - Ciclo virtuoso de data minig.

O alto potencial de retorno em projetos de data mining só pode ser alcançado quando o ciclo é corretamente implementado: identificação de oportunidades, elaboração de modelo para determinação das regras ou padrões, elaboração das ações que possam se beneficiar destas regras, medição dos resultados destas ações, que por sua vez possibilitam a identificação de novas oportunidades e assim sucessivamente.

O processo de implementação de data mining pode ser caracterizado pelo seguinte gráfico:


Figura 2 - Processo KDD (Fayyad, Piatesky-Shapiro, & Smith)

O sucesso de um projeto de data mining pode transformar o modo de atuação de uma empresa, passando de mero espectador a um ator no ambiente em que se encontra. A empresa passa a atuar proativamente, e não reativamente a situações de mercado.

2.1 O Que é Data Mining?

Mineração de dados ou data mining é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.

Talvez a definição mais importante de Data Mining tenha sido elaborada por Usama Fayyad (Fayyad et al. 1996):

"...o processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis"

Esse processo vale-se de diversos algoritmos (muitos deles desenvolvidos recentemente) que processam os dados e encontram esses "padrões válidos, novos e valiosos". É preciso ressaltar um detalhe que costuma passar despercebido na literatura: embora os algoritmos atuais sejam capazes de descobrir padrões "válidos e novos", ainda não temos uma solução eficaz para determinar padrões valiosos. Por essa razão, Data Mining ainda requer uma interação muito forte com analistas humanos, que são, em última instância, os principais responsáveis pela determinação do valor dos padrões encontrados. Além disso, a condução da exploração de dados é também tarefa fundamentalmente confiada a analistas humanos, um aspecto que não pode ser desprezado em nenhum projeto que queira ser bem sucedido.


2.2 Visão Geral

Esta tecnologia é formada por um conjunto de ferramentas que através do uso de algoritmos de aprendizado ou baseados em redes neurais e estatística, são capazes de explorar um grande conjunto de dados, extraindo destes conhecimento na forma de hipóteses e de regras. Diariamente as empresas acumulam diversos dados em seus bancos de dados, inclusive com dados e hábitos de seus clientes. Todos estes dados podem contribuir com a empresa, sugerindo tendências e particularidades pertinentes a ela e seu meio ambiente interno e externo, visando uma rápida ação de seus gestores.

Com a geração de informações e conhecimentos úteis para as empresas, os seus negócios podem dar mais lucratividade para as mesmas. Os recursos da tecnologia da informação, mais precisamente a capacidade do hardware e software disponíveis podem efetuar atividades em horas, o que tradicionalmente as pessoas levariam meses. Efetivamente a mineração de dados cumpre o papel de descoberta de conhecimentos.


2.3 Ferramentas de Mineração de Dados

As ferramentas de mineração ou mecanismos de busca são usualmente programas ou agentes automatizados inteligentes, incorporando alguma forma de inteligência artificial em bancos de dados relacionais. Os agentes detectam padrões predefinidos e alertam o usuário sobre variações. Vários tipos de ferramentas são utilizadas na mineração de dados: redes neurais, árvores de decisão, indução de regras e visualização de dados.


2.3.1 Redes Neurais

Redes neurais são uma solução computacional que envolve o desenvolvimento de estruturas matemáticas com a habilidade de aprendizagem. Os métodos são resultados de investigações acadêmicas para modelagem da aprendizagem do sistema nervoso. As redes neurais têm uma notável habilidade de derivar médias de dados complicados ou imprecisos e podem ser utilizadas para extrair padrões e detectar tendências que são muito complexas para serem percebidas tanto por humanos quanto por outras técnicas computacionais. Uma rede neural treinada pode ser considerada como um "expert" na categoria de informação que foi previamente para a análise. Este expert pode então ser utilizado para fornecer projeções, dadas novas situações de interesse.


2.3.2 Indução

Um banco de dados é um armazém de informações, mas o mais importante é a informação que pode ser inferida deste. Existem duas técnicas principais de inferência disponíveis: dedução e indução.

Dedução é uma técnica de inferência de informação que é uma conseqüência lógica da informação no banco de dados, tal como o operador join aplicado em duas tabelas relacionais onde o primeiro diz respeito aos empregados e departamentos e o segundo, departamentos e gerentes - infere em um relação entre empregados e gerentes.

Indução foi descrita anteriormente como um técnica de inferência de informações que é generalizada através do banco de dados, tal como exemplo mencionado acima para inferir que cada empregado tem um gerente. Este é um nível de informação ou conhecimento alto do ponto de vista de que é uma regra geral sobre objetos no banco de dados. O banco de dados é vasculhado por padrões ou regularidades.

A indução tem sido utilizada das seguintes maneiras na mineração de dados:

Árvores de decisão: são simples representações de conhecimento e classificam exemplos em um número finito de classes. Os nós são rotulados com nomes de atributos, os arcos são rotulados com possíveis valores para este atributo e as folhas são rotuladas com diferentes classes. Objetos são classificados através de um caminho percorrendo a árvore seguindo os arcos que contêm valores que correspondem a atributos no objeto.

Indução de regras: através de um sistema de indução de regras será gerado um conjunto de condições não-hierárquicas, que será utilizado para prever valores em novos itens de dados. Certas aplicações de software tendem a avaliar e refinar o conjunto de regras através da seleção das melhores regras e evitam certas regras. As regras utilizadas para a predição são mais gerais e mais poderosas do que as árvores de decisão, utilização florestas de predição (com várias árvores de decisão parciais) com escalas estendidas de valores. Estes modelos preditivos são totalmente transparentes e provêm explanações completas para suas predições.

Análise de grupos: em um ambiente de aprendizagem não supervisionada, o sistema deve descobrir suas próprias classes e uma maneira de fazê-lo é agrupar os dados em um banco de dados. O primeiro passo consiste na descoberta de subconjuntos de objetos relacionados e então encontrar as descrições, tais como D1, D2, D3, etc - cada uma das quais descrevendo um destes conjuntos.


2.4 Etapas da Mineração de Dados

Os passos fundamentais de uma mineração bem sucedida a partir de fontes de dados (bancos de dados, relatórios, logs de acesso, transações, etc.) consistem de uma limpeza (consistência, preenchimento de informações, remoção de ruído e redundâncias, etc.). Disto nascem os repositórios organizados (Data Marts e Data Warehouses).

É a partir deles que se pode selecionar algumas colunas para atravessarem o processo de mineração. Tipicamente, este processo não é o final da história: de forma interativa e frequentemente usando visualização gráfica, um analista refina e conduz o processo até que os padrões apareçam.


2.5 Localizando Padrões

Padrões são unidades de informação que se repetem. A tarefa de localizar padrões não é privilégio da mineração de dados. O cérebro dos seres humanos utiliza-se de processos similares, pois muito do conhecimento que temos em nossa mente é, de certa forma, um processo que depende da localização de padrões. Para exemplificar esses conceitos, vamos propor um breve exercício de indução de regras abstratas. Nosso objetivo é tentar obter alguma expressão genérica para a seguinte seqüência:


2.6 Os Passos do Data Mining

A literatura sobre o assunto trata com mais detalhes todos os passos necessários ao Data Mining. Veja, por exemplo, Groth (1998) e Han, Chen & Yu (1996). Para o escopo é suficiente apresentar os passos fundamentais de uma mineração bem sucedida (veja figura à abaixo). A partir de fontes de dados (bancos de dados, relatórios, logs de acesso, transações, etc) efetua-se uma limpeza (consistência, preenchimento de informações, remoção de ruído e redundâncias, etc). Disto nascem os repositórios organizados (Data Marts e Data Warehouses), que já são úteis de diversas maneiras.

Figura 3 - passos fundamentais de uma mineração

Mas é a partir deles que se pode selecionar algumas colunas para atravessarem o processo de mineração. Tipicamente, este processo não é o final da história: de forma interativa e frequentemente usando visualização gráfica, um analista refina e conduz o processo até que valiosos padrões apareçam. Observe que todo esse processo parece indicar uma hierarquia, algo que começa em instâncias elementares (embora volumosas) e terminam em um ponto relativamente concentrado, mas muito valioso.


2.7 Dos Dados à Sabedoria

Assim como um organismo vivo, as empresas recebem informação do meio ambiente e também atuam sobre ele. Durante essas atividades, é necessário distinguir vários níveis de informação. O diagrama abaixo apresenta a tradicional pirâmide da informação, onde se pode notar o natural aumento de abstração conforme subimos de nível.

Figura 4 - pirâmide da informação

Traduzido para uma empresa atual, esse diagrama fica como apresentado abaixo. O fundamental a se perceber neste diagrama é a sensível redução de volume que ocorre cada vez que subimos de nível. Essa redução de volume é uma natural consequência do processo de abstração.

Figura 5 - pirâmide da informação

Abstrair, no sentido que usamos aqui, é representar uma informação através de correspondentes simbólicos e genéricos. Este ponto é importante: como acabamos de ver, para ser genérico, é necessário "perder" um pouco dos dados, para só conservar a essência da informação. O processo de Data Mining localiza padrões através da judiciosa aplicação de processos de generalização, algo que é conhecido como indução.


2.8 Classificação

Segundo Michael Berry, uma alternativa para a classificação dos sistemas de data mining é separá-los em três dimensões:

Natureza da tarefa

Objetivo a ser buscado

Grau de estruturação dos dados

Classificando os sistemas em cada uma das três dimensões podemos agrupar sistemas parecidos, e aplicar algorítmos e procedimentos similares.


2.8.1 Natureza da Tarefa

Podem ser divididas em quatro: classificação; predição; segmentação e descrição.

Classificação: Uma tarefa de classificação consiste em associar um item a uma classe, de várias opções pré-definidas. A tarefa do analista passa a ser selecionar qual classe melhor representa um registro, por exemplo, ao se deparar com uma base de dados de veículos, em que cada registro contém os atributos de cor, peso, combustível, número de portas, cilindrada e número de marchas, classificar cada veículo em esporte, utilitário, ou passeio.

Predição: pode ser definida como a tarefa de preencher um valor em um registro baseado em outros atributos. Como exemplo de modelo de predição, podemos construir um modelo para estimar a probabilidade de um cliente deixar de usar nossos serviços baseado em seu perfil de uso.

Segmentação: pode ser comparada a uma tarefa de classificação sem classes pré-definidas. O objetivo de uma tarefa de segmentação consiste em agrupar registros semelhantes e separar registros diferentes. Ao se trabalhar com grandes bases de dados, é muito comum que padrões concorrentes se cancelem ao se observar tudo de uma só vez. Quebrar esta enorme base de dados em várias sub-bases pode dar ao analista a condição de ver estas diferenças e identificar novas oportunidades.

Descrição: Data mining também pode ser utilizado para descrição dos dados. Técnicas de visualização podem trazer ao analista percepções diferentes das apresentadas em tabelas, ou relatórios.


2.8.2 Objetivo a Ser Buscado

Existem dois tipos de objetivo, a produção de um modelo ou a produção de informação. Nas tarefas de predição, normalmente estaremos buscando um modelo que possa ser aplicado em dados não vistos anteriormente e que um “score” possa ser gerado. Em tarefas descritivas, buscamos informação que possa dar uma nova perspectiva ao se analisar os dados.


2.8.3 Grau de Estruturação dos Dados

Dados estruturados são normalmente os arquivos de banco de dados, as tabelas, ou seja, estruturas fixas com conteúdo uniforme. Dados desestruturados são arquivos do tipo texto ou imagem, e podem ser usados em projetos que tem como objetivo a identificação de padrões ou formas.


2.9 Algoritmos de Mineração de Dados

Os objetivos principais da mineração de dados são a previsão e descrição. A previsão faz uso de variáveis existentes no banco de dados para prever valores desconhecidos ou futuros. A descrição é voltada para a busca de padrões descrevendo os dados e a subseqüente apresentação para a interpretação do usuário. A relativa ênfase entre previsão e descrição varia de acordo com o sistema de mineração de dados utilizado. Estes objetivos são conseguidos através de vários algoritmos. Tais algoritmos são incorporados em vários métodos de mineração de dados.

Existem vários algoritmos de mineração de dados utilizados para resolver problemas específicos. Estes são categorizados em algoritmos de associação, classificação, padrões seqüenciais e agrupamento. A premissa básica de algoritmos de associação é achar todas as associações em que a presença de um conjunto de itens em uma transação implica em outros itens. Algoritmos de classificação ou geração de perfis desenvolvem perfis de diferentes grupos. Algoritmos de padrões seqüenciais identificam tipos de padrões seqüenciais em restrições mínimas especificadas pelo usuário. Algoritmos de agrupamento segmentam o banco de dados em subconjuntos ou grupos.


2.9.1 Associações

Algoritmos de associação têm numerosas aplicações, incluindo supermercados, planejamento de estoque, mala direta para marketing direcionado e planejamento de promoções de vendas. Por exemplo, a regra de associação deriva a partir da mineração de dados de um banco de dados de transações (através do leitor de código de barras de produtos), uma lista contendo o conjunto de itens comprados pelo consumido em uma visita à loja.


2.9.2 Classificação ou Geração de Perfis

Para um dado conjunto de registros com seus atributos correspondentes, um conjunto de marcadores (representando registros) e um marcador para cada registrador, uma função de classificação examina o conjunto de registros marcados e produz descrições das características dos registros para cada classe. Por exemplo, numa análise de crédito, a companhia administradora de cartões terá registros de clientes contendo um número de descritores. Então, para um consumidor com um bom histórico de crédito, o registro é marcado como "excelente"; "bom", "médio" ou "ruim". A regra de classificação poderia ser:

Consumidores com histórico de crédito excelente tem uma taxa de débito de menos de 10%.

Esta regra poderia então ser utilizada para a classificação de novos conjuntos de dados. Outro exemplo poderia ser o marketing direcionado. Qualquer companhia que pretenda realizar uma divulgação através de mala direta utilizará a sua lista de correspondência ou uma comprada de terceiros. A lista de correspondência pode ter tido resposta em malas diretas anteriores e, através de um gerador de perfis, uma classificação ou perfil é desenvolvido caracterizando as pessoas que tenham respondido às correspondências anteriores. O perfil então é tomado como uma previsão de resposta da correspondência atual. A lista de correspondência é então filtrada de maneira que os materiais promocionais sejam direcionados àqueles que correspondem ao perfil. Além de marketing direcionado e aprovação de crédito, a geração de perfis também é utilizada para a correspondências anexas e a determinação de tratamentos apropriados.


2.9.3 Padrões Seqüenciais

Esta técnica procura por compras ou eventos que ocorrem em uma seqüência através do tempo. Por exemplo, uma loja pode descobrir que consumidores que compram TVs tendem também a comprar filmadoras de 8mm em 60% das vezes.

60% dos consumidores compram TVs seguidas de filmadoras de 8mm.

Uma seqüência similar poderia ser:

90% das vezes, quando as vendas de Coca-cola aumentam, as vendas de salgadinhos também aumentam.

Isto causará um grande impacto no layout da loja e também identificará os consumidores que podem ser alvo de promoções de venda de filmadoras, caso eles tenham comprado TVs nos últimos 3 meses. Este tipo de algoritmo é especialmente útil para companhias de catálogos e firmas de investimentos financeiros, que estão aptas a analisar seqüências de eventos que afetam os preços dos instrumentos financeiros.


2.9.4 Agrupamento

A técnica de agrupamento irá segmentar um banco de dados em subconjuntos ou grupos. Isto pode ser criado estatisticamente ou através da utilização de métodos de indução não-supervisionados neurais ou simbólicos. Os vários métodos neurais e simbólicos são distinguidos pelo tipo de valores de atributos que podem ser aceitos (numérico, nominal e objetos estruturados); representação de grupos, e organização de grupos (em hierarquia ou em um nível plano). Esta técnica de segmentação foi desenvolvida para lidar com o processamento de pesquisas de consumidor. Por exemplo, um questionário de pesquisa contendo 25 questões de múltiplas alternativas pode ser analisado por questão: por exemplo, 35% responderam 'b' na questão 1 e assim por diante. O desafio é analisar este questionário como uma coleção de 25 padrões de respostas, cada um fornecido por um consumidor. Esta técnica irá dividir consumidores de acordo com os seus padrões de resposta, através da criação de conjuntos de grupos que contêm a máxima similaridade com estes e a máxima diferença entre eles. Alguns dos usos pertinentes têm sido na análise de bancos de dados de patentes, pois é de comum acordo que existe um consenso na utilização de palavras-chave; análise de texto para conceitos; compreensão de tipos de consumidores em pesquisas de consumidor; e procura por artigos de pesquisa relevantes.


2.10 O Algoritmo de Árvores de Decisão

O algoritmo de Árvores de decisão gera uma estrutura de árvore que ajuda na classificação e predição das amostras desconhecidas. Com base nos registros do conjunto de treinamento, uma árvore é montada e, a partir desta árvore, pode-se classificar a amostra desconhecida sem necessariamente testar todos os valores dos seus atributos. O algoritmo de classificação por árvores de decisão é considerado um algoritmo supervisionado, pois é necessário saber quais são as classes de cada registro do conjunto de treinamento.

Como o algoritmo monta uma árvore, é necessário antes definir quais são os elementos desta árvore. Para simplificar a explicação do algoritmo, basta pensar em uma árvore como um conjunto de nós que são conectados por ramificações. Basicamente existem três tipos de nós: o nó raiz, que inicia a árvore, os nós comuns que dividem um determinado atributo e geram ramificações e os nós folha que contém as informações de classificação do algoritmo. Já as ramificações possuem todos os valores possíveis do atributo indicado no nó para facilitar a compreensão e interpretação.

A idéia do algoritmo é montar uma árvore onde cada nó indica o teste de um atributo. Os atributos escolhidos para os nós da árvore são chamados de atributos divisores ou atributos teste. A escolha de atributos é feita com base no maior ganho de informação, isto é, na qualidade de classificação do atributo. Deste modo, podemos dizer que o atributo que melhor classificar os dados deve ser escolhido como um nó da árvore. Para facilitar a compreensão, é comum colocar os valores das probabilidades de cada classe dentro do nó.

A classificação de uma nova amostra é feita percorrendo os ramos e nós da árvore de acordo com os valores dos atributos da amostra desconhecida. Este algoritmo permite uma análise mais detalhada levando em consideração cada valor de cada atributo. Contudo, dependendo de quão bom o atributo é para a classificação, nem sempre todos os atributos podem estar nos nós da árvore de decisão.

Outro fator importante a ser considerado é a análise da árvore. Apenas montar a estrutura da árvore e classificar novas amostras nem sempre é suficiente, pois a análise pode requerer um detalhamento melhor do que significa cada nó da árvore. Além de classificar uma amostra desconhecida, analisando a árvore gerada pode-se montar regras de decisão a partir da árvore de decisão montada com o objetivo de representação do conhecimento.

Sem entrar em detalhes muito técnicos de como o algoritmo funciona, basta pensar que os quatro passos abaixo devem ser seguidos:

PASSO 1: Geração do nó raiz.

Neste passo, cada classe do conjunto de treinamento possui sua probabilidade calculada. Como ainda não existe nenhum nó na árvore, basta criar um nó raiz contendo as probabilidades de cada classe. Nos próximo passo um atributo deve ser colocado para este nó raiz.

PASSO 2: Encontrar nós a serem divididos.

Neste passo é necessário encontrar os nós da árvore que ainda podem ser divididos para a geração de novos nós. Basta obter os nós que não são folhas, isto é, nós que ainda não possuem divisões e que cuja distribuição das probabilidades não classifique a amostra totalmente. Classificar a amostra totalmente quer dizer que o nó não deve possuir alguma classe que tenha 100% de probabilidade de classificar a amostra no seu nó. Se não houver mais nenhum nó que pode ser dividido o algoritmo termina.

PASSO 3: Divisão de nó.

Para cada nó do conjunto de nós que podem ser divididos deve-se escolher um atributo que melhor classifica os dados. Esta escolha deve excluir todos os atributos que inda não foram utilizados no caminho que começa deste o nó raiz até o nó a ser dividido. Além de considerar os atributos que já foram utilizados, também deve-se analisar a quantidade de nós folha que o atributo gera e a quantidade de nós não folhas escolhendo o atributo que mais gera nós folha e que menos gera nós que podem ser divididos. Em alguns casos, o nó não pode ser dividido devido às restrições, o que faz com que este nó não seja armazenado no conjunto de nós a serem divididos.

PASSO 4: Criação do nó.

Com o atributo escolhido, basta criar e desenhar o nó e as suas ramificações de acordo com todos os possíveis valores do atributo. A criação de ramificações gera novos nós que devem analisados em seguida. O algoritmo volta para o PASSO 2.


2.11 Tecnologias relacionadas à mineração de dados

Muitas técnicas e ferramentas existentes têm sido utilizadas como ferramentas de mineração de dados. Estas técnicas e ferramentas fornecem soluções complementares para a mineração de dados. Por exemplo, o elemento inicial da mineração de dados envolve o armazenamento e a acessabilidade de elementos de dados de transações on-line para o uso de ferramentas mais sofisticadas. O próximo nível fornece resumos de computações selecionadas realizadas no nível inicial. Este nível então inclue OLAP (On-Line Analytical Processing), bancos de dados multidimensionais e ferramentas de análise de planilhas.

O OLAP envolve sistemas estatísticos tais como SASTM e SPSSTM para detectar padrões e tendências utilizando modelos estatísticos tais como modelos lineares e não-lineares. Estes sistemas resultam em análises mais diretas baseadas nos resultados da mineração de dados. Sistemas de geração de relatórios utilizam elementos de sistemas de suporte à decisão (decision suport systems - DSS) e sistemas de informações executivas (executive information systems - EIS) e fornecem suporte à tomada de decisões. Entretanto, com a mineração de dados a ênfase e o foco serão dados em um uso mais efetivo destes sistemas.

A utilização de planilhas multidimensionais e bancos de dados de visões resumidas dos dados através de múltiplas dimensões, embora populares, necessitam de formulação e revisão do usuário. As mais modernas ferramentas de mineração de dados (por exemplo, Excel 97) utilizam uma técnica denominada pivotação, envolvendo tabulações cruzadas pelo arrasto de um atributo ou campo. Análise multidimensional é um método de visualização de dados agregados denominados medidas (por exemplo, vendas ou gastos com propaganda) sobre um conjunto de dimensões tais como produto, ramo, data da venda e região. Um banco de dados multidimensional (multi-dimensional database - MDB) consiste tipicamente de 3 tokens conceituais: dimensões - similar a campos em uma tabela; medidas - computações agregadas para visualização; e hierarquias - imposição de estruturas em algumas dimensões (por exemplo, {mês, semestre, ano} é uma hierarquia baseada no tempo). Tecnologias de mineração de dados realizarão análises automáticas que poderão melhorar o valor da exploração dos dados, suportado por estas ferramentas multidimensionais.


2.11.1 Aprendizagem induzida

Indução é a inferência de informação através de dados e aprendizagem induzida é o processo de construção de modelos onde o ambiente, por exemplo - um banco de dados é analisado em uma visão para a procura de padrões. Objetos similares são agrupados em classes e regras são formuladas onde for possível prever as classes de novos objetos. Estes processo de classificação identifica classes de forma que cada classe tenha um único padrão de valores que forma a descrição da classe. A natureza do ambiente é dinâmica, pois o ambiente deve ser adaptativa de forma que possa aprender.

Geralmente só é possível a utilização de um pequeno número de propriedades para a caracterização de objetos, então fazemos abstrações em que os objetos que satisfazem um mesmo subconjunto de propriedades são mapeados na mesma representação interna.

A aprendizagem induzida em que o sistema infere conhecimento por si só através da observação de seu ambiente tem duas estratégias principais:

Aprendizagem supervisionada - é a aprendizagem através de exemplo onde o professor auxilia o sistema a construir um modelo através da definição de classes e fornecimentos de exemplos para cada uma. O sistema deve achar uma descrição de cada classe, tal como as propriedades comuns dos exemplos. Uma vez que a descrição tenha sido formulada, a descrição e a classe formam uma regra de classificação que pode então ser utilizada para a previsão de classes de objetos ainda não vistos. Esta técnica é similar a análise discriminativa em estatística.

Aprendizagem não-supervisionada - é a aprendizagem através de observação e descoberta. O sistema de mineração de dados é suprido com objetos mas nenhuma classe é definida de forma que este deve observar os exemplos e reconhecer padrões (descrição das classes) por si mesmo. Este sistema resulta em um conjunto de descrições de classes, uma cada para classe descoberta no ambiente. Novamente, isto é similar a análise de grupos em estatística.

Logo, indução pode ser entendido como a extração de padrões. A qualidade do modelo produzido pelos métodos de aprendizagem induzida é tal que o modelo pode ser utilizado para prever o desenvolvimento de situações futuras. O problema é que a maioria dos ambientes têm diferentes estados e conseqüentementes diferentes mudanças entre eles, de modo que não é possível sempre verificar um modelo através de todas as suas situações possíveis.

Dado um conjunto de exemplos, o sistema pode construir múltiplos modelos - alguns dos quais podem ser mais simples que os outros. Os modelos mas simples têm maior probabilidade de estarem corretos se nós aderirmos ao Ockhams razor, que especifica que se existirem múltiplas explicações sobre um fenômeno particular, fará sentido a escolha do mais simples, porque é mais provável que este capture a natureza do fenômeno.


2.11.2 Estatística

A estatística tem uma sólida fundamentação teórica, mas os resultados da estatística podem ser grandes demais e difíceis de interpretar, pois necessitam do usuário para verificar onde e como analisar os dados. A mineração de dados, entretanto, permite que o conhecimento do especialista sobre os dados e técnicas de análise avançadas do computador trabalhem de maneira conjunta.

Sistemas de análise estatística tais como SAS e SPSS têm sido utilizados por analistas para a detecção de padrões incomuns e explicação de padrões utilizando modelos estatísticos tais como modelos lineares. A análise estatística tem um campo enorme de utilização e a mineração de dados não irá substituir tais análises, e sim utilizar análises mais diretas baseadas nos resultados da mineração de dados. Por exemplo, a técnica de indução estatística é algo como a taxa média de falha nas máquinas.


2.11.3 Aprendizagem de máquinas

Aprendizagem de máquinas é a automação de um processo de aprendizagem; e a aprendizagem é equivalente à construção de regras baseadas em observações de estados e transições ambientais. Este é um enorme campo que inclui não somente a aprendizagem através de exemplos, mas também aprendizagem reforçada, aprendizagem com professor, etc. Um algoritmo de aprendizagem utiliza o conjunto de dados e a informação que o acompanha como entrada e retorna uma declaração - ou seja, um conceito representando os resultados da aprendizagem como saída. A aprendizagem de máquinas examina os exemplos anteriores e suas saídas e aprende a como reproduzi-los e faz generalizações sobre novos casos.

Geralmente um sistema de aprendizagem de máquinas não utiliza simples observações de seu ambiente, mas sim todo um conjunto finito chamado de conjunto de treinamento de uma única vez. Este conjunto contem exemplos, tais como observações codificadas em alguma forma legível pela máquina. O conjunto de treinamento é finito, logo nem todos os conceitos podem ser aprendidos exatamente.


2.11.4 Diferenças entre Aprendizagem de Máquinas e Mineração de Dados

Knowledge Discovery in Databases (KDD), ou mineração de dados, é a parte da Aprendizagem de Máquinas (Machine Learning - ML) responsável pelo manejamento da aprendizagem através de exemplos através de algoritmos e problemas utilizados.

As principais diferenças são:

KDD é direcionado na procura de conhecimento compreensível, enquanto que a ML é direcionada à otimização do desempenho de um agente. Logo, o treinamento de uma rede neural para o balanceamento de uma balança é parte da ML, mas não de KDD. Entretanto, existem casos em que a extração de conhecimento através de redes neurais são muito relevantes para KDD.

KDD é concentrado em enormes bancos de dados reais, enquanto que ML é tipicamente (mas não sempre) concentrada em conjuntos de dados menores. Assim, as questões de desempenho são muito mais importantes para KDD.

ML é um campo muito mais amplo, que não inclui somente a aprendizagem através de máquinas, mas também aprendizagem reforçada, aprendizagem com professor, etc.

KDD é a parte da ML direcionada na procura de conhecimento compreensível em grandes conjuntos de exemplos reais. Na integração de técnicas de aprendizagem de máquinas em sistemas de bancos de dados para a implementação de KDD alguns bancos de dados requerem:

Algoritmos de aprendizagem mais eficientes devido ao fato de que bancos de dados reais são normalmente enormes e contêm inconsistências. Normalmente, os bancos de dados são desenvolvidos para propósitos diferentes da mineração de dados (vide a seção de data warehouse); e propriedades ou atributos que simplificariam a tarefa de aprendizagem não estão presentes nem podem ser requisitados no mundo real. Bancos de dados são normalmente contaminados por erros de modo que os algoritmos de mineração de dados devem lidar com ruídos, enquanto que a ML utiliza exenplos acadêmicos que estão o mais perto do perfeito possível.

Representações mais expressivas para os dados, tais como duplas em bancos de dados relacionais, que representação instâncias do domínio do problema; e conhecimento, tais como regras em sistema baseado em regras, que podem então serem utilizadas para solucionar problemas do usuário no domínio, e a informação semântica contida no esquema relacional.

Na prática, sistemas de KDD devem incluir três fases:

Transformação de informações contidas em bancos de dados relacionais em uma forma apropriada para ser utilizada em técnicas de aprendizagem;

Utilização de técnicas de aprendizagem de máquinas para produzir conhecimento baseado em bancos de dados; e

Interpretação do conhecimento produzido para solucionar problemas dos usuários e/ou reduzir a quantidade de dados.


3 Aplicações comerciais atuais

Para competir efetivamente, homens de negócio devem ser capazes de compreender seus dados disponíveis. Identificar padrões e tomar decisões em tempo permite que se mantenha a competitividade. A mineração de dados tem sido aplicada para achar respostas no processo de minimização de custos, gerenciamento de estoque e geração de novas idéias nas seguintes áreas: vendas, marketing, finanças, bancos, manufatura, saúde, seguros e telecomunicações. Algumas das áreas não comerciais em que a mineração de dados pode atuar incluem a indústria petrolífera, ciências, prevenção de incêndios florestais, identificação de estruturas químicas, detecção de crimes e diagnóstico médico.

Muito da ênfase agora está sendo dada no estabelecimento de data warehouses, pois um dos pré-requisitos para a mineração de dados é que tais dados estejam livres de anomalias. Muito da evolução da análise de dados tem sido um complemento para o data warehousing. Freqüentemente, sínteses sobre os dados derivados da data warehousing levam a futuras consultas e mais análises subseqüentes. O data warehouse fornece uma incrível visão dos dados, e o maior benefício vem das idéias "oportunísticas" que surgem, o que normalmente não aconteceria num gerador de relatórios normal. Futuras consultas são realizadas para gerar futuras idéias.

Muitas companhias têm desenvolvido aplicações de mineração de dados com sucesso. Enquanto que os primeiros usuários desta tecnologia em sua maioria foram indústrias de informações-intensivas tais como serviços financeiros e marketing de mala direta, a tecnologia de mineração de dados é aplicável a qualquer companhia que deseje melhorar um grande data warehouse para melhor gerenciar os seus relacionamentos com seus consumidores. Dois fatores críticos para o sucesso da mineração de dados são: um grande e bem integrado data warehouse e; um bem definido conhecimento do processo comercial em que a mineração de dados será aplicada (tal como prospecção de consumidores, retenção, campanhas de gerenciamento).


3.1 Exemplos de aplicações

3.1.1 Bancos e Finanças

O Bank of America pode agora elaborar uma detalhada visão demográfica de hábitos bancários e propriedades financeiros de grupos selecionados de seus usuários. Consultas no data warehouse de 800 Gbytes levam 30 segundos cada; comparadas com a espera de 3 meses para o acesso a dados de 100 fitas magnéticas dos tradicionais mainframes e a subsequente distribuição aos requisitantes são realmente rápidas. O sistema utiliza os dados do banco inteiro e de suas 30 unidades comerciais.

A empresa Gilman Securities utiliza a mineração de dados para diferenciar como o mercado financeiro reage à volatilidade dos diferentes setores comerciais. Por exemplo, quais são as relações entre a diferença de taxas entre o Yen japonês e o mercado britânico?

O Canadian Imperial Bank of Commerce (CIBC), sediado em Toronto, Canadá utiliza o sistema SAS como um data warehouse que fornece informações gerenciais para o suporte à decisão. A análise da mineração inclue modelagem estatística e consultas relativas aos padrões de transações do consumidor em diferentes ramos para ajudar no planejamento;


3.1.2 Comércio

O Army and Air Force Exchange Service (AAFES) determina os padrões de vendas baseado na demografia dos consumidores. Por exemplo, a AAFES utiliza mineração de dados automática para prever quanto uma mulher particular vai gastar anualmente, dadas a idade, os dependentes e o seu salário anual. Este nível de detalhamento auxilia a AAFES a direcionar seus anúncios e vendas para a base de consumidores adequada.

A Wal-Mart percebeu no início de 1989 que processamento paralelo e mineração de dados poderiam ser utilizados na busca por informações comerciais no seu banco de dados de mais de 6 Terabytes, e logo estes passaram a fazer parte da sua nova estratégia comercial. Cerca de 2.300 consultas SQL complexas são feitas diariamente e processadas paralelamente de maneira massiva nas suas complexas operações de bancos de dados relacionais. Fitas de dados podem ser produzidas para paralelismo em série e dados podem ser particionados ou divididos por operadores.

Outro exemplo foi desenvolvido pela Wal-Mart, em que a empresa descobriu que o perfil do consumidor de cervejas era semelhante ao de fraldas. Eram homens casados, entre 25 e 30 anos, que compravam fraldas e/ou cervejas à tarde no caminho do trabalho para a casa. Com base nisso, a Wal-Mart optou por uma otimização das atividades junto às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas. Resultado: O consumo cresceu 30% às sextas-feiras com a redefinição de lay-out baseada na conexão de hipóteses desenvolvidas pela mineração de dados.


3.1.3 Operações de cartão de crédito

A MasterCard International processa diariamente cerca de 12 milhões de transações e utiliza mineração de dados para extrair todos os tipos de estatísticas sobre os portadores de cartões. Este processamento está incluído nas vendas do data warehouse de transações para os mais de 20.000 parceiros comerciais. Isto permite a visualização de diferentes classes de portadores de cartões e a análise de como estes utilizam seus cartões para desenvolver promoções especializadas e deteções de fraude.


3.1.4 Seguros

A empresa MetroHealth Insurance Corp está utilizando um diretório pictorial de assistentes de saúde em um CD-ROM para auxiliar seus agentes. Ao criar links de 200.000 pedaços de dados de seu data warehouse em um sistema de mapas geográficos, a MetroHealth criou um CD contendo dados programados para consultas orientadas geograficamente. Um agente, ao acessar uma determinada cidade têm um mapa colorido indicando a densidade de assistentes de saúde à disposição.


3.1.5 Vestibular PUC-RJ

Utilizando as técnicas da mineração de dados, um programa de obtenção de conhecimento depois de examinar milhares de alunos forneceu a seguinte regra: se o candidato é do sexo feminino, trabalha e teve aprovação com boas notas no vestibular, então não efetivava a matrícula. Estranho, ninguém havia pensado nisso... mas uma reflexão justifica a regra oferecida pelo programa: de acordo com os costumes do Rio de Janeiro, uma mulher em idade de vestibular, se trabalha é porque precisa, e neste caso deve ter feito inscrição para ingressar na universidade pública gratuita. Se teve boas notas provavelmente foi aprovada na universidade pública onde efetivará matrícula. Claro que há exceções: pessoas que moram em frente à PUC, pessoas mais velhas, de alto poder aquisitivo e que voltaram a estudar por outras razões que ter uma profissão, etc. Mas a grande maioria obedece à regra anunciada.


3.1.6 Data Mining na Prática: Time Series

Um conceito importante sobre séries temporais é a sazonalidade. Este conceito pode ser definido da seguinte maneira: os dados de uma série temporal apresentam padrões de comportamento que se repetem durante os períodos da série. Um exemplo de sazonalidade pode ser o aumento de temperatura nos meses de verão em uma série temporal que armazena a temperatura mês a mês. O aumento de temperatura, neste caso, provavelmente vai se repetir em todos os meses de verão, independente do ano, demonstrando a sazonalidade do aumento da temperatura.

Os algoritmos de Data Mining para séries temporais são utilizados para prever novos dados a partir dos dados históricos da série. Ou seja, o algoritmo vai analisar a quantidade de dados existentes e fornecer uma possível previsão do que pode acontecer nos próximos períodos. Esta previsão leva em consideração os dados ‘passados’ da série temporal, que se tornam seu conjunto de treinamento. A previsão fornecida pelos algoritmos de Data Mining para series temporais é baseada em regressões não-lineares. Cabe a usuário apenas fornecer a série temporal e especificar quais os períodos o algoritmo deve prever.

Um ponto importante a ser considerado é a qualidade da predição. Podemos utilizar este algoritmo para prever o valor da cotação de uma determinada empresa e ficarmos ricos? Infelizmente a resposta é não.

A qualidade da predição é um assunto delicado quando se fala em algoritmos para séries temporais. É importante lembrar que a previsão é apenas uma possibilidade e que geralmente os algoritmos de séries temporais tendem a apresentar previsões razoáveis, previsões estas que levam em consideração diversos fatores como, por exemplo, a correlação com outras séries e a sazonalidade. Estes algoritmos trabalham com modelos para representar os dados e, em algumas situações, é mais recomendado elaborar um modelo específico para a série temporal do que utilizar um algoritmo de Data Mining. No exemplo da cotação faz mais sentido procurar um modelo específico para sistemas caóticos do que utilizar um algoritmo de Data Mining para séries temporais.


4 Aplicação Prática

Os dados, utilizados nesta aplicação prática, foram coletados da base de dados de compra de TI de uma empresa que, para facilitar, chamaremos de “Empresa Alfa”. Inicialmente, descreveremos o Contexto desta aplicação prática com uma pequena consideração sobre Gestão de Compras e uma breve exposição sobre o Modelo de Gestão de Compras adotada na “Empresa Alfa” para, em seguida, apresentar o estudo realizado, desde o modelo utilizado até a análise dos resultados obtidos após a aplicação do Data Mining.

4.1 Gestão de Compras

Sabe-se que o processo de compra no mercado dos negócios é diferente do processo de compra de um consumidor comum.

Tanto Kotler e Armostrong (1993) como Semenik e Bamossy (1996) explicam que:

A estrutura do mercado e demanda – o mercado organizacional é constituído por um número menor de compradores, porém em mais larga escala do que no mercado consumidor. É mais concentrado do ponto de vista geográfico. A demanda desse mercado, em sua grande maioria, denominada derivada, pois geralmente as empresas demandam bens de consumo ou insumos. Porém, certos mercados organizacionais têm demanda rígida ou inelástica, assim entendida como aquela que não é afetada por alterações de preços.

A demanda nesse mercado também pode flutuar em função das condições de mercado e do tipo de categoria do bem envolvido.

A natureza de compra – nas compras organizacionais, geralmente, há mais profissionalismo, pois são executadas por pessoas treinadas na tarefa de comprar. Dependendo do grau de complexidade da compra, a operação pode envolver muitas pessoas de diferentes níveis de responsabilidade;

Tipos de decisões e o processo de decisão - os compradores organizacionais normalmente se deparam com situações de compra complexas, que envolvem grandes somas de dinheiro, detalhes técnicos e econômicos, especificações detalhadas, bem como necessitam de grande interação entre as pessoas e os níveis hierárquicos.


4.2 Modelos de Gestão de Compras da “Empresa Alfa”

Os processos para aquisição de pequenos bens, na “Empresa Alfa”, seguem a seguinte classificação:

• Aquisição de bens considerados como Bem Patrimonial e material de consumo até o limite de R$ 50.000,00

• Bens com valores abaixo de R$ 326,62, independentemente das suas características, são considerados material de consumo;

• Aquisições de bens considerados Bem Patrimonial entre os valores de R$ 326,62 a R$ 1.306,48 são considerados pela “Empresa Alfa” como bens semi-permanentes recebendo identificação de Bem Patrimonial Único; As demais Aquisições de Bens serão realizadas por meio dos Órgãos Centralizadores de Compras de acordo com os parâmetros definidos a seguir:

• Aquisição de Bem de Investimento

• Valores menores do que R$ 500.000,00 (quinhentos mil reais) deve-se encaminhar a solicitação de compra para o Órgão Centralizado de Compra “A”.

• Valores maiores ou iguais a R$ 500.000,00 deve-se encaminhar a solicitação de compra para o Órgão Descentralizado de Compra de TI (A), que conduzirá o processo de aquisição junto ao Órgão Centralizado de Compra “B”.

• Aquisição de Bem de Não Investimento.

• Valores menores ou iguais a R$3.000.000,00 (três milhões de reais) deve-se encaminhar a solicitação de compra para o Órgão Centralizado de Compra “A”.

• Valores maiores do que R$ 3.000.000,00 (três milhões de reais) deve-se encaminhar a solicitação de compra para Órgão Descentralizado de Compra de TI (C), que conduzirá o processo de aquisição junto ao Órgão Centralizado de Compra “B”.

A Figura abaixo, representa o fluxo físico o encaminhamento das solicitações das aquisições de bens, a realização das aquisições e respectivas áreas responsáveis.

Figura 6 Encaminhamento das solicitações de compras


4.5 Metodologia

A Figura apresentada em seguida, resume o modelo que foi utilizado desde a fonte dos dados primários, passando pelas etapas de preparação e mineração de dados, até a descoberta de conhecimento como produto final.

Figura 7 Diagrama do modelo utilizado para descoberta de conhecimento

Inicialmente os dados gerados diariamente pelo sistema transacional SAP R/3 são copiados, periodicamente, para outras bases de dados que contêm os registros históricos das compras efetuadas (Data Warehouse).

Estes dados foram coletados utilizando-se a ferramenta da SAP denominada BW - Business WareHouse) – que armazena os dados de forma estruturada, facilitando a consulta e a análise, agregando valor para a tomada de decisões. O resultado desta etapa foi uma planilha do Microsoft Excel com todos e atributos e valores que estavam disponíveis na base de dados originais.

Posteriormente, foram feitas de forma manual, a limpeza, a codificação e o enriquecimento dos dados (detalhados no subtítulo seguinte), através da eliminação de linhas e colunas e da criação de novos atributos. Esta nova planilha obtida foi, então, convertida para o Microsoft Access de forma que possa ser lida pelo software de mineração de dados WizRule. Finalmente, os dados foram processados pelo software e as regras de associação foram geradas em formatos de relatórios, propiciando assim a descoberta de conhecimento.


4.6 A Preparação dos dados

Esta etapa foi de fundamental importância para que o processo de mineração de dados pudesse gerar as regras de associação. Mais de 50% do tempo dedicado à pesquisa foram gastos nesta etapa preparatória.

Eliminação de itens, campos (colunas) e instâncias (linhas) desnecessárias para a análise: Nessa etapa foram eliminados alguns dados, da planilha gerada pela query do BW, a fim de reduzir a quantidade e melhorar a qualidade de processamento. Foram excluídos todos os itens que não contemplavam compras de produtos de TI, as colunas que continham dados considerados não necessários a qualquer tipo de análise e as linhas que apresentavam inconsistências .

Preenchimento de campos em branco: Alguns campos, ao migrarem do Data Warehouse, apareceram na planilha com valores zerados fazendo-se necessária a análise caso a caso com a respectiva ação adequada. Ou eliminou-se o item, ou atribuíram-se valores idênticos aos demais itens idênticos.

Codificação e padronização da descrição dos itens: Para garantir a imparcialidade nas análises das associações apresentadas após a aplicação das regras de associação, foram elaboradas duas tabelas codificando os compradores e os fornecedores substituindo-se, em seguida, na planilha os nomes dos compradores e das empresas por suas respectivas codificações.

Enriquecimento dos dados: Na primeira fase de enriquecimento de dados foi percebida a diversidade de formas de descrições existentes na base de dados para um mesmo produto, o que poderia não garantir resultados significativos após a aplicação das regras pelo WizRule. Para a solução dessa questão foi feita a inserção de uma coluna antes da coluna de descrição dos produtos, com a denominação “Tipo do Produto”. Essa coluna foi posteriormente alimentada, manualmente, com a primeira palavra da Descrição do Produto (ex. Notebook) mantendo-se a descrição detalhada apenas na coluna Descrição de Produtos (ex. NOTEBOOK HP COMPAQ NX5000 - TECLADO ABNT).


4.7 Software utilizado

O software utilizado para análise da base dados foi a versão 4.05 demo do WizRule. Este software é de fácil utilização e configuração sendo exigido muito pouco tempo de aprendizagem por parte do usuário para poder utilizá-lo de forma efetiva.

Possui alguns parâmetros de configuração relacionados ao grau de confiabilidade das regras permitindo fazer os ajustes necessários de acordo com cada caso analisado.

A interface padrão “for Windows” do produto e a capacidade de leitura arquivos de entrada gerados por outras ferramentas, em vários formatos possíveis (arquivos do dbase/foxbase, access e texto), tornam o produto ainda mais versátil.

No entanto, esta versão foi escolhida por não haver necessidade do uso da versão full, já que após a etapa de pré-processamento, a base de dados final continha menos de 1 000 linhas.

O resultado final da análise é apresentado em um relatório que mostra, em tela, as regras geradas e os possíveis desvios (exceções às regras) dos dados.

As regras geradas são numeradas e se apresentam como segue:

If Fornecedor is F45 Then

Tipo do produto is SOFTWARE

Rule's probability: 1,000

The rule exists in 30 records.

Significance Level: Error probability is

almost 0

Esta regra indica que quando o fornecedor é o F45 (código), o produto vendido é um

SOFTWARE. A regra tem probabilidade igual a 1, existe em 30 registros e é baixa a probabilidade de haver exceções a esta regra.

A figura abaixo, mostra a tela principal do WizRule Demo 4.05 já com a base de dados de compras, objeto deste estudo, carregada.

Figura 8 Tela inicial do WizRule com a base de dados importada do Microsoft Access


4.8 Análise dos Resultados

Foram analisados 935 registros de compras pelo software e geradas 52 regras de associação sendo configuradas de forma que somente regras com 90% de probabilidade e com pelo menos 20 ocorrências fossem consideradas.

A Tabela apresentada a seguir, exibe a consolidação das primeiras 15 regras geradas.

Tabela 1: Consolidação das 15 primeiras regras geradas pelo WizRule

Após a análise da tabela com todas as regras geradas e com o cruzamento de informações entre as regras, chegou-se as seguintes conclusões:

• Apesar do grande número de fornecedores que já forneceram pelo menos 1 item, a maior parte das compras (em registros) está concentrada em poucos;

• Esta concentração também ocorre na relação comprador X fornecedor e na relação fornecedor X item;

• Alguns fornecedores fornecem apenas um tipo de produto;

• Produtos tais como impressoras e scanners (entre outros) são comprados, na maioria dos casos, por unidade;

Ainda como resultado da análise foi possível estabelecer uma faixa de valores para uma grande quantidade dos itens de TI que são comprados. Estas faixas poderão ser utilizadas como parâmetros na análise de futuras compras


5 Software

Relação de alguns software de data mining:

Enterprise Miner, ferramenta de data mining do SAS

IlliMine Projeto de mineração de dados escrito em C++.

InfoCodex Aplicação de mineração de dados com uma base de dados linguística.

KDB200 Uma ferramenta livre em C++ que integra acesso à bases de dados, pre-processamento, técnicas de transformação e um vasto escopo de algoritmos de mineração de dados.

KXEN Ferramenta de mineração de dados comercial, utiliza conceitos do Profesor Vladimir Vapnik como Minimização de Risco Estruturada (Structured Risk Minimization ou SRM) e outros.

KNIME Plataforma de mineração de dados aberta que implementa o paradigma de pipelining de dados. Baseada no eclipse

Lingpipe API em Java para mineração em textos distribuída com código-fonte.

MDR Ferramenta livre em Java para detecção de interações entre atributos utilizando o método da multifactor dimensionality reduction (MDR).

Orange Tookit livre em Python para mineração de dados e aprendizado de máquina.

Pimiento Um ambiente para mineração em textos baseado em Java.

Tanagra Software livre de mineração de dados e estatística.

WEKA Software livre em java para mineração de dados.

Cortex Intelligence Sistema de PLN para mineração de textos aplicado à Inteligência Competitiva


Conclusão

A rápida taxa de inovação nas tecnologias de informática está exigindo que, cada vez mais, os profissionais estejam preparados e atualizados para conhecer e enfrentar os desafios da Tecnologia da Informação.

O conceito de Data Mining está se tornando cada vez mais popular como uma ferramenta de gerenciamento de informação, que deve revelar estruturas de conhecimento, que possam guiar decisões em condições de certeza limitada. Recentemente, tem havido um interesse crescente em desenvolver novas técnicas analíticas, especialmente projetadas para tratar questões relativas a Data Mining. No entanto, Data Mining ainda está baseado em princípios conceituais de Análise de Dados Exploratórios e de modelagem.

Data Mining é parte de um processo maior de conhecimento denominado Knowledge Discovery in Database (KDD). KDD consiste, fundamentalmente, na estruturação do banco de dados; na seleção, preparação e pré-processamento dos dados; na transformação, adequação e redução da dimensionalidade dos dados; no processo de Data Mining; e nas análises, assimilações, interpretações e uso do conhecimento extraído do banco de dados, através do processo de Data Mining.

Nenhum comentário: