MINERAÇÃO DE DADOS PARA COMPRAS DE TI


MINERAÇÃO DE DADOS PARA COMPRAS DE TI

Joel De Bortoli - www.joeldebortoli.com

Este artigo tem como objetivo validar a hipótese de que a Mineração de Dados pode ser aplicada em base de dados de compra, gerando a descoberta do conhecimento oculto, como uma grande contribuição ao processo decisório da gestão de compras. Para melhor compreensão desse trabalho abordamos, na Revisão de Literatura, primeiramente, um histórico sobre o processo decisório, bem como a evolução dos estudos deste tema e da relação entre a Tomada de Decisão e os Sistemas de Informação.

Palavras Chave: Mineração de Dados, Compras, Base de Dados.

ABSTRACT
This research has as objective validates the hypothesis that the Data Mining can be applied in purchase database, generating the discovery of the occult knowledge, as a contribution to the decisive process of the administration of purchases. For better understanding of that work we approached, in the Revision of Literature, firstly, a report on the decisive process, as well as the evolution of the studies of this theme and of the relationship between the Decision Making and the Information Systems.

Key Words: Date Mining, Purchases, Dates Warehouse.


Introdução
Os avanços obtidos nas áreas de software e hardware possibilitaram a criação de aplicações comerciais e científicas capazes de processar grandes volumes de dados.
Cada vez mais, as empresas vêm fazendo grandes investimentos em aplicativos e equipamentos usados para o armazenamento, integração, análise e gerenciamento dos seus dados. Isto se deve a uma mudança de filosofia, pois, atualmente, as bases de dados não são mais consideradas simples repositórios de informações, mas sim, um importante patrimônio da organização.


Revisão de Literatura
Para uma melhor compreensão deste estudo, primeiramente será apresentado um histórico sobre o processo decisório.

Processo Decisório
O processo decisório pode ser feito de acordo com a percepção das situações, onde cada elemento da estrutura organizacional desempenha um papel definido com deveres e atividades a executar.
A organização pode então ser entendida como um sistema de decisões, onde cada elemento atua, escolhendo e decidindo entre as alternativas mais ou menos racionais, de acordo com sua motivação e personalidade. As decisões, portanto, são um processo de análises e escolhas, entre as várias alternativas apresentadas, durante a ação, que o indivíduo deverá seguir. É primordial ressaltar que o gestor, é quem decide sobre uma situação, onde possui opções e arbítrio, escolhendo a melhor opção entre estas.

A tomada de decisão e os sistemas de apoio
A sobrevivência das empresas e a situação das pessoas que direta ou indiretamente estão a ela ligadas, empregados, fornecedores, clientes ou acionistas, são afetadas diretamente pelas decisões gerenciais. Assim, o tomador de decisões é atingido por vários fatores de influência, inclusive por cobranças das pessoas atingidas para obtenção de um resultado de sucesso.
Cada uma dessas pessoas solicita soluções diferenciadas e, possivelmente antagônicas, como solução de um problema, e é preciso que prioridades sejam estabelecidas quando estamos diante de posições e objetivos diferentes, antagônicos ou disputas de informações e recursos. É preciso transformar os objetivos da organização em objetivos gerais para todos os membros da empresa, buscando o compartilhamento da participação e da visão do futuro, buscando a satisfação dos usuários e clientes, não se descuidando, no entanto, dos demais grupos de interesses - acionistas e empregados.
Com as ferramentas Data Warehouse e OLAP, os relatórios e as consultas passam a ser feitos pelos próprios usuários dos sistemas sem que haja a necessidade de um profundo conhecimento em tecnologias computacionais, sendo sua confecção barata, rápida, confiável e adaptável aos modelos diversos de negócios. Ao usarem essas ferramentas os gerentes gastam um tempo bem menor manipulando os dados e construindo modelos conforme suas necessidades, usando melhor o tempo para as necessárias análise e soluções de problemas.

  
Data Warehouse

Definição
Consiste em organizar dados corporativos da melhor forma, a fim de subsidiar os gerentes e diretores das empresas com informações para a tomada de decisão, num banco de dados paralelo aos sistemas operacionais.

Arquitetura
Cada Data Warehouse deve ser moldado conforme as necessidades dos usuários, alinhado às suas áreas funcionais na empresa e de acordo com as condições de negócio e as pressões de competitividade. No entanto, são quatro as arquiteturas mais utilizadas para seu desenvolvimento:
Arquitetura Top-Down: Essa abordagem entende o Data Warehouse como o ponto central do ambiente analítico da empresa, possuindo atomicidade ou transação de dados que são purgados de um ou mais sistemas e integrados conforme a modelagem de dados normalizada da empresa. É neste ambiente que os dados são “enxugados”, dimensionados e distribuídos para os Data Marts.
Arquitetura Bottom-up: É uma abordagem que tem como característica principal o desenvolvimento inverso à abordagem Top-dowm.
Arquitetura Híbrida: Tem como finalidade integrar as abordagens de Top Down e Bottom up, utilizando o que há de melhor nas duas abordagens e tirando proveito da orientação do usuário e da velocidade que existe na abordagem Bottom-up sem prejudicar a integração forçada por um Data Warehouse que existe na abordagem Top-Down.
Arquitetura Federada: Uma ferramenta que está suprindo os anseios dos analistas de negócios e gerentes. Por intermédio do Data Warehouse , atualmente, esses usuários obtêm ganhos qualitativos e quantitativos no suporte ao processo decisório. Menos tempo é perdido no acesso e análise de dados, sobrando o suficiente para que se voltem as estratégias para os negócios, com base em fatos e informações comprovadas e analisadas.

Ferramenta OLAP
As ferramentas de processamento analítico on-line ou OLAP (on-line analytical processing) são formadas por conjuntos de tecnologias projetadas, especialmente, para suportar o processo decisório e às estratégias de negócio com consultas, análise e cálculos mais aprimorados nos dados corporativos, que estejam ou não, armazenados. num Data Warehouse.

 
O Processo KDD

Definição
KDD (Knowledge Discovery in Databases - “descoberta de conhecimento em bases de dados’’) é todo processo de descoberta de conhecimento útil nos dados, enquanto Data Mining refere-se à aplicação de algoritmos para extração de modelos dos dados.

Etapas do Processo KDD
È um processo de descoberta de conhecimento em bases de dados que envolvem uma diversificada abrangência, como: estatística, banco de dados, matemática, visualização de dados, inteligência artificial e reconhecimento de padrões. Este processo utiliza técnicas, métodos e algoritmos com origem dessas áreas, em que o principal objetivo é a extração do conhecimento partindo de grandes bases de dados, sendo formado por 5 etapas:
Seleção dos Dados: Após a definição do domínio sobre o qual se quer executar o processo de descoberta, o passo seguinte é a seleção e a coleta do conjunto de dados ou variáveis necessárias. A maioria das empresas já possui bases de dados. No entanto, nem sempre todos os dados que serão utilizados estão disponíveis em bases adequadas, o que torna necessário um trabalho de compatibilidade.
Limpeza dos Dados: É a atividade através da qual dados estranhos ou inconsistentes e ruídos, são tratados e onde são estabelecidas as estratégias para a resolução dos problemas de ausência de dados.
Transformação dos Dados: Nesta etapa, como já foi citado, o uso de Data Warehouse se expande consideravelmente, visto que são nessas estruturas que as informações estão alocadas da forma mais eficiente.
Data Mining: A descoberta do conhecimento é uma das atividades mais fascinantes, onde a maioria  dos métodos de Data Mining são baseados em conceitos de aprendizagem de máquina, estatística, reconhecimento de padrões, agrupamento, classificação e modelos gráficos.
Interpretação e Avaliação dos Resultados: Os resultados do processo de descoberta do conhecimento podem ser mostrados de diversas formas que devem possibilitar uma análise criteriosa na identificação da necessidade de retorno a qualquer um dos estágios anteriores do processo de KDD.

Áreas Relacionadas ao KDD
O processo KDD é interdisciplinar e envolve áreas relativas a estatística, banco de dados, matemática, visualização de dados, inteligência artificial, aprendizado de máquina e sistemas especialistas.
Aprendizado de Máquina: Na área do aprendizado de Máquina são utilizados estratégias de aprendizado de máquina ou modelos cognitivos e paradigmas para a aquisição automática de conhecimento.
Bases de Dados: Nesta área existem tecnologias específicas e, também, uma série de pesquisas que têm como objetivo melhor explorar as diversas características dos dados a serem trabalhados.
Estatística e Matemática: É disponibilizado um grande número de procedimentos técnicos e resultados de testes para as tarefas de Data Mining, tais como, por exemplo, para a verificação se as estimativas e procedimentos de pesquisa estão consistentes sob determinados critérios de avaliação e para a identificação do grau de incerteza.
Sistemas Especialistas: São programas de Inteligência Artificial gerados para a resolução de problemas reais.
Visualização de Dados: tem um papel importante visto que em diversos momentos é necessária a interação entre o ser humano e o processo de descoberta.
Para a visualização, recorre-se a distintas formas, tais como: ícones, gráficos e figuras.

Data Mining

Definição
Segundo Rodrigues (2000), "Data Mining é um processo que encontra relações e modelos dentro de um grande volume de dados armazenados em um banco de dados".

Objetivos do Data Mining
O principal objetivo do Data Mining é a extração de valiosas informações dos dados, para a descoberta do "ouro escondido". Esse "ouro" são as valiosas infomações que os dados contém.

A origem do Data Mining
Para Freitas (2000), “Data Mining é um campo interdisciplinar, que emergiu da interseção entre várias áreas, principalmente aprendizado de máquina” (uma subárea da inteligência artificial, estatística e banco de dados).
Inteligência Artificial: Inteligência Artificial ou IA, é uma disciplina com base nos fundamentos da heurística, diferentemente da estatística, sua tentativa é a de imitar a maneira como o homem pensa na resolução dos problemas estatísticos.
A Estatística: Não seria possível termos o Data Mining sem a estatística, já que a mesma é a base de construção do Data Mining.
Banco de Dados: Uma das técnicas mais utilizadas para melhorar a base de dados é o Data Warehouse, como já vimos anteriormente.
Características Desejáveis do Conhecimento a ser Descoberto por Data Mining: Segundo Freitas (2000), idealmente, o conhecimento a ser descoberto deve satisfazer três propriedades, a saber:
• compreensível por usuários humanos;
• correto (tanto quanto possível);
• interessante / útil / novo (surpreendente).
Características Esperadas do Método de Descoberta de Conhecimento por Data Mining: Ainda, conforme Freitas (2000), o método de descoberta do conhecimento deve apresentar as seguintes características:
• flexível (facilmente modificável).
• eficiente (rápido);
• genérico (aplicável a vários tipos de dados);

As Principais Técnicas de Data Mining  
Dentre as técnicas de Data Mining, destacam-se:  Estatística, Banco de Dados, Inteligência Artificial e Data Mining.
Árvores de Decisão: Árvore de Decisão é um método adequado quando o objetivo do Data Mining é classificação de dados ou predição de saídas
Redes Neurais: As Redes Neurais tentam construir representações internas de modelos ou padrões detectados nos dados, mas essas representações não são apresentadas para o usuário.
Estruturalmente, uma Rede Neural consiste em um número de elementos interconectados (chamados neurônios) organizados em camadas que aprendem pela modificação da conexão que conectam as camadas.
Análise de Agrupamento: Esta técnica agrupa informações homogêneas de grupos heterogêneos entre os demais e aponta o item que melhor representa cada grupo, permitindo desta forma que se consiga perceber a característica de cada grupo. Desse modo, objetos dentro do mesmo grupo são os mais semelhantes possíveis, enquanto que objetos de grupos diferentes são os mais diferentes possíveis.
Indução de Regras: Indução de Regras é o processo de analisar uma série de dados e, a partir dela, gerar padrões. O processo é, em sua essência, semelhante àquilo que um analista humano faria em uma análise exploratória.
Análise Estatística de Séries Temporais: A estatística é a mais antiga tecnologia em Data Mining, e é parte da fundamentação básica de todas as outras tecnologias. Ela incorpora um envolvimento muito forte do usuário, exigindo engenheiros experientes, para construir modelos que descrevam o comportamento dos dados através dos métodos clássicos de matemática.
Visualização: Mapeia o dado que está sendo minerado de acordo com dimensões especificadas. Nenhuma análise é executada pelo programa de Data Mining além da manipulação da estatística básica. O usuário, então, interpreta o dado através do monitor de vídeo.

As Etapas do Data Mining
A implementação de um sistema de Data Mining pode ser dividida em seis fases interdependentes para que o mesmo atinja seus objetivos finais, descritas a seguir.
Entendimento do Problema: A fase inicial do projeto deve ter como objetivo identificar as metas e necessidades partindo de uma perspectiva do problema, e então convertê-las para uma aplicação de Data Mining e um plano inicial de "ataque" ao problema.
Entendimento dos dados: Esta fase tem como principal atividade a extração de uma amostra dos dados a serem usados e avaliar o ambiente em que os mesmos se encontram.
Preparação dos dados: Criação de programas de extração, limpeza e transformação dos dados para utilização pelos algoritmos de Data Mining. É nessa etapa que os dados são adaptados para serem inseridos no algoritmo escolhido para processamento.
Modelagem do Problema: Seleção do(s) algoritmo(s) dentre os apresentados a serem utilizados e processamento efetivo do modelo.
Avaliação do Modelo: Ao final da fase de modelagem, diversos modelos devem ter sido avaliados sob a perspectiva do analista responsável. Então, o objetivo passa a ser avaliar os modelos com a visão do problema, certificando-se que não existem falhas ou contradições com relação às regras do problema.
Divulgação ou Publicação do Modelo: A criação e a validação do modelo permitem o avanço de mais um passo, no sentido de tornar a informação gerada acessível. Isto pode ser feito de várias formas, desde a criação de um software específico para tal, até a publicação de um relatório para uso interno.

As Vantagens do Data Mining
         O uso de Data Mining para construção de um modelo traz as seguintes vantagens:
Modelos são de fácil compreensão: pessoas sem conhecimento estatístico (por exemplo, analistas financeiros ou pessoas que trabalham com data base marketing) podem interpretar o modelo e compará-lo com suas próprias idéias. O usuário ganha mais conhecimento sobre o comportamento do cliente e pode usar esta informação para otimizar os processos dos negócios.
Grandes bases de dados podem ser analisadas: grandes conjunto de dados, de até vários gigabytes de informação podem ser analisados com Data Mining.
Data Mining descobre informações não esperadas: como muitos modelos diferentes são validados, alguns resultados inesperados podem surgir. Em diversos estudos,   descobriu-se que combinações de fatores particulares apresentaram resultados inesperados.
Variáveis não necessitam de recodificação: Data Mining lida tanto com variáveis numéricas (quantitativas) quanto categóricas (qualitativas). Estas variáveis aparecem no modelo exatamente da mesma forma em que aparecem na base de dados.
Modelos são precisos: os modelos obtidos por Data Mining são validados por técnicas de estatística. Desta forma, as predições feitas por modelos são precisas.

Aplicação Prática
Os dados, utilizados nesta aplicação prática, foram coletados da base de dados de   compra de TI de uma determinada empresa.

Gestão de Compras
Sabe-se que o processo de compra no mercado dos negócios é diferente do processo de compra de um consumidor comum.
A estrutura do mercado e demanda: o mercado organizacional é constituído por um número menor de compradores, porém em mais larga escala do que no mercado consumidor. É mais concentrado do ponto de vista geográfico. A demanda desse mercado, em sua grande maioria, denominada derivada, pois geralmente as empresas demandam bens de consumo ou insumos.
A natureza de compra: nas compras organizacionais, geralmente, há mais profissionalismo, pois são executadas por pessoas treinadas na tarefa de comprar.
Dependendo do grau de complexidade da compra, a operação pode envolver muitas pessoas de diferentes níveis de responsabilidade;
Tipos de decisões e o processo de decisão: os compradores organizacionais normalmente se deparam com situações de compra complexas, que envolvem grandes somas de dinheiro, detalhes técnicos e econômicos, especificações detalhadas, bem como necessitam de grande interação entre as pessoas e os níveis hierárquicos.

A Figura abaixo, representa o fluxo físico do encaminhamento das solicitações das aquisições de bens, a realização das aquisições e respectivas áreas responsáveis.



A Figura apresentada em seguida, resume o modelo que foi utilizado desde a fonte dos dados primários, passando pelas as etapas de preparação e mineração de dados, até a descoberta de conhecimento como produto final.




A Preparação dos dados
Esta etapa foi de fundamental importância para que o processo de mineração de dados pudesse gerar as regras de associação.

Conclusão
A utilização de técnicas de mineração de dados mostrou-se útil para descoberta de conhecimento que estava oculto nas bases de dados de compra analisadas.
Quanto ao objetivo geral deste trabalho, de buscar contribuir com uma solução de otimização de tarefas capazes de auxiliar a tomada de decisão na gestão de compras em uma empresa de grande porte, aplicando a técnica de Data Mining, também foi atingido, apesar da utilização de uma pequena parte da base de dados de compra.

Nenhum comentário: