MINERAÇÃO DE DADOS PARA COMPRAS DE TI
Joel De Bortoli - www.joeldebortoli.com
Este artigo tem como
objetivo validar a hipótese de que a Mineração de Dados pode ser aplicada em
base de dados de compra, gerando a descoberta do conhecimento oculto, como uma
grande contribuição ao processo decisório da gestão de compras. Para melhor
compreensão desse trabalho abordamos, na Revisão de Literatura, primeiramente,
um histórico sobre o processo decisório, bem como a evolução dos estudos deste
tema e da relação entre a Tomada de Decisão e os Sistemas de Informação.
Palavras Chave: Mineração
de Dados, Compras, Base de Dados.
ABSTRACT
This research has as objective validates the
hypothesis that the Data Mining can be applied in purchase database, generating
the discovery of the occult knowledge, as a contribution to the decisive
process of the administration of purchases. For better understanding of that
work we approached, in the Revision of Literature, firstly, a report on the
decisive process, as well as the evolution of the studies of this theme and of
the relationship between the Decision Making and the Information Systems.
Key Words: Date Mining, Purchases, Dates Warehouse.
Introdução
Os avanços obtidos nas
áreas de software e hardware possibilitaram a criação de aplicações comerciais
e científicas capazes de processar grandes volumes de dados.
Cada vez mais, as
empresas vêm fazendo grandes investimentos em aplicativos e equipamentos usados
para o armazenamento, integração, análise e gerenciamento dos seus dados. Isto
se deve a uma mudança de filosofia, pois, atualmente, as bases de dados não são
mais consideradas simples repositórios de informações, mas sim, um importante
patrimônio da organização.
Revisão de Literatura
Para uma
melhor compreensão deste estudo, primeiramente será apresentado um histórico
sobre o processo decisório.
Processo
Decisório
O processo
decisório pode ser feito de acordo com a percepção das situações, onde cada
elemento da estrutura organizacional desempenha um papel definido com deveres e
atividades a executar.
A organização pode
então ser entendida como um sistema de decisões, onde cada elemento atua,
escolhendo e decidindo entre as alternativas mais ou menos racionais, de acordo
com sua motivação e personalidade. As decisões, portanto, são um processo de
análises e escolhas, entre as várias alternativas apresentadas, durante a ação,
que o indivíduo deverá seguir. É primordial ressaltar que o gestor, é quem
decide sobre uma situação, onde possui opções e arbítrio, escolhendo a melhor
opção entre estas.
A tomada de decisão e os sistemas de apoio
A sobrevivência das
empresas e a situação das pessoas que direta ou indiretamente estão a ela
ligadas, empregados, fornecedores, clientes ou acionistas, são afetadas
diretamente pelas decisões gerenciais. Assim, o tomador de decisões é atingido
por vários fatores de influência, inclusive por cobranças das pessoas atingidas
para obtenção de um resultado de sucesso.
Cada uma
dessas pessoas solicita soluções diferenciadas e, possivelmente antagônicas,
como solução de um problema, e é preciso que prioridades sejam estabelecidas
quando estamos diante de posições e objetivos diferentes, antagônicos ou
disputas de informações e recursos. É preciso transformar os objetivos da
organização em objetivos gerais para todos os membros da empresa, buscando o
compartilhamento da participação e da visão do futuro, buscando a satisfação
dos usuários e clientes, não se descuidando, no entanto, dos demais grupos de
interesses - acionistas e empregados.
Com as ferramentas Data
Warehouse e OLAP, os relatórios e as consultas passam a ser feitos pelos
próprios usuários dos sistemas sem que haja a necessidade de um profundo
conhecimento em tecnologias computacionais, sendo sua confecção barata, rápida,
confiável e adaptável aos modelos diversos de negócios. Ao usarem essas
ferramentas os gerentes gastam um tempo bem menor manipulando os dados e
construindo modelos conforme suas necessidades, usando melhor o tempo para as
necessárias análise e soluções de problemas.
Data Warehouse
Definição
Consiste em organizar
dados corporativos da melhor forma, a fim de subsidiar os gerentes e diretores
das empresas com informações para a tomada de decisão, num banco de dados
paralelo aos sistemas operacionais.
Arquitetura
Cada Data Warehouse deve
ser moldado conforme as necessidades dos usuários, alinhado às suas áreas
funcionais na empresa e de acordo com as condições de negócio e as pressões de
competitividade. No entanto, são quatro as arquiteturas mais utilizadas para
seu desenvolvimento:
Arquitetura Top-Down: Essa abordagem entende o Data
Warehouse como o ponto central do ambiente analítico da empresa, possuindo
atomicidade ou transação de dados que são purgados de um ou mais sistemas e
integrados conforme a modelagem de dados normalizada da empresa. É neste
ambiente que os dados são “enxugados”, dimensionados e distribuídos para os Data
Marts.
Arquitetura Bottom-up: É uma abordagem que tem como
característica principal o desenvolvimento inverso à abordagem Top-dowm.
Arquitetura Híbrida: Tem como finalidade integrar as abordagens de Top
Down e Bottom up, utilizando o que há de melhor nas duas abordagens
e tirando proveito da orientação do usuário e da velocidade que existe na
abordagem Bottom-up sem prejudicar a integração forçada por um Data
Warehouse que existe na abordagem Top-Down.
Arquitetura Federada: Uma ferramenta que está suprindo os anseios
dos analistas de negócios e gerentes. Por intermédio do Data Warehouse ,
atualmente, esses usuários obtêm ganhos qualitativos e quantitativos no suporte
ao processo decisório. Menos tempo é perdido no acesso e análise de dados,
sobrando o suficiente para que se voltem as estratégias para os negócios, com
base em fatos e informações comprovadas e analisadas.
Ferramenta OLAP
As ferramentas de
processamento analítico on-line ou OLAP (on-line analytical processing)
são formadas por conjuntos de tecnologias projetadas, especialmente, para
suportar o processo decisório e às estratégias de negócio com consultas,
análise e cálculos mais aprimorados nos dados corporativos, que estejam ou não,
armazenados. num Data Warehouse.
O Processo KDD
Definição
KDD (Knowledge
Discovery in Databases - “descoberta de conhecimento em bases de dados’’) é
todo processo de descoberta de conhecimento útil nos dados, enquanto Data
Mining refere-se à aplicação de algoritmos para extração de modelos dos
dados.
Etapas do Processo KDD
È um processo de
descoberta de conhecimento em bases de dados que envolvem uma diversificada
abrangência, como: estatística, banco de dados, matemática, visualização de
dados, inteligência artificial e reconhecimento de padrões. Este processo
utiliza técnicas, métodos e algoritmos com origem dessas áreas, em que o
principal objetivo é a extração do conhecimento partindo de grandes bases de
dados, sendo formado por 5 etapas:
Seleção dos Dados: Após a definição do domínio sobre o qual se quer
executar o processo de descoberta, o passo seguinte é a seleção e a coleta do
conjunto de dados ou variáveis necessárias. A maioria das empresas já possui
bases de dados. No entanto, nem sempre todos os dados que serão utilizados
estão disponíveis em bases adequadas, o que torna necessário um trabalho de
compatibilidade.
Limpeza dos Dados: É a atividade através da qual dados estranhos ou
inconsistentes e ruídos, são tratados e onde são estabelecidas as estratégias
para a resolução dos problemas de ausência de dados.
Transformação dos Dados: Nesta etapa, como já foi citado, o uso de Data
Warehouse se expande consideravelmente, visto que são nessas estruturas que
as informações estão alocadas da forma mais eficiente.
Data Mining: A descoberta do conhecimento é uma das
atividades mais fascinantes, onde a maioria
dos métodos de Data Mining são baseados em conceitos de
aprendizagem de máquina, estatística, reconhecimento de padrões, agrupamento,
classificação e modelos gráficos.
Interpretação e Avaliação dos Resultados: Os resultados do processo
de descoberta do conhecimento podem ser mostrados de diversas formas que devem
possibilitar uma análise criteriosa na identificação da necessidade de retorno
a qualquer um dos estágios anteriores do processo de KDD.
Áreas Relacionadas ao KDD
O processo KDD é
interdisciplinar e envolve áreas relativas a estatística, banco de dados,
matemática, visualização de dados, inteligência artificial, aprendizado de
máquina e sistemas especialistas.
Aprendizado de Máquina: Na área do aprendizado de Máquina são
utilizados estratégias de aprendizado de máquina ou modelos cognitivos e
paradigmas para a aquisição automática de conhecimento.
Bases de Dados: Nesta área existem tecnologias específicas e,
também, uma série de pesquisas que têm como objetivo melhor explorar as
diversas características dos dados a serem trabalhados.
Estatística e Matemática: É disponibilizado um grande número de
procedimentos técnicos e resultados de testes para as tarefas de Data
Mining, tais como, por exemplo, para a verificação se as estimativas e
procedimentos de pesquisa estão consistentes sob determinados critérios de
avaliação e para a identificação do grau de incerteza.
Sistemas Especialistas: São programas de Inteligência Artificial
gerados para a resolução de problemas reais.
Visualização de Dados: tem um papel importante visto que em
diversos momentos é necessária a interação entre o ser humano e o processo de
descoberta.
Para a visualização,
recorre-se a distintas formas, tais como: ícones, gráficos e figuras.
Data Mining
Definição
Segundo Rodrigues
(2000), "Data Mining é um processo que encontra relações e modelos
dentro de um grande volume de dados armazenados em um banco de dados".
Objetivos do Data Mining
O principal objetivo do
Data Mining é a extração de valiosas informações dos dados, para a
descoberta do "ouro escondido". Esse "ouro" são as valiosas
infomações que os dados contém.
A origem do Data Mining
Para Freitas (2000), “Data
Mining é um campo interdisciplinar, que emergiu da interseção entre várias
áreas, principalmente aprendizado de máquina” (uma subárea da inteligência artificial,
estatística e banco de dados).
Inteligência Artificial: Inteligência Artificial ou IA, é uma
disciplina com base nos fundamentos da heurística, diferentemente da
estatística, sua tentativa é a de imitar a maneira como o homem pensa na
resolução dos problemas estatísticos.
A Estatística: Não seria possível termos o Data Mining sem a
estatística, já que a mesma é a base de construção do Data Mining.
Banco de Dados: Uma das técnicas mais utilizadas para melhorar a
base de dados é o Data Warehouse, como já vimos anteriormente.
Características Desejáveis do Conhecimento a ser Descoberto por Data
Mining: Segundo Freitas (2000), idealmente, o conhecimento a ser
descoberto deve satisfazer três propriedades, a saber:
• compreensível por
usuários humanos;
• correto (tanto quanto
possível);
• interessante / útil /
novo (surpreendente).
Características Esperadas do Método de Descoberta de Conhecimento por Data
Mining: Ainda, conforme Freitas (2000), o método de descoberta do
conhecimento deve apresentar as seguintes características:
• flexível (facilmente
modificável).
• eficiente (rápido);
• genérico (aplicável a
vários tipos de dados);
As Principais Técnicas de Data Mining
Dentre as técnicas de Data
Mining, destacam-se: Estatística,
Banco de Dados, Inteligência Artificial e Data Mining.
Árvores de Decisão: Árvore de Decisão é um método adequado quando o
objetivo do Data Mining é classificação de dados ou predição de saídas
Redes Neurais: As Redes Neurais tentam construir representações
internas de modelos ou padrões detectados nos dados, mas essas representações
não são apresentadas para o usuário.
Estruturalmente, uma
Rede Neural consiste em um número de elementos interconectados (chamados
neurônios) organizados em camadas que aprendem pela modificação da conexão que
conectam as camadas.
Análise de Agrupamento: Esta técnica agrupa informações homogêneas
de grupos heterogêneos entre os demais e aponta o item que melhor representa
cada grupo, permitindo desta forma que se consiga perceber a característica de
cada grupo. Desse modo, objetos dentro do mesmo grupo são os mais semelhantes
possíveis, enquanto que objetos de grupos diferentes são os mais diferentes
possíveis.
Indução de Regras: Indução de Regras é o processo de analisar uma
série de dados e, a partir dela, gerar padrões. O processo é, em sua essência,
semelhante àquilo que um analista humano faria em uma análise exploratória.
Análise Estatística de Séries Temporais: A
estatística é a mais antiga tecnologia em Data Mining, e é parte da
fundamentação básica de todas as outras tecnologias. Ela incorpora um
envolvimento muito forte do usuário, exigindo engenheiros experientes, para
construir modelos que descrevam o comportamento dos dados através dos métodos
clássicos de matemática.
Visualização: Mapeia o dado que está sendo minerado de acordo com
dimensões especificadas. Nenhuma análise é executada pelo programa de Data
Mining além da manipulação da estatística básica. O usuário, então,
interpreta o dado através do monitor de vídeo.
As Etapas do Data Mining
A implementação de um
sistema de Data Mining pode ser dividida em seis fases interdependentes
para que o mesmo atinja seus objetivos finais, descritas a seguir.
Entendimento do Problema: A fase inicial do projeto deve ter como
objetivo identificar as metas e necessidades partindo de uma perspectiva do
problema, e então convertê-las para uma aplicação de Data Mining e um
plano inicial de "ataque" ao problema.
Entendimento dos dados: Esta fase tem como principal atividade a
extração de uma amostra dos dados a serem usados e avaliar o ambiente em que os
mesmos se encontram.
Preparação dos dados: Criação de programas de extração, limpeza e
transformação dos dados para utilização pelos algoritmos de Data Mining. É
nessa etapa que os dados são adaptados para serem inseridos no algoritmo
escolhido para processamento.
Modelagem do Problema: Seleção do(s) algoritmo(s) dentre os
apresentados a serem utilizados e processamento efetivo do modelo.
Avaliação do Modelo: Ao final da fase de modelagem, diversos
modelos devem ter sido avaliados sob a perspectiva do analista responsável.
Então, o objetivo passa a ser avaliar os modelos com a visão do problema,
certificando-se que não existem falhas ou contradições com relação às regras do
problema.
Divulgação ou Publicação do Modelo: A criação e a validação do
modelo permitem o avanço de mais um passo, no sentido de tornar a informação
gerada acessível. Isto pode ser feito de várias formas, desde a criação de um software
específico para tal, até a publicação de um relatório para uso interno.
As Vantagens do Data Mining
O uso de Data Mining para construção de um modelo
traz as seguintes vantagens:
Modelos são de fácil
compreensão: pessoas sem conhecimento estatístico (por exemplo, analistas
financeiros ou pessoas que trabalham com data base marketing) podem
interpretar o modelo e compará-lo com suas próprias idéias. O usuário ganha
mais conhecimento sobre o comportamento do cliente e pode usar esta informação
para otimizar os processos dos negócios.
Grandes bases de
dados podem ser analisadas: grandes conjunto de dados, de até vários gigabytes
de informação podem ser analisados com Data Mining.
Data Mining descobre
informações não esperadas: como muitos modelos diferentes são validados,
alguns resultados inesperados podem surgir. Em diversos estudos, descobriu-se que combinações de fatores
particulares apresentaram resultados inesperados.
Variáveis não
necessitam de recodificação: Data Mining lida tanto com variáveis
numéricas (quantitativas) quanto categóricas (qualitativas). Estas variáveis
aparecem no modelo exatamente da mesma forma em que aparecem na base de dados.
Modelos são
precisos: os modelos obtidos por Data Mining são validados por
técnicas de estatística. Desta forma, as predições feitas por modelos são
precisas.
Aplicação Prática
Os dados,
utilizados nesta aplicação prática, foram coletados da base de dados de compra de TI de uma determinada empresa.
Gestão de Compras
Sabe-se que o processo
de compra no mercado dos negócios é diferente do processo de compra de um
consumidor comum.
A
estrutura do mercado e demanda: o mercado organizacional é constituído por
um número menor de compradores, porém em mais larga escala do que no mercado
consumidor. É mais concentrado do ponto de vista geográfico. A demanda desse
mercado, em sua grande maioria, denominada derivada, pois geralmente as
empresas demandam bens de consumo ou insumos.
A natureza de compra:
nas compras organizacionais, geralmente, há mais profissionalismo, pois são
executadas por pessoas treinadas na tarefa de comprar.
Dependendo do
grau de complexidade da compra, a operação pode envolver muitas pessoas de
diferentes níveis de responsabilidade;
Tipos de decisões e
o processo de decisão: os compradores organizacionais normalmente se
deparam com situações de compra complexas, que envolvem grandes somas de
dinheiro, detalhes técnicos e econômicos, especificações detalhadas, bem como
necessitam de grande interação entre as pessoas e os níveis hierárquicos.
A Figura abaixo,
representa o fluxo físico do encaminhamento das solicitações das aquisições de
bens, a realização das aquisições e respectivas áreas responsáveis.
A Figura
apresentada em seguida, resume o modelo que foi utilizado desde a fonte dos
dados primários, passando pelas as etapas de preparação e mineração de dados,
até a descoberta de conhecimento como produto final.
A Preparação dos dados
Esta etapa
foi de fundamental importância para que o processo de mineração de dados
pudesse gerar as regras de associação.
Conclusão
A utilização de
técnicas de mineração de dados mostrou-se útil para descoberta de conhecimento
que estava oculto nas bases de dados de compra analisadas.
Quanto ao objetivo
geral deste trabalho, de buscar contribuir com uma solução de otimização de
tarefas capazes de auxiliar a tomada de decisão na gestão de compras em uma
empresa de grande porte, aplicando a técnica de Data Mining, também foi
atingido, apesar da utilização de uma pequena parte da base de dados de compra.
Nenhum comentário:
Postar um comentário