DATAWAREHOUSE
Diariamente, milhares de empresas trabalham na busca de sua evolução, materializada pelos esforços de seus dirigentes. Como multiplicar os clientes? Como garantir sua fidelidade? Como reduzir os estoques sem prejudicar a venda? Como garantir melhores margens? Estas perguntas e outras perguntas, que estão na mente dos executivos de todo o mundo, ficam ainda mais complexas, uma vez que para respondê-las é necessária uma compreensão de um ambiente externo em constante mutação. A velocidade destas mudanças superam a velocidade da compreensão destas mudanças pelos seus executivos e alimentar a estratégia corporativa, que dirige as ações da empresa, com o desempenho e percepções diários dos seus executivos pode ser uma tarefa impossível, ocasionando um distanciamento entre a estratégia e a operação. Na busca de resolver esta equação complexa, mais e mais ferramentas são colocadas a disposição das organizações, servindo de instrumento para sua evolução neste cenário. Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva através da capacidade de analisar, planejar e reagir, rápida e imediatamente, às mudanças ou forças externas que influenciam nas condições de seus negócios. Com esta importante tarefa nas mãos, profissionais tomadores de decisão tais como executivos, gerentes e analistas exigem dos sistemas de suporte à decisão os mais variados recursos para análise. O ambiente de dados para suporte aos processos de gerência e tomada de decisão é diferente do ambiente convencional de processamento de transações. No centro deste ambiente está o Datawarehouse, que integra e consolida, através de um conjunto de ferramentas, dados disponíveis em diferentes bancos de dados para fins de exploração e análise, ampliando o conteúdo informacional destes bancos de dados para atender às expectativas e necessidades do nível estratégico da organização. O papel do Datawarehouse consiste na integração do grande volume de dados internos e externos de uma organização em uma estrutura única permitindo uma melhor utilização destes dados pelos analistas, gerentes e executivos. Uma vez obtida a integração, sistemas como OLAP (On-Line Analytical Processing) e o Data Mining fornecem mecanismos sofisticados para análise destes dados. O estudo e conhececimento da tecnologia de Datawarehouse ajudar os empresários a descobrirem novas formas de competir em uma economia globalizada, trazendo melhores produtos ou serviços para o mercado, mais rápido do que os concorrentes, sem aumentar o custo do produto ou do serviço. Não há metodologias formais para implementação de um Datawarehouse, ela deve ser adaptada às características e às expectativas de cada empresa, mas o principal objetivo em todas elas é o de descobrir maneiras diferentes de atuar no mercado e quais as mudanças internas que devem ocorrer para atender as novas realidades. Neste trabalho faremos um breve estudo dos principais conceitos, características e manipulação de dados relacionados à tecnologia de um Datawarehouse enfatizando sua importância dentro das organizações bem como seu relacionamento com os demais Sistemas de Informação.
1.1 Conceituando Datawarehouse Para W.H.Inmon: " Um Datawarehouse é uma coleção de dados orientada por assuntos, integrada, variante no tempo, e não volátil, que tem por objetivo dar suporte aos processos de tomada de decisão." Para Richard Hackathorn: (outro pioneiro no tema), "O objetivo de um datawarehouse é fornecer uma imagem única da realidade do negócio". O Datawarehouse ou armazém de dados contém informações obtidas de vários sistemas de informática operacionais da empresa. Os dados são purificados por eliminação de desvios ou erros, transformados, integrados e carregados em bases de dados organizadas por assunto. Este Datawarehouse pode conter dados detalhados ou sumários históricos, abrangendo desde algumas semanas até alguns anos. Assim, um Datawarehouse pode ser definido como uma coleção de dados organizados por assunto, integrados, variantes no tempo e não voláteis, que suportam o processo decisório da gerência da empresa. Um Datawarehouse utiliza várias ferramentas que auxiliam na análise de dados típicas do suporte À decisão. Enter as várias ferramentas por ele utilizadas daremos destaque a quatro delas, explicadas a seguir. 1.2 Conceituando OLAP (On-Line Analytical Processing) O termo OLAP referse ao tipo de porcessamento e de ferramentas voltadas para a análise de dados típicas do suporte à decisão, onde os dados são apresentados através de uma visão multi-dimensional. Esta visão é independente de como os dados estão armazenados. Representa os dados como dimensões, ao invés de tabelas. Combinando-se estas dimensões, o usuário tem uma visão da empresa, podendo efetuar ações comuns, ou mudança das dimensões a serem visualizadas, permitindo também a navegação entre os níveis de detalhamento. A análise multi-dimensional implica certas operações típicas, tais como: dez maiores/menores, comparações entre períodos, percentual de diferença, médias, somas ou contagens acumulativas, além de diversas funções estatísticas e financeiras. O resultado deste tipo de análise é, através do comportamento de determinadas variáveis no tempo, descobrir tendências, e com isso transformar os dados transacionais em informação estratégica. Aqui devemos dar ênfase à análise multidimensional, que possibilita comparações de períodos, porcentagens de diferença, médias, somas, além de diversas funções estatísticas e financeiras, possibilitando usar as variáveis para descobrir tendências e transformar os dados transacionais em informações estratégicas. 1.3 Conceituando OLTP (On-Line Transactional Processing) Consiste na descrição original de todas as atividades e sistemas associados à inserção de dados de forma confiável em um banco de dados. Embora utilizado freqüentemente com referência a banco de dados, OLTP pode ser usado genericamente para descrever um ambiente de processamento de transações. A finalidade do processamento de transações é processar grandes quantidades de transações minúsculas e atômicas, sem perder nenhuma delas. A essência de uma transação é que tanto o remetente quanto o destinatário, estejam de acordo se esta foi concretizada sem ter a confirmação que ou outro lado esteja on-line durante a transação. O sistema OLTP processa milhares ou mesmo milhões de transações por dia, cada transação contém uma pequena porção de dados. Um Datawarehouse frequentemente processará apenas uma transação por dia, mas essa transação contém milhares ou mesmo milhões de registros. Os sistemas OLTP lidam com um registro por vez. Os dados que acessam um banco de dados quase sempre são pesquisas de registros únicos que lhes permitem continuar a entrada de dados que estavam realizando. Usuários OLTP executam as mesmas tarefas inúmeras vezes. O desempenho é o rei absoluto de um sistema OLTP. Não se permite que qualquer atividade "opcional" cause lentidão no sistema. Não é permitido uma pesquisa para resultar 100 mil registros. A maioria dos relatórios são feitos em tabelas inteiras. Aqui devemos frisar que empresas como grupo Pão de Açucar podem estar interligadas e enviando dados de todas as lojas para um único local, sendo eles saídas, entradas, estoques, pedidos etc. 1.4 Conceituando Data Marts Data Marts são tipos especiais de Datawarehouse, contendo dados específicos para uma área ou departamento da empresa. É um subconjunto dos dados empresariais que contém dados úteis apenas para uma unidade de negócio específica ou departamento. Os dados podem ser obtidos diretamente dos sistemas informatizados operacionais ou do Datawarehouse da empresa, e as análises também são orientadas para áreas de interesse apenas daquela unidade ou departamento. Os Data Marts são muito bem aceitos no campo empresarial, pois por suas características exigem menos investimento de infra-estrutura, produzem resultados mais rapidamente e são escaláveis até um Datawarehouse. Exemplo: a área de marketing pode ter um Data Mart específico, voltado apenas para as estratégias de marketing. 1.5 Conceituando Metadados O prefixo "Meta" vem do grego e significa "além de". Assim Metadados são informações que acrescem aos dados e que têm como objetivo informar-nos sobre eles para tornar mais fácil a sua organização. Metadados são "dados sobre dados", ou dados de mais alto nível que descrevem um dado inferior. Sem Metadados os dados não têm significado. São exemplos de Metadados as descrições e registros em um programa do aplicação ou esquema de um banco de dados descrito em seu catálago ou ainda as informações contidas em um dicionário de dados. Os metadados podem ser estruturados ou não estruturados. Exemplo de não estruturados: o índice produzido por um sistema de indexação e pesquisa em texto integral. Estruturados são por exemplo um sistema de classificação de arquivo ou o dicionário de dados. Uma grande livraria pode usar os metadados para elaborar relatorios precisos de localização e identificação , não só por autores como também por revisões, locais de armazenagem etc. 1.6 Conceituando Datamining Consiste em modelos de previsão, dados estatísticos, indices e relações obscuras entre os dados.
2.1 Orientada por Temas O Datwarehouse armazena informações sobre temas específicos importantes para o negócio da empresa. Exemplos: produtos, atividades, contas, clientes, etc. Em contrapartida, o ambiente operacional é organizado por aplicações funcionais. Por exemplo: em uma organização bancária, estas aplicações incluem empréstimos, investimentos e seguros. A implementação de um tema pode corresponder a um conjunto de tabelas relacionadas. Por exemplo: considerando informações sobre vendas de funcionários, podem existir tabelas contendo informações básicas dos funcionários como: nome, endereço, sexo, data de inicio etc assim como para o mesmo tipo de informação, diferentes níveis de detalhamento e sumarização. Todas as tabelas anteriormente citadas contém um identificador comum, o código do funcionário, além de um elemento temporal como parte chave de cada tabela. 2.2 Integrado Refere-se a consistência de nomes, das unidades variáveis, etc.; no sentido de que os dados foram transformados até um estado uniforme. Poe exemplo: considere-se sexo como um elemento de dado. Uma aplicação pode codificar sexo como M/F, outra como 1/0 e uma terceira como H/M. Conforme os dados são trazidos para o Datawarehouse, eles são convertidos para um estado uniforme, ou seja, sexo é codificado de apenas uma forma. Da mesma forma que se um elemento é medido em centímetros em uma aplicação, em polegadas em outra ele será convertido para um representação única ao ser colocado no Datawarehouse. 2.3 Variante no Tempo Qualquer dado em um datawarehouse refere-se a algum momento específico, siginificando que ele não é atualizável, enquanto que o dado de produção é atualizado de acordo com mudanças de estado do objeto em questão, refletindo o estado do objeto no momento do acesso. Em um datawarehouse a cada ocorrência de uma mudança, uma nova entrada é criada, para marcar a mudança, pois ele permite atualizações deste dados. 2.4 Não Volátil Significa que o datawarehouse permite apenas a carga inicial dos dados e consultas a estes dados. Após serem integrados e transformados, os dados são carregados em bloco para o datawarehouse, para que estejam disponíveis aos usuários para acesso. No ambiente operacional, ao contrário, os dados são, em geral, atualizados registro a registro, em múltiplas transações. Esta volatilidade requer um trabalho considerável para assegurar integridade e consistência através de atividades de rollback, recuperação de falhas, commits e bloqueios. Um data warehouse não requer este grau de controle típico dos sistemas orientados a transações.
O estudo de uma arquitetura descrevendo o ambiente de datawarehouse permite compreender melhor a estrutura geral de armazenamento, integração, comunicação, processamento e apresentação dos dados que servirão para subsidiar o processo de tomada de decisão nas empresas.
4.1 Localização Os dados podem estar fisicamente armazenados de três formas: Num único local centralizando o banco de dados em um Datawarehouse integrado, procurando maximizar o poder de processamento e agilizando a busca dos dados. Esse tipo de armazenagem é bastante utilizada, porém há o inconveniente do investimento em hardware para comportar a base de dados muito volumosa, e o poderio de processamento elevado para atender satisfatoriamente as consultas simultâneas de muitos usuários. Os distribuídos são Data Marts, armazenados por áreas de interesse. Por exemplo, os dados da gerência financeira num servidor, dados de marketing noutro e dados da contabilidade num terceiro lugar. Essa pode ser uma saída interessante para quem precisa de bastante performance, pois isso não sobrecarrega um único servidor, e as consultas serão sempre atendidas em tempo satisfatório. Armazenados por níveis de detalhes, em que as unidades de dados são mantidas no Datawarehouse. Pode-se armazenar dados altamente resumidos num servidor, dados resumidos noutro nível de detalhe intermediário no segundo servidor e os dados mais detalhados (atômicos), num terceiro servidor. Os servidores da primeira camada podem ser otimizados para suportar um grande número de acessos e um baixo volume de dados, enquanto alguns servidores nas outras camadas podem ser adequados para processar grandes volumes de dados, mas baixo número de acesso. Para mudar de nível é necessário que ocorra um dos seguintes eventos: os dados são sintetizados, arquivados ou eliminados. O processo de sintetização interage no nível mais alto de detalhamento (dados detalhados atuais) para os níveis seguintes (levemente e altamente resumidos). Quando termina determinado período de tempo (semana, mês, trimestre, ano), os dados são indexados por estes períodos e armazenados nos seus respectivos níveis de detalhamento. Para facilitar o acesso aos dados, estes devem estar sintetizados e indexados de várias maneiras. Portanto, ao mesmo tempo que ocorre o agrupamento por datas, também pode ocorrer a sintetização por grupos e subgrupos. Cada nível possui um horizonte de tempo definido para a permanência dos dados. Então o fato de os dados serem transportados para níveis mais elevados não implica na exclusão do nível anterior. Um processo denominado processo de envelhecimento ocorre quando este limite é ultrapassado, e portanto os dados podem ser transferidos para meios de armazenamentos alternativos ou passar de dados detalhados atuais para dados detalhados antigos. 4.2 Credibilidade dos Dados A credibilidade dos dados é o muito importante para o sucesso de qualquer projeto. Discrepâncias simples de todo tipo podem causar sérios problemas quando se quer extrair dados para suportar decisões estratégicas para o negócio das empresas. Dados não dignos de confiança podem resultar em relatório inúteis, que não têm importância alguma. Coisas aparentemente simples, como um CEP errado, podem não ter nenhum impacto em uma transação de compra e venda, mas podem influir nas informações referentes a cobertura geográfica, por exemplo. Não é apenas a escolha da ferramenta certa que influi na qualidade dos dados, mas sim conjuntos de coleções de dados, processos de entrada, metadados e informações sobre a origem dos dados, que são importantíssimos.
As aplicações típicas do Datawarehouse em uma empresa podem ser classificadas em dois grandes conjuntos:
Uma arquitetura de dados adequada para dar suporte a estes dois tipos de aplicações deve estar baseada, analogamente em dois ambientes de bancos de dados: os bancos de dados operacionais - para dar suporte às aplicações do negócio; e os bancos de dados para suporte à decisão - para dar suporte às aplicações sobre o negócio. 5.1 A Diferença Entre Dados Operacionais e Informacionais Os Sistemas de Suporte à Decisão (SSD) e Sistemas de Informações Executivas (SIE) possuem funcionalidade e desempenho diferentes dos sistemas de produção da empresa. Estes sistemas recuperam e atualizam um registro por vez, usualmente atendendo a muitos usuários de forma concorrente, exigindo também um tempo de resposta imediato; aqueles normalmente lidam com poucos usuários por vez e os requisitos em termos de tempo de resposta podem não ser críticos. No entanto, usualmente lidam com consultas complexas, não antecipadas ou previstas, envolvendo grande quantidade de registros básicos referentes aos processos operacionais da empresa.
aplicativos SSD e SIE necessitam dados consistentes, normalmente originários de mais de um sistema de produção, organizados de forma que favoreçam serem trabalhados por ferramentas de análise de dados; · Bancos de dados que oferecem recursos para suporte à SSD e SIE devem ser capazes de oferecer um bom tempo de resposta para consultas que recuperam grandes conjuntos de dados agregados e históricos; · SSD e SIE usualmente lidam com tendências, e não com um único instante de tempo: cada elemento de dado é acompanhado do correspondente período de tempo a que se refere. A importância em separar dados que dão suporte aos sistemas de caráter operacional da empresa, daqueles que dão suporte aos processos gerenciais e de suporte à decisão é que cada tipo de aplicação pode se concentrar naquilo que faz melhor, oferecendo melhor funcionalidade e desempenho para seu caso específico. 5.2 A Importância dos Sistemas de Datawarehouse Os Sistemas de Datawarehouse revitalizam os sistemas da empresa, pois:
5.3 Questões Críticas em DataWarehouse Algumas questões representam verdadeiros desafios na implantação de um Data Warehouse:
6.1 BCP De olho na clientela qualificada, BCP investe em sistemas de Datawarehouse e Datamining e consegue um aumento de receita de 6%. É mais barato manter um bom cliente do que ganhar um novo. Com este mantra do CRM na cabeça, a BCP decidiu investir no marketing um-a-um. O trabalho iniciado há dois anos começa a render bons frutos, como mostrou Alessandro Andrade, gerente de Data Base Marketing para uma platéria de profissionais do mundo inteiro, durante o Teradata Partners, evento realizado em Las Vegas, no início do mês. "Passado o período em que a empresa estava interessada em ganhar massa crítica, passamos a focar mais na aquisição qualificada", afirmou Andrade. Duas premissas nortearam o trabalho do setor gerenciado pelo executivo: atuar em todas as fases do chamado ciclo de vida do relacionamento entre cliente e operadora e mensurar diariamente o resultado das ações. A operadora usa sistemas como o datawarehouse da Teradata e datamining, da SAS, SPSS e Clementine, para armazenar e analisar os dados dos cerca de 2,7 milhões da carteira de clientes que possui em São Paulo e Nordeste. Desde o momento que o consumidor compra o aparelho e ativa a linha, a área de database marketing começa a analisar o seu comportamento e a enviar material promocional. "Começamos com uma ligação de boas-vindas e depois enviamos cartões de visita com o número do celular para que o cliente distribua aos amigos", conta Andrade. Ao longo do ano, a empresa coloca cerca de 400 campanhas no ar, que no momento estão em diferentes estágios. Já foram enviadas malas-diretas para incentivar a troca de aparelhos, com um bônus oferecido pela BCP, e para a adequação do melhor plano de tarifas para o perfil do cliente. "Para verificar a eficácia do nosso trabalho, separamos um grupo de 10 mil usuários aleatórios e não incluímos na campanha para comparar o resultado", disse o executivo. O retorno tem sido acima do esperado. "A média de todas as ações combinadas resultou num aumento de 6% da receita", comemora ele. Em setores mais maduros, como o financeiro, o retorno médio é de 1,5%. "O marketing direto funciona na base do teste. Todos os dias a gente checa como andam as campanhas e fazemos ajustes. O que funciona, repetimos. E o que não funciona, tentamos melhorar", comenta Andrade. O sistema serve ainda para combater o churn (quando o cliente troca de operadora), pois os analistas avaliam os dados de reclamações e de quem desistiu do serviço e conseguem se antecipar à saída do cliente.
A tecnologia de Datawarehouse mostra-se muito interessante para empresas que possuem grandes volumes de dados gerados e acumulados durante sua existência e necessitam recuperar estes dados de uma forma que eles possam auxiliar os administradores destas empresas a tomarem decisões estratégicas rapidamente e com segurança. Como pudemos concluir, as organizações precisam adotar formas de gestão eficientes para manter-se competitivas e sobreviver no ambiente onde estão inseridas. O Data Warehouse é um instrumento da tecnologia que oferece recursos para suprir as informações gerenciais necessárias para estabelecer tal controle. Propicia aos executivos localizados no topo da estrutura organizacional da empresa, através de cenários, estimativas e informações corretas o caminho correto à tomada de decisão, minimizando desta forma os erros pertinentes a decisões tomadas apenas no âmbito pessoal. Além disso, os sistemas de Datawarehouse revitalizam os sistemas da empresa, pois: permitem que sistemas mais antigos continuem em operação, consolidando os dados inconsistentes dos sistemas mais antigos em conjuntos coerentes.
Sites: www.datawarehouse.com.br www.datawarehouse.inf.br artigo: "Uma breve história do Data Mining" www.decisionwarehouse.com.br artigo "Transformando informação em conhecimento e resultados" LAUDON, Kenneth C, Essentials of management information systems, 2001 INMON, W.H., Hackathorn, R.D., Using the DataWarehouse, 1994.
|