top of page
  • Foto do escritorETL PowerCenter

Conceitos de Data Warehouse, Business Intelligence e ETL.

Data warehouse, ou depósito de dados, é um sistema usado para armazenar em banco de dados, de uma forma consolidada e melhor estruturada, as informações referentes às atividades de uma organização.

O desenho da base de dados visa facilitar a geração de relatório, e fornecimento de material rico em informações estratégicas para apoiar a tomada de decisão.

Com o data warehouse podemos analisar grandes volumes de dados, coletados dos mais diversos sistemas.

Estes dados podem ser divididos no que chamados de séries históricas, para uma melhor análise do comportamento do dado analisado no presente e no passado, visando conseguir um suporte mais preciso para previsões futuras.

Os dados de um data warehouse estão sempre em crescimento para dar um visão real e atual dos rumos do negócio.

O conceito de data warehouse surgiu na década de 80. Com o crescimento e amadurecimento dos sistemas em paralelo com a busca cada vez maior por informações precisas por parte do mundo dos negócios, as necessidades foram convergindo cada vez mais para esse conceito.

Com sistemas adequados e empresas buscando informações inteligentes e melhor trabalhadas, formou-se o cenário ideal para a descoberta e aplicação prática do que era até então um conceito.

A utilização de data warehouse começou nas grandes corporações, visto que, foram elas que viram primeiro a necessidade de conhecer melhor seu mercado, produtos e clientes. Outro fato é que construir um data warehouse, comprar ferramentas e entrar no mercado de Business Intelligence é muito custoso.

Hoje, a capacidade de sumarizar, agrupar e analisar grandes volumes de dados fazem do data warehouse o núcleo dos sistemas de informações gerenciais e apoio à decisão das principais soluções de Business Intelligence do mercado.

Existem duas linhas de definição para a implantação de um Data warehouse

  • Kimball sugere que o DW deve ser construindo a partir de Data Marts para posteriormente formarem um Data Warehouse.

  • Inmon sugere que o DW seja projetado de forma única, modelando-se toda a empresa e chegando-se a um único modelo corporativo, partindo-se posteriormente para os Data Marts.

O modelo dimensional para construção de banco de dados para Data Warehouse pode ser representada como um cubo. Sendo assim podemos fatiar este cubo e aprofundar em cada dimensão ou eixo para extrair mais detalhes sobre os processos internos que ocorrem na empresa, visto que, em um modelo relacional torna-se muito complicado ou impossível realizar isso.


Exemplo:












O importante é saber fazer a pergunta certa na hora de modelar. Não adianta ter uma grande base de dados se não souber o que extrair dela e como extrair.


Modelo Estrela (Star Schema) - Mais utilizado


No modelo estrela todas as tabelas relacionam-se diretamente com a tabela de fatos, sendo assim as tabelas dimensionais não são normalizadas.

Este modelo é chamado de estrela porque a tabela fato fica ao centro, cercada das tabelas dimensionais, assemelhado a uma estrela.


Exemplo:




Todas as tabelas relacionam-se diretamente com a tabela de fatos, sendo assim as tabelas dimensionais devem conter todas as descrições que são necessária para definir uma classe como Produto, Tempo ou Loja nela mesma, ou seja, as tabelas de dimensões não são normalizadas no modelo estrela, então campos como Categoria, Departamento, Marca contém suas descrições repetidas em cada registro, assim aumentando o tamanho das tabelas de dimensão por repetirem estas descrições de forma textual em todos os registros.


Modelo Floco de Neve (Snow Flake)


No modelo Floco de Neve as tabelas dimensionais relacionam-se com a tabela de fatos, mas algumas dimensões relacionam-se apenas entre elas, isto ocorre para fins de normalização das tabelas dimensionais, visando diminuir o espaço ocupado por estas tabelas.

Este modelo chama-se floco de neve, pois cada dimensão se divide em várias outras tabelas, onde organizadas de certa forma lembra um floco de neve.


Exemplo:


No modelo Floco de neve existem tabelas de dimensões auxiliares que normalizam as tabelas de dimensões principais. Na figura anterior temos o exemplo de Categoria, Departamento e Marca que normalizam a Dimensão Produto.

Comparação Entre Modelos


  • Modelo Floco de Neve

- Mais tabelas no modelo

- Modelo mais complexo

- Modelo mais lento

- Reduz o espaço de armazenamento dos dados dimensionais

  • Modelo Estrela

- Mais simples

- Navegação mais fácil

- Acesso rápido

- Ocupa muito espaço

- Repete as mesmas descrições ao longo do modelo


Metadados

Na modelagem de um data warehouse é importante também a criação dos metadados, dados que agregam valor aos dados, e que são utilizados normalmente como um dicionário de informações.

  • Origem Dos Dados

  • Fluxo De Dados

  • Formato Dos Dados

  • Nomes E Alias

  • Definições De Negócio

  • Regras De Transformação

  • Atualização De Dados

  • Requisitos De Teste

  • Indicadores De Qualidade De Dados

  • Responsabilidade Sobre Informações

  • Acesso E Segurança


Extração de Dados

Os dados para serem introduzidos num Data Warehouse normalmente passam antes por uma área temporária, conhecida também como área de stage.

Esse processo geralmente é realizado por ferramentas ETL.

Nesta fase os dados são transformados, combinados e regras de negócios são aplicadas.


O uso de recursos para manipular, formatar e apresentar os dados de modo rápido e flexível é um dos pontos fortes de um data warehouse.

Essa característica faz com que os relatórios e dados apresentados sejam mais completos, inteligentes.


Business Intelligence


O termo Business Intelligence (BI) pode ser traduzido como Inteligência de negócios.


Refere-se ao processo de coleta, organização, análise, monitoração e compartilhamento de informações que oferecem suporte a gestão de negócios.


O BI ou Inteligência Empresarial visa a integração de todos os dados disponíveis para que possam ser analisados e transformados em informação propiciando a descoberta de novos conhecimentos do negócio da empresa.

Com este conhecimento, é possível tomar decisões rápidas e melhores, baseadas no que realmente vem acontecendo na empresa.


Quando é implementado um programa de BI, quais são as questões e suas possíveis decisões relacionadas?


  • Alinhamento de Metas

É o primeiro passo para determinar propostas de curto e médio prazos do programa.


  • Base de Dados

Coleta de informações atuais, pertinentes ao negócios e suas necessidade.

Custos e Riscos

As conseqüências financeiras da nova iniciativa de BI devem ser estimadas.

Clientes e Patrocinadores

Determinar quem serão os beneficiados da iniciativa e quem pagará por ela.

Métricas Relacionadas

Estes requerimentos de informações devem ser operacionalizadas com clareza e definidas por parâmetros métricos.

Mensuração Metodológica

Deve ser estabelecido um método ou procedimento para determinar a melhor ou mais aceitável maneira de medir os requerimentos.

Resultados Relacionados

É preciso um monitor do programa de BI para assegurar que os objetivos estão sendo alcançados. Ajustes no programa podem ser necessários. O programa deve ser testado pela eficácia, rentabilidade e validade.

ETL


Extract Transform Load - Extração, Transformação e Carga


É o processo de extrair dados de um sistema, transformá-los de alguma forma e inseri-los em outro banco de dados. A transformação pode ser uma limpeza dos dados, alteração de acordo com regras de negócios, um filtro.

Processos de ETL estão tradicionalmente associados à projetos de Data warehouses, mas também são muito usados em diversos processos para alimentar sistemas específicos, que nada tenham a ver com Data warehouse.

Um sistema ETL é um software que implementa o processo ETL e tem que ser capaz de se comunicar com as bases de dados e ler diversos formatos de arquivos utilizados por toda a organização.

Esta é uma das etapas mais críticas de um Data Warehouse, pois envolve movimentação dos dados.

Esta movimentação pode ser trabalhosa, complexa e muito detalhada. Nessa fase usamos ferramentas que nos auxiliam na execução desse trabalho.

O primeiro passo a ser tomado no processo de ETL é simplesmente a definição das fontes de dados e fazer a extração deles.

As origens podem ser as mais variadas, desde os sistemas transacionais das empresas até planilhas, flat files (arquivos textos) ou dados que vem do grande porte e também arquivos do tipo DBF.

Definidas as fontes, partimos para o segundo passo que consiste em transformar e limpar esses dados.











Essas ferramentas exigem um alto investimento, tanto em capacitação, quanto na própria aquisição.

Em alguns casos é interessante o auxílio de profissionais externos para a escolha, manuseio, construção de processos e suporte.

O fato verdadeiro é que os benefícios serão bastante vistosos e a produtividade aumentará consideravelmente.


Integração – ETL – DW – BI - Mundo


Integração – ETL – BI - Mundo



 

Se você gostou, inscreva se, mande sua opinião!

ETL PowerCenter - by Diogo Vidal

bottom of page