“Atualmente, tomar decisão com base em dados não é mais o sonho de profissionais e empresas e, sim, padrão de qualquer negócio”. Se esta frase de abertura do nosso post causou alguma estranheza é porque você já tem algum chão no mercado e sabe que as coisas não são bem assim (mesmo que devessem ser assim). A verdade é que muitas empresas ainda fazem adivinhações com base em dados ao invés de decisões. Os motivos para isto são muitos, mas por enquanto vamos focar em um básico: a modelagem dos dados.
Modelagem dimensional e Data Warehouse
Os dados são a base para você alimentar seu Data Warehouse (DW) que é de onde áreas da sua empresa vão consumi-los. Carregá-los de forma desestruturada, ou em uma modelagem não adequada, faz com que sua empresa tenha maior custo de armazenamento, processamento e baixa performance no consumo das informações para tomada de decisão. A modelagem dimensional é uma das técnicas mais conhecidas para modelar seu DW e suas metodologias mais famosas são SnowFlake e Star Schema, esta última proposta por Ralph Kimball e amplamente utilizada até hoje. Neste post, vamos focar na metodologia de Kimball e o processo básico para modelagem de dados usando Star Schema com as informações do Kimball Group.
Passos para o processo de modelagem dimensional
Os modelos dimensionais devem ser projetados em colaboração com especialistas no assunto e representantes de governança de dados da empresa. Os modelos dimensionais não devem ser projetados isoladamente por pessoas que não entendem totalmente o negócio e suas necessidades; a colaboração é crítica!
Por que Star Schema?
O modelo proposto por Ralph Kimball prevê que a estrutura dos dados deve seguir uma tabela de FATOS rodeada por suas DIMENSÕES, dando o aspecto de uma estrela.
Para melhor explicar o que é FATO, DIMENSÃO e GRANULARIDADE, vamos ver cada dos 4 passos para a modelagem da metodologia Star Schema.
1 – Escolha os processos de negócio
Os processos de negócios são as atividades operacionais executadas por sua organização, como fazer um pedido, processar uma reclamação ou registrar alunos em uma aula. Os eventos de processos de negócios geram ou capturam métricas de desempenho que se traduzem em fatos em uma tabela de fatos. A maioria das tabelas de fatos concentra-se nos resultados de um único processo de negócio. A escolha do processo é importante porque define um objetivo específico do projeto e permite que o grão, as dimensões e os fatos sejam declarados. Em resumo, defina se você vai acompanhar as vendas, matrículas, cadastros ou qualquer métrica de desempenho que será traduzida em fato.
2 – Declare a granularidade (ou o grão)
Declarar o grão é a etapa fundamental em um projeto dimensional. O grão estabelece exatamente o que uma única linha da tabela de fatos representa. O grão deve ser declarado antes de escolher dimensões ou fatos porque cada dimensão ou fato candidato deve ser consistente com o grão. Essa consistência impõe uniformidade em todos os projetos dimensionais que são essenciais para o desempenho e facilidade de uso do aplicativo de BI. O grão atômico refere-se ao nível mais baixo no qual os dados são capturados por um determinado processo de negócios. Cada grão da tabela de fatos proposta resulta em uma tabela física separada; grãos diferentes não devem ser misturados na mesma tabela de fatos.
3 – Identifique as dimensões
As dimensões fornecem o contexto “quem, o quê, onde, quando, por que e como” em torno de um evento de processo de negócios. As tabelas de dimensão contêm os atributos descritivos usados pelos aplicativos de BI para filtrar e agrupar os fatos. Com o grão de uma tabela de fatos em mente, todas as dimensões possíveis podem ser identificadas. Sempre que possível, uma dimensão deve ter um valor único quando associada a uma determinada linha de fato. As tabelas de dimensão às vezes são chamadas de “alma” do data warehouse porque contêm os pontos de entrada e rótulos descritivos que permitem que o sistema DW / BI seja aproveitado para análise de negócios.
4 – Identifique os fatos
Fatos são as medidas que resultam de um evento de processo de negócios e quase sempre são numéricos. Uma única linha da tabela de fatos tem um relacionamento de um para um com um evento de medição, conforme descrito pela granulação da tabela de fatos. Assim, uma tabela de fatos corresponde a um evento físico observável, e não às demandas de um relatório específico. Em uma tabela de fatos, apenas fatos consistentes com o grão declarado são permitidos. Por exemplo, em uma transação de vendas no varejo, a quantidade de um produto vendido e seu preço estendido são bons fatos, enquanto o salário do gerente da loja não é permitido. Em resumo, o FATO é o ocorrido (como o número de vendas de um produto) ligado às suas dimensões que permitem uma análise mais detalhada.
A visualização de dados
A modelagem na metodologia Star Schema também é muito importante para ferramentas de Data Visualization como Power BI e Tableau, pois as tabelas de dimensões geralmente são compatíveis com filtros e agrupamentos, enquanto a tabela de fatos é compatível com resumo.
Por fim, falamos do superficial da modelagem dimensional e da sua metodologia mais famosa, mas vamos explorar mais estes assuntos aqui no blog e em nossas redes. Nos acompanhe.
Tags:
Tecnologia e BIMarço 4, 2021