Jogando os dados.... ou melhor, preparando!

Os dados de uma organização podem estar armazenados das mais diferentes formas imagináveis. Podem estar em um banco de dados, planilhas eletrônicas, arquivos de texto e até documentos físicos... Então como podemos comparar bananas com laranjas? De fato, se fizermos isso diretamente iremos gerar informações incorretas ou imprecisas.

Então, o que fazer? Talvez transformar tudo em maçãs... eu sei, está ficando um pouco confuso, mas é isso que faz o ETL (do inglês Extract, Transform, Load), assunto já abordado em outro post aqui no blog. Agora, vamos ver uma ferramenta para integração de dados: Pentaho Data Integration (PDI).

Fonte: www.infoq.com/br/articles/pentaho-pdi
O Pentaho DI, anteriormente chamado de Kettle, é um dos software do pacote Pentaho Open Source Business Intelligence. A plataforma Pentaho inclui diversas ferramentas para suporte à tomada de decisão: data warehouse, mineração, integração e análise de dados, além de ferramentas para gerência.

O Pentaho DI é específico para o processo de ETL, permitindo a extração dos dados de diversas fontes de origem, transformação (limpeza e preparação) dos dados e gravação em data warehouse, até entrega à outros sistemas ou mesmo à outros componentes da plataforma Pentaho.

Instalando o Pentaho DI...

A ferramenta está disponível nas versões Enterprise e Community, que está em sua versão 8.2 e pode ser obtida aqui. As funcionalidades disponíveis na versão Community são suficientemente satisfatórias para implementações bastante eficientes, além de contar com inúmeros plugins que agregam novas funcionalidades.

O único pré-requisito para utilização do Pentaho DI é ter uma máquina virtual Java instalada. No mais, é tudo muito simples. Você pode fazer o download da versão mais recente no Source Forge, em seguida descompacte todos os arquivos para uma pasta da sua escolha. Pronto! Basta localizar e executar o arquivo spoon.sh diretamente ou através do prompt de comando, digitando ./spoon.sh.

Conhecendo o Pentaho DI...

Podemos dividir o Pentaho DI em 05 (cinco) partes:
  • Step: é a transformação que opera sobre os dados. Podendo ser:
    • Leitura de dados de diversos tipos de fontes;
    • Seleção de campos específicos;
    • Concatenação de campos distintos;
    • Divisão de campos gerando dois ou mais novos campos;
    • Merge de dados;
    • Aplicação de expressões regulares.
  • Job: é uma sequência de operações. Permite combinar step em uma fluxo específico, automatizando uma dada tarefa.
  • Spoon: é a interface gráfica que apoia o usuário na definição do fluxo de ETL. Através do spoon é que os step são modelados e os job projetados.
  • Pan: é o programa que executa steps modelados no spoon.
  • Kitchen: é o programa que executa job projetados no spoon.

Fonte: www.infoq.com/br/articles/pentaho-pdi



Com essa pequena introdução, recomendamos que vocês aprofundem o conhecimento através da wiki da Pentaho, onde vocês podem encontrar uma documentação vasta sobre essa poderosa ferramenta.



May the Force be with you” (Obi Wan Kenobi)


Fontes

https://www.alooma.com/answers/what-is-pentaho-data-integration
https://sourceforge.net/projects/pentaho/
https://www.infoq.com/br/articles/pentaho-pdi
https://wiki.pentaho.com

Comentários

Postagens mais visitadas deste blog

Ferramentas de Dashboard

KPI... KP o quê?

Conhecendo os Dashboards