Pentaho Data Integration (Spoon): Um guia para novatos

Este artigo destina-se a novos usuários do Pentaho Data Integration e queiram saber como instalar as ferramentas e começar, eu conheci o Pentaho a partir da procura de ferramentas capaz de substituir a suíte de BI da Microsoft, então eu também apontarei questões que seriam novas para pessoas com um  background Microsoft.

Quando falamos sobre Pentaho neste artigo, nos referimos especificamente à ferramenta de integração de dados Pentaho (PDI) e ao IDE chamado Spoon.

Este artigo baseia-se na instalação do PDI em um PC.

 

Community Edition

Embora você possa comprar o produto Pentaho Data Integration, você também pode obter a ferramenta de integração de dados gratuitamente em sua edição da comunidade; que é uma maneira fantástica de começar com os produtos Pentaho.

Para começar com um download da visita do produto https://sourceforge.net/projects/pentaho/ ou http://community.pentaho.com/

Mas antes de entrar, vamos entender alguns detalhes sobre a instalação e configuração do produto.

 

Java Runtime Environment JRE™

O produto depende do JRE e a versão do JRE na sua máquina deve corresponder à versão do JRE necessária para a versão do Pentaho.

Um exemplo do link a ser usado para fazer o download do JRE para sua máquina é mostrado abaixo: –

http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html

O Pentaho não inclui todos os drivers que você precisa para se conectar a diferentes bancos de dados, mas aqueles que você precisa podem ser baixados gratuitamente. No entanto, esses drivers também são específicos da versão JRE.

Então, você precisa de três coisas que combinam com a mesma versão do JRE

JRE
Produto de integração de dados Pentaho
Drivers de banco de dados para o seu banco de dados

Neste artigo, temos o seguinte instalado: –

Pentaho Data Integration Versão 7 ou 8
JRE Versão 1.8, Java 8

 

Ligação a um banco de dados

Depois de instalar o produto, você deseja vincular a um banco de dados, e para fazer isso, você precisa do driver correto.  Isso envolve o download de um arquivo e a colocação do arquivo ou os componentes extraídos no diretório correto. Consideraremos o PostgreSQL e o SQL Server como bons exemplos.

 

PostgreSQL

Você pode baixar o banco de dados de código aberto e as ferramentas de administração do PostgreSQL gratuitamente em https://www.postgresql.org/, estamos executando a versão 9.6.

Depois de instalar o PostgreSQL, você precisa obter os drivers do JDBC para se conectar do Pentaho.

Se você procurar a documentação do Pentaho na instalação de drivers JDBC, você encontrará o seguinte link útil: – https://help.pentaho.com/Documentation/5.4/0D0/160/030

Este link informa onde instalar seus drivers nos diretórios de instalação dos produtos Pentaho, exigimos a seguinte informação:

Produto: Pentaho Data Integration (Spoon)
Caminho: pentaho/design-tools/data-integration/lib
Em nossa máquina, a pasta é D:\ pdi-ce-7.0.0.0-25\data-integration\lib

Em seguida, você precisa obter os drivers do JDBC para o PostgreSQL: –

https://jdbc.postgresql.org/download.html

A versão que eu instalei foi postgresql-9.4.1212

Figura 1: drivers JDBC PostgreSQL extraídos

Depois de baixar e extrair os dados, você precisa copiar o arquivo Jar para o diretório lib do Pentaho: –

Figura 2: driver JDBC copiado para a pasta pentaho lib

Em seguida, no PostgreSQL, você precisa de um banco de dados e um login adequado: –

Figura 3: um banco de dados PostgreSQL e uma conta de login apropriada

 

Depois de iniciar o Pentaho, crie uma nova transformação: –

Figura 4: Criando uma transformação simples

O Pentaho permite que você tenha JOBs para operações de sequenciamento e transformações para a transformação de dados, para testar nossa conexão de banco de dados, podemos criar uma transformação simples.

Adicione table input à sua transformação: –

Figura 5: Um passo de entrada da tabela adicionado à transformação

 

Um Table input, permite que você insira dados de uma tabela.

Clique duas vezes na entrada da tabela: –

Figura 6: Usando o Assistente para se conectar ao banco de dados

 

Em seguida, clique no Assistente e insira um nome para sua conexão e selecione PostgreSQL e JDBC: –

Figura 7: Escolhendo o tipo de banco de dados e driver

 

Digite localhost e o nome do banco de dados.

Figura 8: Especificando o servidor host eo nome do banco de dados

Em seguida, digite sua autenticação e teste a conexão: –

Figura 9: Autenticando e testando a conexão

 

Ao retornar à entrada da tabela, você poderá inserir o SQL para exibir os dados, depois clicar no botão de visualização para ver os dados.

Figura 10: Conexão e pré-visualização de dados de amostra

Este foi um exemplo de nível “Hello World” usando o Pentaho, com o objetivo de estabelecer e testar uma conexão de banco de dados PostgreSQL.

 

SQL Server

Tendo estabelecido uma conexão com o PostgreSQL, neste exemplo, observamos um exemplo equivalente usando o SQL Server. Se você não possui o SQL Server, então, você pode baixar uma cópia GRATUITA do SQL Server Express para começar.

Usei o seguinte link para baixar o driver JDBC: – https://www.microsoft.com/en-gb/download/details.aspx?id=11774

Procure o drive JDBC que suporta o JRE 8: –

Figura 11: Verificando a versão do JRE suportada

O execute o exe baixado e extrai o conjunto de arquivos: –

Figura 12: arquivos JDBC extraídos

De forma semelhante ao PostgreSQL, precisamos copiar o arquivo jar para o diretório lib do PDI: –

Figura 13: Copiando o arquivo extraído para o diretório lib

O SQL Server oferece suporte à autenticação do Windows, além da segurança de login do SQL Server, dependendo se você possui versões de 32 ou 64 bits, você pode encontrar o arquivo de autenticação na seguinte pasta de extração: –

Figura 14: Localizando o arquivo de autenticação correto

Tome cuidado para copiar o arquivo correto x86 ou X64, se você copiar a versão errada para sua máquina, você receberá os seguintes erros usar o pentaho: –

Esse driver não está configurado para autenticação integrada.

C: \Arquivos de programas\Java\jre1.8.0_111\bin\sqljdbc_auth.dll: Não é possível carregar IA.dll de 32 bits em uma plataforma AMD de 64 bits

Este arquivo precisa ser copiado para a pasta bin para a instalação java, aqui temos uma instalação de 64 bits (ou x86 para uma instalação de 32 bits).

C: \Arquivos de programas\Java\jre1.8.0_111\ bin

Figura 15: SQL Server SSMS mostrando o nome da instância do SQL Server

Certifique-se de fechar e, em seguida, reabriu o PDI se você terminou de instalar novos drivers JDBC.

Como no exemplo anterior, crie uma nova transformação e adicione uma Entrada de Tabela, conforme mostrado nas figuras anteriores 4 a 6. Clique no novo botão para criar uma conexão.

O SQL Server é um pouco mais complicado para trabalhar. Primeiro você deseja selecionar a opção nativa para o nosso driver jdbc. Então você quer usar a autenticação do SQL Server, portanto, o SQL Server precisa estar executando o suporte à autenticação do Windows e à autenticação do SQL Server.

Figura 16: Propriedades do servidor SSMS permitindo autenticação do SQL Server

Testar o SQL Server usando um login do SQL Server é sempre a opção mais simples para começar a funcionar, mesmo se você pretende usar a autenticação do Windows.

Figura 17: Selecionando novo para criar uma nova conexão com o SQL Server

Na Figura 17, escolhemos a opção (nativa) e o login do SQL Server. Na Figura 18, você pode ver a opção para usar a Autenticação do Windows.

Figura 18: Escolhendo usar a Autenticação do Windows.

Se você é novo no uso do Pentaho, espero que este artigo seja de alguma ajuda para começar.

 

Um guia para novatos parte 2

Fonte: Pentaho

6 thoughts on “Pentaho Data Integration (Spoon): Um guia para novatos

  1. Boa tarde,
    Estou com o seguinte problema :
    Configurei o PDI para acessar um servidor FTP e baixar um arquivo em csv, até aí está tudo bem, o problema é que dentro da pasta no servidor FTP haverá sempre mais de arquivo, exemplo:
    REC_PEND_FECH_COM20180219130059.csv
    REC_PEND_FECH_COM20180219132200.csv
    REC_PEND_FECH_COM20180219134000.csv
    .
    .
    .
    Ou seja preciso copiar sempre o arquivo mais atual, como fazer isso ?
    Aqui usei o shell script no pentaho para fazer o FTP e copiar os arquivos (Mget na pasta), mas não sei como especificar para capturar sempre o arquivo mais recente dentro do diretório, o nome do arquivo é dinâmico ( REC_PEND_FECH_COMaaaammddhhmmss.csv )

    Podem me ajudar ?

    Obrigado !

  2. Olá Giovani Stefani,

    Poderia compartilhar os motivos de ter buscado o Pentaho mesmo já usando Power BI? E qual a sua impressão quando comparando o uso dos dois?
    Obrigado!

    1. Bom dia Robson, tudo bem?
      Amigo, o Power BI e o o Pentaho são ferramentas diferentes com funções diferentes.
      O Power BI é uma ferramenta de visualização de dados, onde o usuário pode conectá-lo em diferente fontes de dados e integrar os mesmos, em um único relatório/Dashboard e distribui-lo.

      O Pentaho é uma Suite de BI, com ferramentas de ETL, criação cubos OLAP, além de ferramentas de análise e visualização de dados.

      No meu caso, em específico, costumo usar o Pentaho Data Integration (PDI) para a extração e integração de dados. Criando um Data Warehouse/Data Mart/Data Lake e acesso essas informações com o Power BI, Qlik Sense, Tableau, etc.

      Assim sendo, considero as duas ferramentas – PowerBI e PDI – ferramentas complementares, impossibilitando um “comparação” direta.

      Qualquer dúvida é só entrar em contato, por aqui ou pelo Skype: giovani.stefani

      Abraço

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *