Pentaho Data Integration (Spoon): Um guia para novatos – parte 2

Umas das steps mais utilizadas, em processo de ETL com PDI, são as steps de Lookup.

Existem várias steps de lookup no PDI, mas vamos focar nas mais utilizadas, que são Database Lookup, Stream Lookup and Database Join. Essas steps, comparam dados que entram pelo fluxo do processo e comparam com um fluxo de uma consulta de dados, para produzir 0 ou mais dados o fluxo de saída, com um ou mais campos “pesquisados”.

Esse é um resumo das funcionalidades e o comportamentos dessas steps.

Dados Retornados

  1. Database Lookup: 1
  2. Stream Lookup: 1
  3. Database Join: 0 ou mais

Armazenamento em cash dos dados pesquisados

  1. Database Lookup: 0 ou todas as linhas retornadas(várias configurações)
  2. Stream Lookup: sempre retorna todas as linhas
  3. Database Join: não guarda registro em cash

Comportamento quando pesquisa não retorna dados correspondentes

  1. Database Lookup: pode filtrar registros na entrada, pode inserir um valor nulo ou um valor padrão.
  2. Stream Lookup: pode inserir um valor nulo ou padrão nos campos de pesquisa.
  3. Database Join: pode retornar campos de pesquisa nula ou atuar como um filtro no fluxo de entrada.

Comportamento quando a pesquisa retorna múltiplos registros

  1. Database Lookup: pode gerar falhas ou correspondências no primeiro registro retornado da consulta de pesquisa gerada. (A consulta de pesquisa pode ter uma ordem por cláusula aplicada).
  2. Stream Lookup: retorna o último registro correspondente no fluxo de pesquisa.
  3. Database Join: retorna todos os registros correspondentes.

Numero de fonte de dados

  1. Database Lookup: uma fonte de dados.
  2. Stream Lookup: fluxo do PDI.
  3. Database Join: query no banco de dados.

Operadores de lookup

  1. Database Lookup: operadores básicos do SQL (=, <>, <, <=, >, >=, LIKE, BETWEEN, IS NULL e IS NOT NULL).
  2. Stream Lookup: somente igual (=).
  3. Database Join: qualquer operador válido para SQL.

 

Como vocês podem ver, há um pouco de funcionalidade sobreposta. Vocês geralmente podem usar qualquer um dos três para realizar a mesma tarefa de pesquisa. No entanto, há diferenças marcantes que proporcionam oportunidades significativas para funcionalidades avançadas e sintonia de desempenho impactante. É aí que o uso de padrões pode ajudar o desenvolvedor perspicaz – aplicando regras e algoritmos de melhores práticas.

 

Um guia para novatos parte 1

 

Fonte:Pentaho

1 thought on “Pentaho Data Integration (Spoon): Um guia para novatos – parte 2

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *