Pentaho Data Integration 8.1 o que há de novo

Etapas de streaming aprimoradas no PDI

 O Pentaho Data Integration (PDI) apresenta várias melhorias em steps de streaming, incluindo a adição de duas novas steps

Step de Produtor e Consumidor de protocolo MQTT

 O PDI agora pode extrair dados de fluxo de um broker MQTT ou por meio de uma transformação MQTT.  A step Consumidor do MQTT executa uma transformação filha que é executada de acordo com o tamanho ou a duração do lote da mensagem, permitindo que você processe um fluxo contínuo de registros quase em tempo real.  A etapa do Produtor do MQTT permite publicar mensagens quase em tempo real para um broker do MQTT.

Melhorias nas steps de Produtor e Consumidor JMS

As etapas do Consumidor e do Produtor do JMS agora suportam o middleware IBM MQ, permitindo que você construa pipelines de dados de fluxo com essas origens de dados legadas como o IBM MQ. Assim como nossas outras etapas de streaming, a etapa JMS Consumer agora opera como uma transformação pai que executa uma transformação filha que é executada de acordo com o tamanho ou a duração do lote de mensagens, processando um fluxo contínuo de registros quase em tempo real.

Parar com segurança steps de streaming

Agora você pode interromper com segurança as transformações de streaming sem perda de registros. Esta parada segura está disponível em transformação em lote dentro de Spoon, Carte e a etapa Abortar.

Mais recursos do Spark no PDI

Mecanismo do Spark suportado em etapas de transformação do PDI

Agora você pode executar transformações PDI com o mecanismo Spark usando as seguintes etapas aprimoradas:

  • Group By;
  • Unique Rows (Hashset);
  • Unique Rows;

Rodar sub-transformações com Spark

Agora você pode executar sub-transformações com o Spark no AEL usando a etapa Transformation Executor, permitindo projetar pipelines mais complexos no PDI e executá-los no Spark.

Servidor de histórico do Spark

Configure o registro de eventos do Spark a ser capturado e visualizado usando o servidor do histórico do Spark.

Melhorias na integração com Google Data Cloud

Com o Pentaho 8.1, você pode se conectar facilmente ao Google Cloud Storage usando um navegador VFS para importar e exportar dados para e do Google Drive.  Com a adição da nova entrada do job do Google BigQuery Loader, agora você pode usar o BigQuery como fonte de dados com o console do usuário Pentaho ou o cliente PDI, configurar suas conexões JDBC usando um driver Simba e criar pipelines ETL para acessar, enriquecer e armazenar dados com serviços de big data do Google Cloud.

Maior segurança do AWS S3

O PDI agora pode assumir as permissões de função do IAM e fornecer acesso seguro de leitura / gravação ao S3 sem a necessidade de fornecer credenciais codificadas permanentemente em cada etapa.  Essa flexibilidade adicional acomoda diferentes cenários de segurança da AWS para proporcionar uma melhor experiência do usuário devido a uma menor carga de gerenciamento de credenciais, ao mesmo tempo em que reduz o risco de segurança resultante de credenciais expostas. As etapas de transformação do S3 CSV Input e S3 File Output revisadas agora permitem que o PDI extraia dados do Amazon Web Services com os aprimoramentos de segurança necessários. Ambas as etapas permitem que você obtenha chaves de segurança do IAM a partir de variáveis de ambiente, do diretório de origem da sua máquina ou do perfil da instância do EC2.

Novas e atualizadas steps para Big Data

Adicionadas INPUT e OUTPUT ORC

As etapas de transformação de INPUT e OUTPUT de ORC (Columned Record Column) Otimizadas foram adicionadas para permitir que o PDI execute o método de serialização de dados colunares com indexação para facilitar o desenvolvimento de pipelines que lidam com esses formatos. A manipulação nativa de arquivos ORC por meio de etapas de entrada e saída está disponível em qualquer sistema de armazenamento padrão e também é acessível por meio de drivers do Virtual File System (VFS). Para melhorar o desempenho, a execução nativa das etapas pode ocorrer no mecanismo Pentaho ou no Spark usando AEL

Novas opções ORC, AVRO e Parquet

Novas opções de formatação foram adicionadas às etapas de entrada e saída de ORC, Avro e Parquet.

  • Opção para anexar a data, a hora ou um registro de data e hora para gerar nomes de arquivos.
  • Sobrescrever arquivos existentes.
  • Conversão de tipo de dados, permitindo que você altere os tipos de dados em cada uma dessas etapas.

Atualizações Adicionais do Big Data:

Cassandra: Essas etapas são atualizadas para oferecer suporte ao Cassandra versão 3.11 e DataStax versão 5.1;

HBase: Nas steps input HBase e output do HBase, você pode excluir linhas usando uma chave de mapeamento. Esta nova opção permite criar um modelo de mapeamento para extrair e gravar tuplos de e para o HBase;

MongoDB: Como um aprimoramento de segurança, as etapas de input do MongoDB e de output MongoDB agora suportam conexões SSL. O MongoDB também foi atualizado para o driver 3.6.3, que suporta as versões 3.4 e 3.6;

Splunk: PDI atualizado para a versão 7.0;

Melhorias no PDI

Analisadores de Nova Linhagem de Dados: A Data Lineage agora possui analisadores de Input e Output de JSON;

Suporte de Injeção de Metadados adicionado à Etapa de Input da Tabela. O campo Connection na etapa Table Input agora apresenta Injeção de Metadados. Você pode usar este passo para salvar as transformações injetadas no Repositório Pentaho.

Conexão de banco de dados genérico. Ao configurar um banco de dados genérico, você pode usar a configuração Dialect para ajudá-lo a definir um driver JDBC personalizado e um URL para um dialeto de banco de dados específico.

Novo Selecione o Filtro no Data Explorer. Use o filtro Selecionar para pesquisar uma lista de valores para selecionar como um filtro enquanto você inspeciona seus dados dentro do cliente PDI.

Limpar a pesquisa na step de Input. No painel Explorar do cliente PDI, agora você pode limpar sua etapa de transformação atual ou a pesquisa de entrada de trabalho clicando no “X” ao lado do campo de pesquisa. Adicionado capacidade de administradores para excluir o conteúdo de usuários individuais.

Repositório PDI Melhorado. Agora você terá um melhor desempenho ao abrir arquivos, salvar arquivos e explorar seu Repositório Pentaho.

Steps de transformação do Salesforce aprimoradas. O PDI 8.1 usa a versão 41.0 da API para a URL do serviço da Web do Salesforce em todas as etapas do Salesforce. As etapas a seguir agora são atualizadas no PDI:

  • Salesforce Input;
  • Salesforce Output;
  • SalesforceUpdate;
  • Salesforce Upsert;
  • Salesforce Delete;

Step do arquivo CSV aprimorada. Aperfeiçoada a step de transformação de entrada de arquivo CSV, adicionando milissegundos no campo de formato de data que permite ao usuário controlar melhor o uso de manipulação de arquivos para controlar o número máximo de arquivos abertos simultaneamente e o tempo entre liberações de arquivos.

Melhorias no registro. Adicionamos o arquivo PDI. log para capturar a execução de transformação e tarefas. Além disso, agora você pode rolar pela saída do log e copiar as seções do texto do log. Veja PDI Logging para mais informações.

Melhorias na permissão do administrador. Os administradores agora podem gerenciar melhor o conteúdo no Pentaho Repository Explorer. Quando usuários individuais excluem transformações, tarefas e conexões de banco de dados, os administradores podem esvaziar permanentemente suas pastas da lixeira. Essa opção é útil quando os usuários saem de uma organização e seus arquivos excluídos precisam ser permanentemente limpos.

2 thoughts on “Pentaho Data Integration 8.1 o que há de novo

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *