Data Wrangling x ETL: Qual a diferença?

Data Wrangling

Três coisas que distinguem a preparação de dados do processo tradicional de extração, transformação e carregamento.

Nos últimos anos, o Data wrangling (também conhecida como preparação de dados) emergiu com um rápido crescimento dentro do mundo da Data Science.  Depois de ser um gargalo na análise devido ao trabalho doloroso e demorado que preparava as diversas fontes de dados para relatórios e análises, as tecnologias de manipulação de dados já percorreram um longo caminho. Depois de alguns anos de experiência em BI, Engenharia de Dados e Data Science, vou elencar as três principais diferenças entre Data Wrangling e ETL:

1. Os usuários são diferentes

A ideia central das tecnologias de Data Wrangling é que as pessoas que melhor conhecem os dados devem estar explorando e preparando esses dados. Isso significa que analistas de negócios, usuários de linha de negócios e gerentes (entre outros) são os usuários pretendidos das ferramentas de preparação de dados. Pessoalmente, posso atestar a enorme quantidade de esforço de design e engenharia dedicados ao desenvolvimento de um produto que permite que os profissionais façam esse trabalho intuitivamente por conta própria.

Em comparação, as tecnologias de ETL estão focadas em TI como usuários finais. Os profissionais de TI recebem requisitos de suas contrapartes comerciais e implementam pipelines ou fluxos de trabalho usando ferramentas ETL para fornecer os dados desejados aos sistemas nos formatos exigidos.

Os usuários de negócios raramente veem ou aproveitam as tecnologias ETL ao trabalhar com dados. Antes que as ferramentas de Data Wrangling estivessem disponíveis, as interações desses usuários com os dados só ocorriam em planilhas ou ferramentas de Business Intelligence.

2. Os dados são diferentes

O surgimento de soluções de Data wrangling surgiu por necessidade. Uma variedade crescente de fontes de dados pode agora ser analisada, mas os analistas não têm as ferramentas certas para entender, limpar e organizar esses dados no formato apropriado. Grande parte dos dados com os quais os analistas de negócios precisam lidar atualmente vem em uma crescente variedade de formas e tamanhos que são muito grandes ou muito complexos para se trabalhar nas ferramentas tradicionais de self service BI, como o Excel.  As soluções de preparação de dados são especificamente projetadas e arquitetadas para lidar com dados diversos e complexos em qualquer escala.

O ETL foi projetado para manipular dados geralmente bem estruturados, geralmente originários de uma variedade de sistemas operacionais ou bancos de dados que a organização deseja relatar. Dados em grande escala ou fontes brutas complexas que exigem extração e derivação substanciais para estruturar não são um dos pontos fortes das ferramentas de ETL. Além disso, uma quantidade crescente de análise ocorre em ambientes em que o esquema de dados não é definido ou conhecido antecipadamente. Isso significa que o analista que está realizando a disputa está determinando como os dados podem ser aproveitados para análise, bem como o esquema necessário para realizar essa análise.

3. Os Casos de Uso São Diferentes

Os casos de uso que vemos entre os usuários de soluções Data wrangling tendem a ser mais exploratórios por natureza e geralmente são conduzidos por pequenas equipes ou departamentos antes de serem implementados em toda a organização. Os usuários de tecnologias de manipulação de dados geralmente estão tentando trabalhar com uma nova fonte de dados ou uma nova combinação de fontes de dados para uma iniciativa de análise. Também vemos soluções de preparação de dados que tornam os processos de análise existentes mais eficientes e precisos, pois os usuários podem sempre ter seus olhos em seus dados à medida que eles são preparados.

As tecnologias ETL originalmente ganharam popularidade nos anos 1970 como ferramentas focadas principalmente na extração, transformação e carregamento de dados em um data warehouse corporativo centralizado para geração de relatórios e análises por meio de aplicativos de business intelligence.  Este continua a ser o principal caso de uso para ferramentas de ETL e um que eles são extremamente bons. Vemos soluções de extração de dados e ETL implantadas como elementos complementares da plataforma de dados de uma organização. A TI aproveita as ferramentas de ETL para mover e gerenciar dados para que os usuários de negócios tenham acesso para explorar e preparar os dados apropriadamente com soluções de data wrangling.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *