Engenheiro de Dados o guardião dos custos de processamento de dados

Com a explosão da geração e coleta de dados dos últimos anos, profissões foram surgindo, outras fora se adaptando e o “economia dos dados” se estabelecendo.  Os hosts de hospedagem em nuvem, começaram a ficar mais acessíveis e processos antes difíceis de serem executados começaram a entrar em nosso dia-a-dia.

Posições como Engenheiro de Dados e Cientista de Dados começaram a proliferar e o mercado, cada vez mais, exige profissionais tecnicamente qualificados.  As skills de análise estatísticas de dados, análise estratégica, machine learning, inteligência artificial, são cada vez mais exigidas pelas empresas.  Profissionais altamente capacitados e alinhados com os objetivos estratégicos estão no mercado para ajudar as empresas com seu mar de dados. 

Uma grande variedade de dados não estruturados está disponível em documentos, redes sociais, vídeos, entre outros, prontos para serem consultados e utilizados para as tomadas de decisões dos gestores.  A criação de Data Lakes está entrando no cotidiano dos times de dados das empresas e com o auxilio da nuvem, estão cada vez mais ajustados e disponíveis para facilitar o trabalho dos Cientistas de Dados em suas análises estatísticas e Machine Learning (ML).

Nesse mar de dados e seu grande valor surge um problema enfrentado pelas empresas, o custo do trafego desses dados.  Apesar das operações e armazenamento de dados em Cloud serem relativamente baratos, trafegar esses dados na rede tem um alto custo e esse valor a ser pago pelo trânsito desses dados, deixam o gestor de infraestrutura em alerta.

Dentre as várias atribuições de um Engenheiro de Dados uma delas, que geralmente não é levada em conta, é a otimização do tráfego de dados na rede, seja ela “intra” ou “extra” cloud.  Muitas vezes o Cientista de Dados, na criação do modelo de análise mais adequado para suas necessidades, não leva em conta o volume de dados trafegados o que eleva o custo da operação e, em muitos casos, acaba inviabilizando a utilização de ferramentas adequadas para um melhor resultado nos modelos de ML.

Por isso o envolvimento direto dos Engenheiros de Dados em um projeto de ML deve ser incentivado, para que o modelo de ETL possa ser bem projetado, otimizando custos e almejando melhorias nos processos.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *