Resumen de la Semana 21 del 2021 en Damavis

Evitar UDFs en Apache Spark, trabajar en Damavis y una guía para descubrir qué herramienta open-source es la más adecuada

Evitar UDFs en Apache Spark, trabajar en Damavis y una guía para descubrir qué herramienta open-source es la más adecuada

En el mundo de la ingeniería de datos, es bien sabido que el uso de UDFs (User Defined Functions) en Apache Spark (sobretodo con la API Python) puede penalizar muchísimo el rendimiento de nuestros aplicativos. Por eso, en Damavis intentamos…

Airflow avanzado, creación de pipelines de machine learning e inteligencia artificial en supermercados

En este artículo vamos a contarte algunas formas de solucionar problemas relacionados con la complejidad de la ingeniería de datos en sí misma. Un DAG de Airflow puede llegar a ser muy complejo si empezamos a incluir todas las dependencias…

Nota: el código de este post ha sido probado utilizando Apache Hadoop 2.10.1. Por favor, consulta el post de Introducción a Apache Hadoop para configurar esta versión de Hadoop en caso de que no lo hayas hecho todavía. Como ya…

¿Qué es y cómo funciona Apache Airflow? Uno de los procesos de trabajo de un data engineer es el conocido ETL (Extract, Transform, Load). Este proceso permite a las organizaciones tener la capacidad de cargar el dato desde diferentes fuentes,…

Programa, orquesta y monitoriza tus tareas de Kettle con este plugin de Pentaho PDI para Airflow. En Damavis sabemos la importancia que tiene el procesado de los datos. Extraer, limpiar, transformar, agregar, cargar o cruzar múltiples fuentes de datos permiten…