Integración de DBT con Apache Spark
En este post vamos a hablar de cómo DBT se integra con Spark y para qué puede resultarnos útil dicha integración. DBT es un framework que nos facilita el diseño del modelado de datos a lo largo de los diferentes…
En este post vamos a hablar de cómo DBT se integra con Spark y para qué puede resultarnos útil dicha integración. DBT es un framework que nos facilita el diseño del modelado de datos a lo largo de los diferentes…
Este post trata sobre el impacto que puede tener el código bloqueante en una aplicación y la importancia de utilizar librerías que soportan nativamente la programación asíncrona. El objetivo es que se entienda que una llamada bloqueante es siempre bloqueante. …
Desde el lanzamiento de nuestro plugin PDI de Pentaho para Apache Airflow, hemos visto un cambio en la industria hacia el uso de Apache Hop para el procesamiento de datos. ¿Qué es Apache Hop? Apache Hop comenzó (a finales de…
Si alguna vez has compartido código, es bastante probable que hayas dicho aquello de “pues en mi máquina funciona” al ver como los demás tienen dificultades para ejecutarlo. Configuración incorrecta, diferencias de versiones o dependencias no instaladas suelen ser algunas…
Hoy me gustaría tratar un tema que, desde mi punto de vista, es muy importante y que probablemente sea el santo grial de los proyectos de ingeniería de datos. Sin embargo, en rara ocasión llegamos al nivel de madurez necesario…
Cuando nos imaginamos un algoritmo simple de programación es lógico pensar en una sucesión de instrucciones que se ejecutan de manera secuencial, donde la próxima instrucción no se ejecutará hasta que no haya terminado la inmediatamente anterior. No obstante, según…
Cómo aprovechar tecnologías Streaming como Apache Kafka y Apache Spark para el procesamiento en Batch Proceso ETL. Pieza central del proyecto Big Data Recopilar, ingestar, integrar, tratar, almacenar y analizar grandes volúmenes de información son el conjunto de actividades fundamentales…
Es bien sabido que el uso de UDFs (User Defined Functions) en Apache Spark, y sobretodo usando la API python, puede penalizar muchísimo el rendimiento de nuestros aplicativos. Por eso, en Damavis intentamos evitar su uso todo lo posible a…
En este artículo vamos a contarte algunas formas de solucionar problemas relacionados con la complejidad de la ingeniería de datos en sí misma. Un DAG de Airflow puede llegar a ser muy complejo si empezamos a incluir todas las dependencias…
Configuración básica de un nodo Nota: el código de este post ha sido probado utilizando Apache Hadoop 2.10.1. Por favor, consulta nuestro post anterior, Introducción a Apache Hadoop, para configurar esta versión de Hadoop en caso de que no lo…