Etiqueta Apache Spark

Data Engineering

Watermarks en Structured Streaming de Apache Spark

La API Structured Streaming de Apache Spark es una poderosa herramienta para procesar flujos de datos en tiempo real. En este contexto, existen ciertos casos de uso en los que asegurar la exactitud del dato procesado no es trivial debido…

Jordi Vanrell
2026-02-03

Data Engineering

Integración de DBT y Apache Spark: Guía práctica

Guía de integración de DBT con Apache Spark

En esta guía práctica adaptada a 2026, analizaremos cómo DBT se integra con Spark y para qué puede resultarnos útil dicha integración. ¿Qué es DBT y para qué se utiliza? DBT es un framework que nos facilita el diseño del…

Óscar García
2026-01-08

Data Engineering

Cómo optimizar UDFs en Python para Arrow en Spark

La llegada de la versión 3.5 de Apache Spark ha supuesto una revolución en la forma en la que trabajamos con los UDFs. A pesar de que siempre han existido problemas con ellas, como ya abordamos en Evitando usar UDFs…

Óscar García
2025-12-04

Data Engineering

Apache Spark Streaming con Python y PySpark

Apache Spark Streaming es una tecnología ampliamente utilizada para el procesamiento de datos en tiempo real. En Introducción teórica a Spark Streaming pudimos conocer los conceptos clave y el funcionamiento de esta solución del ecosistema de Apache. Además, vimos algunos…

Óscar García
2025-10-09

Data Engineering

Ejemplos prácticos con Apache Spark: Structured Streaming

En un artículo anterior, hicimos una introducción teórica a Spark Structured Streaming donde analizamos en profundidad la API de alto nivel que proporciona Spark para el procesamiento de flujos de datos masivos en tiempo real (Structured Streaming). En él, vimos…

Agustín Mora
2024-08-29

Data Engineering

Introducción teórica a Spark Structured Streaming

En los últimos años, el procesamiento del dato con baja latencia, prácticamente en tiempo real, se está convirtiendo en un requisito cada vez más demandado por las empresas en sus procesos Big Data. Es en este contexto donde se introduce…

Agustín Mora
2024-07-17

Data Engineering

Custom Data Source en Spark 3

En 2020 Apache Spark publicó su versión 3.0.0 con la que se introdujeron cambios en la API para la definición de fuentes de datos personalizadas, conocida dentro del entorno de Spark como Custom Data Source. Estas eran usadas anteriormente a…

Ocean Berlinghieri
2024-04-02

Data Engineering

Diferencias entre DBT, Pentaho y Spark para transformar datos

Sabemos que existe una gran cantidad de productos en el ecosistema de la ingeniería de datos para realizar el tratamiento de los datos de una empresa y que la mayoría de ellos proporciona las herramientas necesarias para poder llevar a…

Vanessa Pradas
2023-11-14

Software

Apache Spark: Transformaciones y Lazy Evaluation

Apache Spark es un framework open source que nos permite procesar grandes volúmenes de datos de forma distribuida. ¿Cómo? Dividiendo los grandes volúmenes de datos, imposibles de procesar en una máquina, y repartiendolos entre los diferentes nodos del clúster. En…

Miguel Sosa
2022-08-19

Data Engineering

Kafka + Spark para el procesamiento en batch

El procesamiento en batch (o por lotes) es una metodología que se utiliza ampliamente en el mundo del Big Data. A lo largo de este post, analizaremos cómo se pueden aprovechar tecnologías con las que habitualmente se trabajan datos en…

Antonio Boutaour
2021-12-16