Etiqueta Apache Spark

Data Engineering

Apache Spark Streaming con Python y PySpark

Apache Spark Streaming es una tecnología ampliamente utilizada para el procesamiento de datos en tiempo real. En Introducción teórica a Spark Streaming pudimos conocer los conceptos clave y el funcionamiento de esta solución del ecosistema de Apache. Además, vimos algunos…

Óscar García
2025-10-09

Data Engineering

Ejemplos prácticos con Apache Spark: Structured Streaming

En un artículo anterior, hicimos una introducción teórica a Spark Structured Streaming donde analizamos en profundidad la API de alto nivel que proporciona Spark para el procesamiento de flujos de datos masivos en tiempo real (Structured Streaming). En él, vimos…

Agustín Mora
2024-08-29

Data Engineering

Introducción teórica a Spark Structured Streaming

En los últimos años, el procesamiento del dato con baja latencia, prácticamente en tiempo real, se está convirtiendo en un requisito cada vez más demandado por las empresas en sus procesos Big Data. Es en este contexto donde se introduce…

Agustín Mora
2024-07-17

Data Engineering

Watermarks en Structured Streaming de Apache Spark

La API Structured Streaming de Apache Spark es una poderosa herramienta para procesar flujos de datos en tiempo real. En este contexto, existen ciertos casos de uso en los que asegurar la exactitud del dato procesado no es trivial debido…

Jordi Vanrell
2024-07-05

Data Engineering

Custom Data Source en Spark 3

En 2020 Apache Spark publicó su versión 3.0.0 con la que se introdujeron cambios en la API para la definición de fuentes de datos personalizadas, conocida dentro del entorno de Spark como Custom Data Source. Estas eran usadas anteriormente a…

Ocean Berlinghieri
2024-04-02

Data Engineering

Diferencias entre DBT, Pentaho y Spark para transformar datos

Sabemos que existe una gran cantidad de productos en el ecosistema de la ingeniería de datos para realizar el tratamiento de los datos de una empresa y que la mayoría de ellos proporciona las herramientas necesarias para poder llevar a…

Vanessa Pradas
2023-11-14

Data Engineering

Integración entre DBT y Apache Spark: Guía práctica

Guía de integración de DBT con Apache Spark

En este post, vamos a analizar cómo DBT se integra con Spark y para qué puede resultarnos útil dicha integración. DBT es un framework que nos facilita el diseño del modelado de datos a lo largo de los diferentes ciclos…

Óscar García
2023-10-27

Software

Apache Spark: Transformaciones y Lazy Evaluation

Apache Spark es un framework open source que nos permite procesar grandes volúmenes de datos de forma distribuida. ¿Cómo? Dividiendo los grandes volúmenes de datos, imposibles de procesar en una máquina, y repartiendolos entre los diferentes nodos del clúster. En…

Miguel Sosa
2022-08-19

Data Engineering

Kafka + Spark para el procesamiento en Batch

Cómo aprovechar tecnologías Streaming como Apache Kafka y Apache Spark para el procesamiento en Batch. Proceso ETL. Pieza central del proyecto Big Data Recopilar, ingestar, integrar, tratar, almacenar y analizar grandes volúmenes de información son el conjunto de actividades fundamentales…

Antonio Boutaour
2021-12-16