Categoría Data Engineering

Data Engineering

Visualización de grafos en BigQuery con property_graphs

A través de distintas entradas de nuestro blog, hemos analizado qué son y cómo funcionan los grafos desde una perspectiva tanto teórica como práctica. En el post Bases de datos de grafos: Análisis y ejemplos ya abordamos cómo esta tecnología…

Antoni Casas
2026-04-29

Data Engineering

Watermarks en Structured Streaming de Apache Spark

La API Structured Streaming de Apache Spark es una poderosa herramienta para procesar flujos de datos en tiempo real. En este contexto, existen ciertos casos de uso en los que asegurar la exactitud del dato procesado no es trivial debido…

Jordi Vanrell
2026-02-03

Data Engineering

Cómo implementar pipe operators en BigQuery

Una de las peculiaridades de SQL y sus muchos dialectos es que intentan añadir funcionalidades que no están presentes en ANSI SQL. Este fenómeno es tan común, que es habitual encontrar que cada dialecto implementa dichas funciones de una forma…

Antoni Casas
2026-01-22

Data Engineering

Integración de DBT y Apache Spark: Guía práctica

Guía de integración de DBT con Apache Spark

En esta guía práctica adaptada a 2026, analizaremos cómo DBT se integra con Spark y para qué puede resultarnos útil dicha integración. ¿Qué es DBT y para qué se utiliza? DBT es un framework que nos facilita el diseño del…

Óscar García
2026-01-08

Data Engineering

Cómo optimizar UDFs en Python para Arrow en Spark

La llegada de la versión 3.5 de Apache Spark ha supuesto una revolución en la forma en la que trabajamos con los UDFs. A pesar de que siempre han existido problemas con ellas, como ya abordamos en Evitando usar UDFs…

Óscar García
2025-12-04

Data Engineering

Bases de datos de grafos: Análisis y ejemplo

En los casos en los que es necesario modelar las relaciones entre entidades, es habitual recurrir un sistema de grafos. El funcionamiento de este tipo de elementos es muy simple. Su estructura se compone de entidades, representadas como nodos, y…

Antoni Casas
2025-10-16

Data Engineering

Apache Spark Streaming con Python y PySpark

Apache Spark Streaming es una tecnología ampliamente utilizada para el procesamiento de datos en tiempo real. En Introducción teórica a Spark Streaming pudimos conocer los conceptos clave y el funcionamiento de esta solución del ecosistema de Apache. Además, vimos algunos…

Óscar García
2025-10-09

Data Engineering

Cómo crear un Chatbot personalizado: Guía paso a paso

Cómo crear un Chatbot personalizado: Guía práctica paso a paso

Los continuos avances en modelos de Inteligencia Artificial han facilitado en gran medida la vida de los usuarios. La evolución de la IA generativa ha abierto un amplio abanico de posibilidades y allanado el camino a los desarrolladores hasta el…

Laura Rodríguez
2025-07-29

Data Engineering

Pruebas en DBT: Test de datos y unitarios

La realización de test es un proceso que siempre es necesario para asegurarnos de que el comportamiento que esperamos de una aplicación es también el comportamiento real. Sin las pruebas apropiadas, subir un cambio puede provocar cierta inseguridad, ya que…

Antoni Casas
2025-04-11

Data Engineering

DBT Capa semántica: Caso práctico

En artículos anteriores de nuestro blog, hemos repasado las Novedades y mejoras de DBT 1.9 y algunos de los conceptos claves de DBT: modelos, snapshots y materializaciones. En esta ocasión, veremos un ejemplo práctico consistente en una prueba funcional de…

Óscar García
2025-04-03