Etiqueta Apache Spark

Custom Data Source en Spark 3

Custom Data Source en Spark 3

En 2020 Apache Spark publicó su versión 3.0.0 con la que se introdujeron cambios en la API para la definición de fuentes de datos personalizadas, conocida dentro del entorno de Spark como Custom Data Source. Estas eran usadas anteriormente a…

Apache Spark: Transformaciones y Lazy Evaluation

Apache Spark: Transformaciones y Lazy Evaluation

Apache Spark es un framework open source que nos permite procesar grandes volúmenes de datos de forma distribuida. ¿Cómo? Dividiendo los grandes volúmenes de datos, imposibles de procesar en una máquina, y repartiendolos entre los diferentes nodos del clúster. En…

Kafka + Spark para el procesamiento en Batch

Cómo aprovechar tecnologías Streaming como Apache Kafka y Apache Spark para el procesamiento en Batch

Cómo aprovechar tecnologías Streaming como Apache Kafka y Apache Spark para el procesamiento en Batch. Proceso ETL. Pieza central del proyecto Big Data Recopilar, ingestar, integrar, tratar, almacenar y analizar grandes volúmenes de información son el conjunto de actividades fundamentales…