Etiqueta spark

Custom Data Source en Spark 3

Custom Data Source en Spark 3

En 2020 Apache Spark publicó su versión 3.0.0 con la que se introdujeron cambios en la API para la definición de fuentes de datos personalizadas, conocida dentro del entorno de Spark como Custom Data Source. Estas eran usadas anteriormente a…

Apache Spark: Transformaciones y Lazy Evaluation

Apache Spark: Transformaciones y Lazy Evaluation

Apache Spark es un framework open source que nos permite procesar grandes volúmenes de datos de forma distribuida. ¿Cómo? Dividiendo los grandes volúmenes de datos, imposibles de procesar en una máquina, y repartiendolos entre los diferentes nodos del clúster. En…