Etiqueta pyspark

Software

Apache Spark: Transformaciones y Lazy Evaluation

Apache Spark es un framework open source que nos permite procesar grandes volúmenes de datos de forma distribuida. ¿Cómo? Dividiendo los grandes volúmenes de datos, imposibles de procesar en una máquina, y repartiendolos entre los diferentes nodos del clúster. En…

Miguel Sosa
2022-08-19

Data Science

El uso de Window en Apache Spark

Al procesar datos muchas veces nos encontramos en una situación en la que queremos calcular variables sobre un cierto subconjunto de observaciones. Por ejemplo, podríamos estar interesados en la media por grupo o el valor máximo para cada grupo. La…

Carlos Rodriguez
2021-06-11

Data Engineering

Primeros pasos con Pyspark y Pycharm

Primeros pasos para programar en Pyspark y Pycharm

Guía definitiva para poder configurar el entorno de desarrollo de Pyspark en Pycharm; una de las opciones más completas. Spark se ha convertido en la herramienta Big Data por excelencia, nos ayuda a procesar grandes volúmenes de datos de una…

Óscar García
2021-02-04