Evitando usar UDFs para optimizar Apache Spark

En el mundo de la ingeniería de datos, es bien sabido que el uso de UDFs (User Defined Functions) en Apache Spark (sobretodo con la API Python) puede penalizar muchísimo el rendimiento de nuestros aplicativos. Por eso, en Damavis intentamos evitar su uso todo lo posible a favor de las funciones nativas o SQL. En … Sigue leyendo Evitando usar UDFs para optimizar Apache Spark