El fenómeno del niño y las hidroeléctricas en Colombia


Introducción
Procedimiento
Análisis y resultados
Conclusión
Referencias

Introducción

En este artículo se realizó un análisis simple de los aportes de ciertas cuencas del sistema interconectado nacional (SIN) y los efectos del fenómeno del Niño sobre estas, usando métodos estadísticos y de inteligencia artificial que normalmente se emplean para análisis de imagen y predicción de precios, entre otros. Estas variaciones afectan directamente la generación de las plantas hidroeléctricas. Para esto se usaron datos tomados de la plataforma BI de XM, los cuales son de acceso público. Con lo anterior, se pretende demostrar la utilidad de herramientas poco usadas en el sector eléctrico, en el cual no se suelen aprovechar técnicas de análisis de datos más modernas por falta de conocimiento y las cuales forman parte del proceso normal de toma de decisiones en otras industrias.

Procedimiento

En primer lugar, se tomaron los ríos que cuentan con registros desde 2002, y se ignoró el resto de cuencas del país, lo cual implica ignorar a Hidrosogamoso y Quimbo, entre otras.

Luego se tomaron los valores del El Nino/ Southern Oscillation (ENSO)[2] en las diferentes regiones del pacífico, debido al efecto de estas sobre el clima en Colombia. Dado que estos datos son publicados semanalmente, el modelo solo usarìa información completa los lunes, que es cuando se publican los valores de la semana anterior. Para evitar la volatilidad natural de las variables usadas, se tomaron promedios de los últimos 7 y 30 días para los aportes, y de los últimos 60 para el ENSO. Igualmente se discriminaron los aportes por región, ya que hacerlo por rìo habría significado aumentar de forma arriesgada el número de variables usadas, lo que puede terminar en un proceso de optimización muy lento.

La variable a predecir es la variaciòn en los aportes de los ríos tomados en cuenta entre los últimos 30 días y los 30 siguientes. Se toma la variación y no el valor directo por varias razones, la principal es que para predecir el valor directo el algoritmo podría tomar el promedio del mes anterior, que suele ser relativamente cercano, y añadirle un valor al azar, con lo que obtendría una predicción medianamente certera pero sin valor alguno. Lo anterior tiene el problema de requerir un algoritmo capaz de predecir valores negativos, algo que puede causar ciertos problemas. 

Para este proceso se usó la metodología de validación cruzada, en la que se parte la información en 3 sets. El primero (Train set) se usa para entrenar el modelo, el segundo (Test set) para determinar los hiper parámetros del optimizador que mejor se ajusten a lo deseado, y el tercero (Validation set) se usa para probar la fiabilidad real del modelo. El último set no debe ser usado sino hasta el final del proceso, hacerlo antes puede conducir a resultados erróneos.

En otras industrias, como los e-commerce y las plataformas online de pago, se suelen tener una gran cantidad de registros independientes unos de los otros, lo cual es ideal para hacer análisis estadísticos. En el caso del sector energético, desafortunadamente se suele tener una menor cantidad de datos y estos muchas veces están relacionados mutuamente. Debido a la poca cantidad de datos disponibles (cerca de 5500 días, un registro por río y por día) se decidió tomar una proporción bastante conservadora respecto al tamaño de los sets. El train set está compuesto de las primeras 2500 muestras, el test set de las siguientes 1000 y las restantes son parte del set de validación. 

Análisis y resultados

La siguiente imagen muestra un histograma de cada región hidrológica, con los aportes en m3/s y la cantidad de veces que se dieron estos valores.

El fenomeno del nino y las hidroelectricas en colombia1

Histogramas con los aportes por regiòn. Fuente: XM [1]

Ahora se analiza el efecto del ENSO (Promedio ùltimos 60 dìas) sobre las principales regiones hidrológicas, para esto se utiliza el coeficiente de correlación de Poisson. Los resultados se muestran en la siguiente imagen:

 El fenomeno del nino y las hidroelectricas en colombia2

Coeficientes de correlación de Poisson entre los aportes por región y el ENSO. Fuentes: XM[1] y NOAA[6]

Se ve como las regiones más afectadas por el valor del ENSO son Antioquia y Valle, mientras que Oriente es prácticamente indiferente ante este fenómeno. Esto implica que la cantidad de aportes en estas zonas (Antioquia y Valle) se ven afectadas por el fenómeno del Niño de forma especialmente fuerte. Mientras que Oriente sirve al país como una reserva para el SIN durante estos fenómenos de sequía. 

Otra cosa que es interesante apreciar es la gran variación que puede existir de un año a otro en términos de lluvias, lo que muestra la complejidad de hacer una predicción de este estilo. A pesar de lo anterior, se logran distinguir las épocas de lluvias y sequías, con más claridad para ciertas parte del año que para otras.

El fenomeno del nino y las hidroelectricas en colombia3

Aportes totales por dìa del año. Fuente: XM[1]

 

Ahora se verán los diferentes modelos que han sido usados hasta el momento, con algunos detalles técnicos en los cuales no se hará mucho detalle. 

El primer método a probar se llama “k nearest neighbor” y consiste en mirar el pasado y escoger entre los k puntos con las condiciones más cercanas a las que se desean predecir y promediar el valor de la salida para esos puntos. En este caso, el hiper parámetro (las variables que se deben configurar antes de entrenar el modelo) a seleccionar es el valor de k, ya que de este depende la calidad de las predicciones. Para seleccionar estos valores se realizó un proceso de prueba y error, tanto para este modelo como para los siguientes. 

El fenomeno del nino y las hidroelectricas en colombia4

Modelo k nearest neighbor. Los datos son tomados de XM, los modelos fueron implementados por el autor de este documento

El error promedio del modelo es de 357 m3/s en el test set, un más del 20% comparado con el total de aportes. La siguiente gráfica muestra la dispersión del error:

El fenomeno del nino y las hidroelectricas en colombia5

Dispersiòn del error para el modelo k nearest neighbors, evaluando el Test set. Fuente: Realizaciòn propia

El siguiente modelo es una red neuronal sencilla, construida usando la librería Keras de Python. Los hiperparametros a seleccionar son el dropout (que sirve para controlar el sobreajuste) y el número de neuronas en una de las capas (que sirve para controlar la complejidad de la red). 

 

El fenomeno del nino y las hidroelectricas en colombia6

Modelo con red neuronal en Keras. Los datos son tomados de XM, los modelos fueron implementados por el autor de este documento. 

El error promedio del modelo es de 310 m3/s, un poco menos del 20% sobre el total de aportes. La siguiente es su distribución de error:

El fenomeno del nino y las hidroelectricas en colombia7

Dispersiòn del error para la red neuronal en Keras, evaluando el Test set. Fuente: Realizaciòn propia

Nótese como no se encuentra centrada en 0, esto representa un problema, pues los modelos van a tener una tendencia a predecir valores más altos que los reales, lo cual puede traer problemas al momento de la toma de decisiones. 

Ninguno de los modelos anteriores tiene como función analizar series de tiempo, por lo que sería interesante ver uno que si tuviera esta capacidad. Por lo anterior, el siguiente modelo consiste de una red neuronal recurrente construida con unidades de memoria larga de corto plazo (LSTM por sus siglas en inglés). Se trata de un tipo de red que es capaz de “recordar” valores sobre un intervalo determinado de tiempo. El resultado

El fenomeno del nino y las hidroelectricas en colombia8

Modelo con red LSTM  en Keras. Los datos son tomados de XM, los modelos fueron implementados por el autor de este documento. 

La distribución del error es la siguiente:

 El fenomeno del nino y las hidroelectricas en colombia9

Dispersiòn del error para la red LSTM en Keras, evaluando el Test set. Fuente: Realizaciòn propia

A diferencia de los modelos anteriores, esta distribución si se encuentra aproximadamente centrada en 0. El error promedio del modelo es de 313 m3/s.

El siguiente modelo consiste en un regresor que, si bien no está pensado para hacer análisis de series de tiempo, se puede usar para este trabajo sencillo. 

El fenomeno del nino y las hidroelectricas en colombia10

Modelo con red neuronal en Sklearn. Los datos son tomados de XM, los modelos fueron implementados por el autor de este documento. 

A pesar de la simplicidad del modelo, se comporta bastante bien, logrando un error promedio de 286 m3/s con la siguiente dispersión del error. 

El fenomeno del nino y las hidroelectricas en colombia11

Dispersiòn del error para la red neuronal en Sklearn, evaluando el Test set. Fuente: Realizaciòn propia

Durante lo mostrado no se usó en ningún momento el test de validaciòn. Esto se hace por seguridad, ya que los modelos aún se encuentran en etapa de pruebas y es necesario tener información nueva cuando sea necesario reportar la precisión de la predicción, ya que durante la selección de los hiperparametros se puede inducir un sesgo considerable en el modelo. Aún es necesario desarrollar mejor el proyecto, con la idea de lograr predicciones lo suficientemente acertadas como para ser incorporadas a alguna decisión de negocio.

Conclusión

Del análisis anterior se pueden concluir varias cosas. Una de las principales es que el fenómeno del Niño afecta fuertemente a las regiones de Antioquia y Valle, lo cual tiene implicaciones para las empresas con centrales en estas áreas, principalmente EPM e ISAGEN. Por el contrario, el coeficiente de correlación de la región de Oriente indica que sus aportes hídricos se ven poco impactados por este fenómeno. 

También se puede apreciar que los aportes de las regiones hidrológicas no se comportan como una distribución normal, por lo cual es necesario usar estadística no paramétrica para realizar un análisis confiable o recurrir a métodos de inteligencia artificial como los propuestos en el artículo.

Finalmente, se recomienda incorporar las nuevas herramientas estadísticas para los análisis que se hacen en el sector eléctrico Colombiano. Lo anterior representa una oportunidad de mejora considerable, tomando en cuenta la cantidad de información que se encuentra disponible.

Referencias

[1] http://portalbissrs.xm.com.co/Paginas/Home.aspx

[2]https://www.ncdc.noaa.gov/teleconnections/enso/indicators/sst/