Hace unos días leí un articulo donde se pone de manifiesto que últimamente estamos muy acostumbrados a leer en distintos foros especializados, periódicos e incluso a oír hablar de ello un informativos y otros medios de comunicación, de que el Big data puede ser la solución a todos nuestros problemas de pronóstico.

Es indudable que todas las herramientas que se engloban en Big data ofrecen unas posibilidades enormes a la hora de predecir por ejemplo hábitos de consumo, diferentes parámetros climáticos, etc., pero hay que tener en cuenta que una gran cantidad de datos no implica una correcta predicción, y sino que se lo digan al famosísimo gripazo de google, (sino funciona el enlace también se puede leer aquí). Y es que, los que nos dedicamos a lo que tiene que ver con la predicción hace tiempo que nos hemos dado cuenta de que los datos que se quieren utilizar, ya sea en predicciones en el campo de la química, en enología, en hidrología, en paleontología, etc., han de ser tratados previamente para determinar si contienen datos anómalos, outlaiers, si realmente existe una relación entre los datos y lo que se pretende predecir, si existe un equilibrio adecuado dentro de los datos a analizar, y ya no vamos a entrar en los distintos tipos de algoritmos existentes, las diferentes maneras de inicializar los modelos, o como particionar los datos para desarrollar los modelos…

Pero vamos al grano, a lo que realmente nos interesa en este post, la famosa gripe que tuvo Google. Resulta que Google dispone de una aplicación denominada Google Flu trends con la cual suele hacer una estimación o predicción de la repercusión que tendrá la gripe en un determinado territorio para un año en particular. El algoritmo que utilizan la aplicación se nutre básicamente de las búsquedas que reciben los servidores de Google, es decir, para predecir los niveles de gripe en un determinado país se utilizan las búsquedas que tengan que ver con gripe en ese determinado país, por ejemplo palabras como gripe, virus de la gripe, síntomas, resfriados, etc., vamos, todo lo que tenga que ver con una gripe, y todo en su conjunto es tratado mediante el algoritmo de Google para intentar dar una predicción. Este algoritmo que hasta aquel momento había funcionado fantásticamente, proporcionado unos errores elevadísimos para el año 2012, atribuidos a búsquedas falsas en los servidores del país para desacreditar el algoritmo, segun dijeron desde Google. Sea como fuere lo cierto es que el algoritmo falló, y si lo hizo fue debido al tratamiento de los datos. Disponer de una gran cantidad de datos no implica una buena predicción, los datos necesitan ser analizados y refinados y además de ello se estaba intentando predecir una enfermedad con el número de búsquedas relacionadas, puede que en un principio parece tener sentido, pero una vez lo meditamos, no lo tiene tanto. Pongámonos en el caso del virus ébola que se ha desatado estas últimas semanas. Si analizamos las búsquedas de temas relacionadas con dicho virus en la zona más afectada probablemente el algoritmo arrojará una tasa de enfermedad baja, hay que recordar que en la zona más afectada Guinea, Sierra Leona, Liberia y Nigeria los accesos a internet aún están limitados por lo cual las búsquedas que alimentan el algoritmo harán que este no funcione adecuadamente. Por otro lado, teniendo en cuenta que el Gobierno de los EEUU ha repatriado a Atlanta a un médico con dicha enfermedad, contagiado en su misión en África, intuyo que las búsquedas relacionada con ello en la zona de Atlanta deben ser, cuanto menos numerosísimas, lo que debería arrojar en el algoritmo una tasa de enfermedad elevada, cuando en realidad solo hay un caso, y ya no voy a entrar en los niveles de ébola que debe haber en España con la agitación mediática del traslado del misionero español.

Sea como fuere, hay que tener cuidado con los datos, mucho o pocos, estos necesitan un tratamiento y estudio previo, y muestra de ello es este interesante artículo donde se pone de manifiesto la relación entre el consumo de chocolate y el número de premios nobel.