martes, 3 de junio de 2014

Big Data y relaciones espúrias

La idea fundamental de Big Data es que el análisis masivo de datos históricos puede localizar patrones que permitan realizar predicciones fiables. Pero esta es sólo la primera parte del trabajo; posteriormente, es imprescindible encontrar la relación causa-efecto entre las variables si no queremos protagonizar patinazos gloriosos ocasionados por las relaciones espúreas.

Una relación espúrea se produce cuando encontramos variables que se comportan de forma parecida por puro azar, algo muy frecuente cuando manejamos cantidades masivas de datos.

La página Spurious Correlations muestra algunas relaciones absurdas y proporciona una sencilla herramienta para buscar nuestras propias correlaciones.



Es interesante comprobar que la variable de dinero gastado en mascotas en Estados Unidos está correlacionada al 99,6% con el número de abogados de California. Esto podría indicar que los abogados de California son contratados como mascotas, aunque también podría ser síntoma de que el incremento de las mascotas provoca un aumento de las demandas judiciales o que en California se presentan demandas judiciales para sentirse acompañado. Claro que también puede ser que no exista relación alguna y que cualquier intento de predecir el gasto en mascotas a partir del número de abogados activos en California esté condenado al fracaso.

Lo mismo sucede con el consumo per capita de queso cheddar y los accidentes mortales en los que está implicada una embarcación hinchable sin motor. La gráfica muestra una correlación "evidente", pero también parece obvio que lanzar una campaña orientada a reducir el consumo de queso cheddar para prevenir los accidentes con embarcaciones hinchables sería una soberana estupidez.

El problema es que este tipo de conclusiones espúreas aparecen continuamente en la prensa en forma de estudios "pseudo-científicos" (a veces avalados por grandes universidades) en los que se nos amina a adoptar o abandonar hábitos de vida basándose en correlaciones de datos no muy diferentes de los dos ejemplos previos.

En el caso de las empresas los resultados pueden ser más dramáticos. Por mucho que una empresa haya invertido en su proyecto de Big Data, nunca debería tomar una decisión basándose en una correlación para la que no se ha encontrado la relación causa-efecto.

El Big Data no sirve para nada si no tenemos conocimiento de negocio y suficiente sentido crítico como para poner en duda lo que parece que dicen los datos.

El número 42 que aparece en el icono de la página de Spurious Correlations es un pequeño homenaje a la "Guía del Autoestopista Galáctico" de Douglas Adams, una pequeña obra maestra del la lógica del absurdo aplicada al humor.

No hay comentarios:

Publicar un comentario