Curiosa Biología: julio 2013

A pesar de que no es mi especialidad de ninguna manera, en esta ocasión voy a probar a meterme en una rama de la ciencia de la que habitualmente no hablo: la sociología. En concreto me he dedicado a comprobar una hipótesis que he formulado (y la he formulado así, porque el otro día se me ocurrió mientras estaba sentado en un Roca). Es la siguiente.

Hipótesis de partida: Cuanta más proporción de costa tiene un país, más teléfonos móviles tiene respecto a los habitantes.

¿Que por qué? Podría intentar justificar la hipótesis de muchas formas: desde la mayor presencia de turismo hasta la posible calidad del servicio de telefonía… buscando recovecos y dobles vueltas… pero esta justificación la dejaré, mejor, para el final. Dejaré el objetivo de mi estudio como una sorpresa final. ¿Os parece?

Metodología
Para llevar a cabo el estudio he tomado un total de 12 países al azar. He separado la lista total de países en dos: aquellos que tienen una proporción de costa superior al 50% y aquellos que la tienen igual o inferior a dicho valor. De ese modo, he seleccionado por extracción azarosa seis países de cada grupo. Con este método evito los sesgos de información y dejo la estadística más o menos equilibrada, asegurándome que la mitad de mis países son de "poca costa" y la otra mitad de "mucha costa".

Gracias a la Wikipedia en español, he podido obtener el dato del número medio de teléfonos móviles por habitante de cada uno de esos países.

Posteriormente se compararán los datos de costa y móviles de cada país entre sí y con el resto de países, para así comprobar si nuestra hipótesis de partida se confirma, si ocurre justo lo contrario, o si esos dos datos carecen de relación.

Resultados

Los países han sido ordenados de menor a mayor cantidad de costa, para que la visualización de los datos sea más directa. De entrada, viendo los datos obtenidos, aparentemente sí que hay una relación directa entre el porcentaje de costa y el número de móviles por persona, ya que desde la tabla, ambos valores crecen juntos. ¿Qué tipo de relación será? ¿Lineal? ¿Tal vez exponencial? Una gráfica nos solucionará este enigma…

Para la tabla, he representado en el eje X, la relación de países en función del porcentaje de costa, y en el eje Y el número medio de teléfonos móviles por persona. A partir de ahí, he calculado mediante la función de "linea de tendencia" de Excel, qué tipo de progresión se ajusta más a los datos, comparándo cada progresión con su valor de R², que ha presentado su máximo (R²=0,982) en una linea de tendencia exponencial; ese valor de R²es un ajuste extremadamente bueno. A partir de la ecuación, que el propio Excel sabe calcular muy acertadamente, y que es Y=0,379e^1,619x podemos calcular cuáles son los datos esperados, y de ese modo, hemos calculado un error para cada uno de los datos, que será igual al valor absoluto de la diferencia entre los datos observados y los esperados, divididos por los datos esperados (|O-E|/E). De este modo, nos encontramos que el mayor error de nuestro estudio lo presenta Tailandia, con un 12,2%, y que el error promedio es inferior a un 4%. Como hemos dicho, el ajuste es óptimo.

¿Algo más?
Si lo dejáramos aquí, podríamos sacar directamente una conclusión muy clara. Efectivamente, una mayor presencia de costas en un país es un marcador del número de teléfonos móviles por persona que tenga ese país, siguiendo esa regla. Si cogiéramos cualquiera de los países estudiados y aplicáramos la ecuación correspondiente al porcentaje de costa, obtendríamos directamente el dato del número de teléfonos móviles por persona de dicho país, con un error medio de 4% y un máximo de 12,2%. ¿Por qué ocurre esto? No lo sabemos. Sería algo para continuar estudiando. Lo que sí que sabemos es que a mayor cantidad de costa, más teléfonos móviles por habitante.

Todo esto es muy bonito (aunque los datos que yo he tomado son datos que ya sabemos de antemano que no tienen ninguna relación), y así, de este modo, aparece en innumerables ocasiones en muchos medios de comunicación. Pero nada más lejos de la realidad. Realmente, lo que en este supuesto estudio estoy mostrando es una conjunción de errores garrafales. Concretamente, son dos errores que muchas veces nos pasan desapercibidos, y que no podemos olvidar cuando leemos noticias similares.

1. Manipulación metodológica y sesgo de información
¿Estamos seguros de que la selección de los países se realizó al azar? ¿O simplemente el investigador nos está diciendo que lo hizo al azar, y realmente manipuló la metodología para obtener, ad hoc, el resultado buscado? ¿Es el resultado extrapolable?

Para responder a estas preguntas, basta con hacer una cosa básica en ciencia. La revisión. Cuando un científico publica algo, sobre todo cuando es algo revolucionario o sorprendente, siempre hay otro u otros científicos detrás que intentarán buscarle las vueltas. Es por eso que hay que tener siempre mucho cuidado con la publicación de resultados a la ligera y revisarlo todo correctamente para no caer en errores.

En este caso, la forma más sencilla de realizar la revisión es escoger otros doce países, de nuevo al azar, y aplicarles la fórmula mágica que según el investigador inicial relaciona la costa con los teléfonos móviles. De nuevo, hemos seleccionado doce países, seis con más del 50% de costa y otros seis con una costa menor o igual al 50%. Y esta tabla es la que hemos obtenido. Nótese que hemos agregado los datos esperados según la ecuación, y los datos observados.

De este modo podemos observar claramente la enorme diferencia que hay entre los valores observados en la naturaleza (o en la sociedad, por seguir el supuesto de este estudio) y los esperados según la fórmula del estudio original. Se puede ver claramente dónde está el sesgo de información. Si analizáramos los rangos de error sobre estos nuevos doce países, siguiendo la diferencia de observados y esperados dividida por los esperados, nos encontramos un error medio del 58,9%, siendo el mínimo error el de Sudáfrica, con más de un 20%, y el máximo el de Paraguay con un error total de más de 160%.

De la misma manera que en el estudio original, también podemos observar los datos en forma de tabla; en esta primera tabla replicaremos los resultados anteriores y añadiremos los nuevos datos superpuestos, colocando en ella tanto los datos observados como los esperados en este nuevo estudio.

Como veíamos evidente al visualizar los datos, los nuevos doce países no se ajustan de ninguna manera a la ecuación de la investigación inicial. Pero, nos queda una duda. ¿Es directamente falsa la hipótesis de partida? ¿O simplemente es errónea la conclusión, y la relación sigue siendo creciente, aunque el régimen de crecimiento sea diferente al propuesto por el investigador inicial? Intentaremos ajustar la tabla (ahora con 24 datos) a una nueva progresión.

Al realizar esta nueva tabla, vemos que la progresión que más se ajusta a los 24 datos es la lineal, pero con un ajuste mediocre (R²=0,248) y cuya fórmula aplicada como datos expresa una linea de pendiente muy baja (m=0,65; insignificante, dada la gran variación de los datos cuantitativos iniciales), generando además un error medio de 25,3% y un máximo de 58,1%; errores demasiado altos para resultar admisibles de cara a una predicción teórica.

La conclusión de hacer estas correcciones me lleva al segundo de los errores…

2. Correlación no significa causalidad
Que en un momento dado, en una gráfica dada, los datos coincidan de forma correlativa no es motivo suficiente para deducir que haya una causalidad directa de un dato sobre otro.

Es decir.

En el inicio del experimento vimos que había doce países que presentaban una correlación entre el porcentaje de costa y el número medio de teléfonos móviles por habitante.

¿Qué pasaría si realmente la norma fuera extrapolable al resto de países, es decir, que todos ellos se ajustaran a esa progresión? ¿Pensaríamos inmediatamente que hay una relación causa-efecto?

Dado que el valor de porcentaje de costa es una constante invariable, de ningún modo puede ésta ser la consecuencia de un valor variable; de modo que ha de ser la causa, ¿no?

Es decir… que la presencia de costa genera en la población la necesidad de adquirir más terminales de telefonía móvil. Relación causa-efecto. ¿no?

¿Y de qué modo? ¿En qué forma? Como expliqué al principio, podríamos dar mil vueltas y terminar buscando una relación ad hoc, para que esta regla se cumpliera. Pero eso no significaría que fuera cierto. En el momento en que hiciéramos una encuesta a los usuarios de telefonía móvil, nos daríamos cuenta de que su decisión de tener o no más o menos teléfonos es independiente a la presencia o no de costa en su país.

De hecho, ¿podríamos extender este estudio en el tiempo? En la aparición de la telefonía móvil, algunos países con mucha costa (como Filipinas) tenían muchos menos teléfonos móviles por persona que otros países con mucha menos costa (como Alemania). Este valor cambia a lo largo del tiempo, en función de nuevas necesidades, nivel adquisitivo y en ocasiones, ideologías. Sin embargo, el porcentaje de costa solo cambia en escalas de tiempo geológico, y a los rangos temporales que trabajamos en este caso comparativo, son una constante.

Como hemos dicho, correlación no siempre es causalidad. Y hay muchos casos de este tipo de enunciados en la publicidad y en las tendencias pseudocientíficas (como en la homeopatía o en la astrología, donde se ve a diario). Una correlación puede deberse a una coincidencia casual, o como hemos visto en el caso anterior, a un sesgo de la información y una manipulación de la metodología. Para que se de una causalidad, tiene que existir una causa real, y un efecto igual de real, y una cadena causal lógica y firme.