POST Nº 717
Dije en un post anterior que las prácticas de desinformación suelen usar una variedad de trucos y trampas en el manejo de los datos para manipular. Un apartado importante son los sesgos cognitivos que afectan a la percepción, tal como expliqué en esta entrada: «Doce sesgos cognitivos que debes conocer sí o sí». Ahora toca hablar de Estadística. Los datos tienen un razonamiento estadístico y probabilístico que hay que entender para no dejarse engañar. Por eso recomiendo a todo aquel que quiera sobrevivir a la guerra del relato, que adquiera cierta cultura estadística. No hablo de dominar complejos modelos matemáticos, que también se usan en esta disciplina, sino de comprender conceptos básicos.
Cité siete conocimientos básicos de Estadística que pueden ayudarte a estar mínimamente equipado/a frente a engañifas en la presentación de los datos en las noticias. Sabiendo que seguramente me faltan otros, y que cada cual tiene su propio menú, te cuento ahora «mis siete fantásticos»:
1. Entender la diferencia entre correlación y causalidad
Confundir entre correlación y causalidad es bastante habitual en las publicaciones que uno lee, en las que se afirman relaciones causales que no existen. La «correlación» significa que dos variables se mueven juntas de alguna forma (en la misma dirección o en sentido contrario), pero esta correspondencia no implica que estén relacionadas de manera causal.
Por ejemplo, que la venta de helados crezca cuando también lo hace la de refrescos indica que ambas variables están correlacionadas, pero no que una explique el comportamiento de la otra, porque la «causalidad» de ese patrón común hay que buscarla en otra variable: el aumento del calor.
Mi recomendación es que desconfíes de titulares que afirman que «X causa Y» sin evidencias de un contraste serio que lo respalde, por muy intuitiva que parezca esa relación. Y esto es relevante, porque la desinformación empieza planteando diagnósticos tramposos para después vender «soluciones» que no lo son. Más de esto, en este post: Correlación no implica causalidad: el espejismo de la élite.
2. Dar la importancia que merece al tamaño de la muestra
A menudo la muestra utilizada no es suficiente para hacer inferencias de la población que cita la noticia, lo que provoca resultados poco fiables o exagerados. Como sé que esta práctica es fuente habitual de manipulación, desconfío de las afirmaciones basadas en supuestos estudios hechos con muestras pequeñas o que no explicitan su tamaño. Insisto, hay que examinar SIEMPRE el tamaño de la muestra y cómo se extrajo, para dar crédito a una noticia que sustenta afirmaciones sensibles a partir de una supuesta investigación.
Por ejemplo. La noticia puede afirmar que «el 80% de los encuestados se manifestaron en contra de tal política», pero resulta que la muestra consultada era de ¡solo 15 personas! Afortunadamente, como ya verás después, a medida que el tamaño de la muestra aumenta, el «margen de error» disminuye (definiré mejor este concepto más adelante). O, visto al revés, un margen de error alto suele obedecer a que la muestra es demasiado pequeña o que se seleccionó siguiendo un método cuestionable.
3. Comprender el concepto de «sesgo de selección»
Mientras que el error anterior era de tamaño, este es de filtro, de cómo se extrae la muestra. Se da cuando la muestra de datos utilizada para extraer las conclusiones no es representativa de la diversidad existente en el grupo al que se refiere la noticia. Esta es una de las fuentes de manipulación más frecuentes, cuando la noticia presenta como una opinión mayoritaria las preferencias de un subconjunto de personas elegidas sin ningún criterio estadístico o, peor, seleccionadas con el sesgo del periodista o la línea editorial.
El típico titular: «Esto es lo que más preocupa a los españoles», pero resulta que la muestra que se usó para llegar a esa conclusión no se extrajo de manera aleatoria, que suele ser el método más fiable, sino utilizando un filtro sesgado por vivir en un determinado barrio o formar parte de un grupo cercano al autor del artículo.
Para evitar esto, conviene preguntar siempre cómo se extrajeron los datos y si la muestra garantiza una variedad suficiente de personas que refleje la diversidad de individuos de la población estudiada: ¿incluye individuos de diferentes edades, géneros, niveles educativos y ubicación geográfica en una proporción similar a esa población?
A veces, esos «sesgos de selección» son groseros, fáciles de detectar, pero otras veces no. Puede haber mecanismos ocultos (e inconscientes) para incurrir en ellos, desde la manera en que se han convocado los participantes hasta el canal utilizado. Por ejemplo, suponer que lo que dice un estudio basado en una muestra extraída de usuarios de Twitter —nunca la llamaré como pretende el mocoso malcriado— representa la opinión de toda la población es suponer con temeridad. O limitar la participación a un canal digital siempre va a introducir sesgos de autoselección considerables.
4. Verificar el «margen de error» y el «nivel de confianza»
Estos dos indicadores son importantes para dar credibilidad a cualquier estudio. El «margen de error» refleja cuántos puntos porcentuales puede variar un resultado, hacia arriba o hacia abajo, respecto de los datos obtenidos. El «nivel de confianza», por su parte, mide cuánto de fiables son los resultados que se presentan.
Un 95% de nivel de confianza significaría que, si se repitiera el estudio varias veces con muestras similares, en el 95% de los casos los resultados caerían dentro del «margen de error» establecido. Por ejemplo, si una encuesta dice que el 70% de la gente apoya una propuesta con un margen de error de ±3% y un nivel de confianza del 95%, eso significa que si se hicieran muchas encuestas, en el 95% de ellas daría que el apoyo estaría entre el 67% y el 73%.
Yo sería muy cauteloso con las noticias rotundas y sensibles que no aportan estos datos. Las fuentes serias siempre los dan al inferir conclusiones relevantes de una investigación.
Por darte algunas pistas en cuanto a los límites, un margen de error de hasta ±5% se considera aceptable. Y un nivel de confianza del 95% es el estándar en la mayoría de los estudios. También se acepta un 90% en algunos casos, aunque plantea más incertidumbre. Fuera de estas cotas, empieza a ser preocupante. Un nivel de confianza menor del 80% indica que hay una alta probabilidad de que los resultados no sean repetibles o que la muestra no refleja bien la población.
Si no se aportan estos indicadores, lo mínimo que pediría es que la noticia revele más información sobre el método usado para obtener esos datos y llegar a esas conclusiones: el número de participantes, cómo se seleccionó la muestra, etc. Si faltan también estos detalles, no daría crédito a lo que dice. Más que una conclusión, sería una mera hipótesis, una más de las que podría haber.
5. Saber interpretar porcentajes y proporciones
Estas son formas comunes de presentar datos, pero que pueden ser engañosas si no se contextualizan. Por ejemplo, un aumento del 50% puede parecer impresionante, pero si se trata de pasar de 2 a 3 unidades en un contexto de miles, es insignificante. Por eso, cuando se usan porcentajes siempre hay que preguntar sobre el «número base», sobre qué cantidad se está aplicando. Y este es un truco del que abusan las noticias fakes. Entender el contexto del dato (en particular, los números absolutos) es clave para darle el significado que se pretende.
También hay que detenerse en el «año base» que se usa para calcular el porcentaje. A veces se utiliza para comparar un año atípico, elegido a conveniencia, para que el cambio parezca más dramático. Por ejemplo, si la referencia usada es un período de crisis en lugar de un año habitual o cifras de tendencia a lo largo de muchos años, esos porcentajes van a ser anómalos.
No se pueden comparar datos porcentuales de grupos, dentro de una población, si se desconoce el tamaño (%) de cada grupo en la muestra. Por ejemplo, si una noticia afirma que el grupo A es más propenso que el B a cometer un comportamiento negativo porque el 20% de los comportamientos registrados son del primer grupo, y solo el 10% del segundo; habrá que averiguar qué porcentaje de la muestra de los datos registrados provenía de cada grupo. Porque si en esa muestra un 40% de los individuos eran del grupo A y solo un 10% del B, entonces la cosa cambia. Es previsible que si hay muchos más individuos del A, se registren con más frecuencia comportamientos de ese grupo, pero eso no significa que ese grupo sea más tendente a cometerlos que el B.
Insisto, los porcentajes hay que ponerlos en su contexto, compararlos con los datos correctos. Por ejemplo, puede parecer un éxito que se diga que el presupuesto dedicado a una partida social aumentó un 25% en X años, pero si el conjunto total del presupuesto en ese período creció en un 60%, entonces más que eso, es una evidencia de que esa área perdió importancia frente a otras.
6. Discernir entre los distintos tipos de «promedios»
Este es un clásico. De los trucos y errores más habituales, pero sobre esto ya se ha hablado bastante así que seré breve. Si se usan promedios para afirmar algo, hay que verificar el tipo de medida que se está utilizando, porque puede distorsionar la percepción según la naturaleza del problema que se pretende examinar.
Por si no te recuerdas, la media es el promedio aritmético (el que calculamos dividiendo la suma total entre el número de datos), la mediana es el punto medio en un conjunto de datos (la mitad de los números son superiores a la mediana y la otra mitad, inferiores) y la moda es el valor que aparece con mayor frecuencia en un conjunto de datos.
Cuando un asunto es sensible a los valores extremos, la media no es fiable. Si la distribución de los datos es muy desigual (por ejemplo, los ingresos), la media se infla de manera engañosa. En estos casos es mucho más honesto utilizar la mediana, ya que sitúa el promedio exactamente en la mitad de la población. La moda, por su parte, es útil cuando hay un valor que se repite mucho y representa bien al grupo.
7. Detectar posibles manipulaciones en los gráficos
Este es un género aparte, del que se podrían escribir libros enteros (y los hay). Es increíble la cantidad de trampas que existen para manipular los gráficos, y lo mucho que se abusa de ellas.
Una de los más comunes es trucar las escalas que se usan en los ejes. Por ejemplo, que empiecen por un valor distinto al cero, o que los intervalos entre los valores de un eje no sean regulares, ni consistentes. Esto puede provocar que el efecto visual sea manipulado en favor de la tesis que se procura defender. Un gráfico de barras con un eje Y que no comience en cero puede hacer que diferencias pequeñas parezcan enormes. O que un gráfico comience con intervalos de 10 y luego pase a intervalos de 5, va a producir una distorsión importante en la percepción de cómo evolucionó la tendencia.
Una variante de todo esto es poner juntos dos gráficos de barras o de líneas juntos para compararlos, pero resulta que usan diferentes escalas. Uno de ellos va a parecer mucho más pronunciado que el otro, cuando en realidad lo único diferente es la escala utilizada. Ocurre también que se omitan datos, que falten años y se produzcan saltos en el gráfico, que no sean continuos en el tiempo. Esto hace creer erróneamente que una tendencia es estable, es un patrón sistemático, cuando lo que realmente ha pasado es que se han excluido los datos que contradicen esa conclusión.
En el diseño gráfico hay un rosario de trucos también. A veces se usan colores fuertes y grosores exagerados en las líneas para dar más peso visual a los datos que interesan, haciendo que parezcan más importantes de lo que son. En fin, por terminar, me consta que no estamos educados en la visualización gráfica de los datos. Somos presa fácil de la manipulación, sobre todo si se hace por expertos.
Como ves, es fácil que nos mientan con los datos. Todo esto que he contado en este artículo se puede corregir conociendo los trucos y prestando muchísima atención a los detalles. Debemos formarnos, hay que adquirir cultura estadística. Espero haberte ayudado un poquito…
NOTA: La imagen es de Lukas en Pexels.com. Si te ha gustado el post, puedes suscribirte para recibir en tu buzón las siguientes entradas de este blog. Para eso solo tienes que introducir tu dirección de correo electrónico en el recuadro de «suscríbete a este blog” que aparece a continuación. También puedes seguirme en Twitter o visitar mi otro blog: Blog de Inteligencia Colectiva.
La entrada Siete conocimientos básicos de Estadística que te servirán para esquivar la desinformación se publicó primero en Amalio Rey | Blog de innovación con una mirada humanista.