Mostrando entradas con la etiqueta Tufte. Mostrar todas las entradas
Mostrando entradas con la etiqueta Tufte. Mostrar todas las entradas

martes, 25 de diciembre de 2012

Consideraciones sobre la visualización de datos- parte 1

Este semestre, he visto algunos trabajos de Estadística General (745) en los cuales se incluyen las famosas gráficas de torta tridimensionales. Aunque en el sitio anterior de unamatematicaseltigre había escrito sobre esto, vuelvo a publicar el post original en esta página agregándole otras aclaratorias. Esta será la primera de una serie de entradas sobre las técnicas de visualización alternativas o más adecuadas para la data cualitativa, que es la materia prima de la denominada "investigación cualitativa" de las humanidades y las ciencias sociales. Estudiantes de educación, estudiantes de administración y contaduría, este tema es de interés para ustedes. Trataré de mantener el contenido matemático al mínimo necesario para hacer su lectura menos árida. Pero antes, permítanme expresarles mi opinión sobre las gráficas de torta tridimensionales. Iré directamente al grano: las gráficas de torta tridimensionales son malas. No sirven.

¿Porqué no sirven las gráficas de torta tridimensionales? ¿No indican también el 100% de los datos?

El propósito de las gráficas de torta es comunicar visualmente las proporciones que se corresponden a los tamaños de varios subgrupos dentro de una población. Para poder elaborar una gráfica de torta, se supone que:
  • Tenemos una variable con una cantidad determinada de valores o atributos que esta puede asumir en la población bajo estudio.
  • Cada individuo de la población se asocia a exactamente uno entre los atributos de la variable. Un individuo no puede asociarse a dos o más de estos atributos. Por ejemplo, si la variable es el género, cada uno de los individuos de la población bajo estudio, o es de sexo masculino o de sexo femenino, pero no hay individuos de ambos sexos o ninguno.
  • Podemos clasificar a la totalidad de la población en grupos de individuos con el mismo atributo de la variable y calcular el porcentaje de la cantidad total de individuos correspondientes a cada uno de esos grupos. Aunque parezca obvio, hay que enfatizar que las gráficas de torta siempre se refieren a la distribución del 100% de la población en varios subgrupos según los atributos de una variable.
Con respecto a la última observación, quiero traer a colación una gráfica de torta que apareció en un noticiero norteamericano. El propósito de esta gráfica era mostrar cuantos encuestados apoyaban a determinado candidato para las elecciones primarias del partido Republicano en Estados Unidos:

worst-pie-chart-ever.png


La característica más deplorable de esta gráfica es que los porcentajes suman a 193%. Obviamente, la encuesta fue hecha de forma que los encuestados podían responder que apoyaban a más de un candidato (algunos quizás a los tres candidatos, inclusive). Sin embargo, el uso de una gráfica de torta para visualizar los resultados de tal encuesta es sencillamente equivocado. Por definición, una gráfica de torta muestra los porcentajes de las categorías en base al 100% de la data porque se supone que las categorías son mutuamente excluyentes y cada uno de los individuos de la población se asocia a una sola categoría. Esto excluiría la posibilidad de que algún encuestado responda que apoya a Pallin y a Romney, por ejemplo. Consecuentemente, el uso de una gráfica de torta para esta encuesta queda descartado y deja muchas incógnitas sin responder: ¿cuantos encuestados apoyan únicamente a uno de los tres candidatos del partido? ¿cuantos encuestados no apoyan a ninguno de los tres candidatos?

No se me ocurre de buenas a primeras una buena alternativa a la gráfica de torta para la visualización de los resultados de esta encuesta. Todo depende de la "idea" que realmente se quiere comunicar. Quizás los comunicadores sociales tenían simpatías hacia Pallin y consecuentemente mostraron una gráfica según la cual la "mayoría" apoyaba a esta candidata, aunque hay otros elementos en la gráfica que refutan esa idea (volveré sobre ese tema más adelante en esta entrada). Es posible que si mostrasen los resultados correspondientes a cuantos de entre los encuestados que apoyaban a un único candidato, apoyaban a Pallin, Romney o Huckabee, la gráfica hubiese sido muy distinta, pero por lo menos hubiese sido una gráfica de torta legítima (porque las categorías en este caso sí son mutuamente excluyentes).

Bien, aún no he abordado el tema inicial de esta entrada: ¿porqué no sirven las gráficas de torta 3d? La gráfica de torta permite visualizar los porcentajes de cada categoría mediante la comparación visual del tamaño respectivo de los pedazos de la torta. Es decir, la lectura de una gráfica de tortas consiste en comparar el área o la magnitud de distintas superficies y en esto el ojo humano no es particularmente eficaz. Considere por ejemplo esta gráfica:
pie.png

Viendo la gráfica de arriba, intente responder las siguientes interrogantes: ¿Cual de las dos categorías, azul (2) o roja (1), tiene mayor porcentaje? ¿Podría usted ordenar la categoría negra (5), verde (3) y amarilla (4) de mayor a menor porcentaje? La respuesta a estas preguntas se hace más evidente al observar el diagrama de barras equivalente:

bar-graph.png

Insisto- el diagrama de barras de arriba es equivalente a la gráfica de torta anterior; ambos se elaboraron con la misma data. Sin embargo, el diagrama de barras visualiza mejor las diferencias entre las proporciones de cada categoría. ¿Porqué?

Es más fácil comparar longitudes que superficies. Mientras mayor dimensionalidad, más difícil se hace establecer las comparaciones. Por esta razón, muchos especialistas desaconsejan el uso de gráficas de torta. Algunos inclusive las detestan:

Las tablas son preferibles a las gráficas para conjuntos pequeños de data. Una tabla es casi siempre mejor que una estúpida gráfica de torta; lo único peor que una gráfica de torta es varias de ellas, pues entonces se requiere que el lector compare magnitudes ubicadas desordenadamente tanto dentro de las tortas como entre las tortas. Dada su baja densidad de data y la ineficacia en ordenar magnitudes a lo largo de una dimensión visual, las gráficas de torta nunca deberían ser empleadas."
The Visualization of Quantitative Information, p. 178
Edward Tufte

No queriendo asumir una posición tan radical en torno a las gráficas de torta y admitiendo que aún en ciertos casos pueden ser de alguna utilidad, mi idea es advertir sobre algunos problemas en el uso de este tipo de gráficas. Como regla general, la comparación de magnitudes se dificulta a medida que las visualizamos en más dimensiones. Con las gráficas de torta tridimensionales yo trazo la línea- nunca deberían de utilizarse. Considere por ejemplo, este par de gráficas tridimensionales referidas a las elecciones parlamentarias del 2010 en Venezuela, en la cual se visualizan los porcentajes de votos atribuidos al oficialismo y a la oposición.
torta-pro-chavismo.png
torta-pro-oposición
Ambas gráficas visualizan los mismos resultados: el 52% de los votos fueron para la oposición y el 48% de los votos para el oficialismo. Sin embargo, como las graficas se presentan en perspectiva (tridimensional), la percepción que inducen sobre el lector es muy distinta- en la gráfica de la izquierda, el oficialismo parece haberse hecho con la mayoría de los votos mientras que en la gráfica de la derecha, la oposición luce con una mayoría abrumadora. Al examinar ambas gráficas a la luz de los porcentajes en base a los cuales fueron elaboradas (52 y 48 porciento), se hace evidente que ninguna presenta la información de manera objetiva, pese a que (insisto sobre ello) fueron elaboradas en base a los mismos porcentajes.
Cuando representamos objetos tridimensionales sobre una superficie bidimensional, los objetos que están ubicados hacia adelante lucen mayores que los que están ubicados atrás, por razones de perspectiva. Las gráficas de torta tridimensionales siempre serán engañosas porque las categorías presentadas al frente lucirán un poco más grandes que las categoráas al fondo de la gráfica. Aunque se coloquen los porcentajes sobre cada sector, podemos engañar al lector según la o las categorías que presentamos en primer plano en una gráfica de torta 3D. Con esto volvemos a la gráfica de torta tridimensional de Foxnews presentada al principio de esta entrada. Habíamos especulado sobre la posible intención del noticiero de promover a la candidata Pallin como mayoritaria, según la definición de las categorías utilizada para construir la gráfica (que no era apropiada puesto que no sumaban a un 100%). Sin embargo, en vista de que los otros dos candidatos se presentan en colores similares (azul y verde) hacia el primer plano de una gráfica 3d ligeramente inclinada, quizás se quería lo contrario: promover a los otros dos candidatos distintos a Pallin. Personalmente, no creo que quien elaboró la gráfica tenía con alguna intención o agenda oculta- simplemente ignoró los principios básicos de la estadística descriptiva y el sentido común.


Referencias bibliográficas

  1. Kosara, R. (12/01/2012). Understanding Pie Charts. Publicado en: http://eagereyes.org/techniques/pie-charts
  2. Tufte, E. (2001). The Visualization of Quantitative Information. Second Edition. Graphic Press.
  3. Yau, N. (26/11/2009). Fox News Makes the Best Pie Chart. Ever. Publicado en: http://flowingdata.com/2009/11/26/fox-news-makes-the-best-pie-chart-ever/

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.