martes, 13 de mayo de 2014

Técnicas de visualización de datos a ser utilizadas este semestre

En este lapso académico se les pide a los estudiantes de Estadística General (745) realizar diagramas de tallo y hoja, ojivas de frecuencia y diagramas de caja como parte de las actividades prácticas del objetivo 1. En esta entrada, hablaré un poco sobre estas técnicas de visualización de datos y como se implementan en R / estUNA.



Diagramas de tallo y hoja


Los diagramas de tallo y hoja fueron ideados por John Tukey, un renombrado estadístico estadounidense conocido por otras tantas técnicas de visualización de datos como los diagramas de caja, que también se utilizarán en el trabajo práctico de la 745 para el semestre 2014-1.

Los diagramas de tallo y hoja se basan en agrupar datos cuantitativos según los dígitos de cada valor. La columna de la izquierda en el diagrama de tallo y hoja contendrá los dígitos comunes al grupo correspondiente a la derecha. La columna de la izquierda contiene lo que se denominan los tallos, que son el grupo de dígitos más significativos de la representación decimal de cada valor. La columna de la izquierda contiene los siguientes dígito (menos significativo) para las observaciones con el mismo grupo de dígitos significativos indicado en el tallo- estos son las hojas. Las observaciones se redondean al dígito cuyo lugar representa la hoja. Entre la columna de tallos y hojas hay un caracter de separación, usualmente una línea vertical como esta: |.

A modo de ejemplo, considérese el vector de observaciones x:

> x
 [1] 50.15886 21.76843 54.37469 50.81199 50.84726 23.26372 50.78665 50.83612
 [9] 58.16413 50.95605 50.90962 50.28626 73.72907 50.60134 51.67277 77.72239
[17] 50.40217 50.06982 37.21745 50.52507 50.63772 50.92666 49.98095 69.97754
[25] 50.09227 50.56210 62.32098 50.17898 50.56876 50.02068 50.45380 58.23187
[33] 50.55260 50.60741 58.30804 77.89047 50.03048 50.71370 32.79830 33.70865
[41] 50.25847 50.78177 50.15337 74.58174 50.53656 50.33758 39.51859 77.45064
[49] 50.03587 50.67190


Para construir el diagrama de tallos y hojas, debemos primero decidir cuales dígitos de cada observación serán los tallos y cuales serán las hojas. Tenemos cincuenta observaciones entre un rango de 20 y 80. Tomaremos los dígitos de las decenas como los tallos. Para las hojas, tomaremos los dígitos de las unidades, habiendo redondeado previamente cada valor en las unidades. Es preciso redondear y ordenar las observaciones:

> sort(round(x))
 [1] 22 23 33 34 37 40 50 50 50 50 50 50 50 50 50 50 50 50 50 50 51 51 51 51 51
[26] 51 51 51 51 51 51 51 51 51 51 51 51 51 52 54 58 58 58 62 70 74 75 77 78 78


En R, generamos los diagramas de tallo y hoja mediante la instrucción "stem". No tenemos que realizar la operación previa de redondeo y ordenamiento: esto lo realiza la misma instrucción stem. Sólo se incluye el vector con redondeos y ordenado para que el estudiante pueda entender cómo se generan este tipo de gráficas. Coteje los valores redondeados y ordenados arriba con el resultado de la instrucción stem:

> stem(x)

  The decimal point is 1 digit(s) to the right of the |

  2 | 23
  3 | 347
  4 | 0
  5 | 0000000000000011111111111111111124888
  6 | 2
  7 | 045788


Como podemos observar, hay dos valores en la muestra con decenas de 2: 22 y 23. Estas observaciones se indican en la primera fila del diagrama: 2 | 23. La siguiente fila se corresponden a las observaciones cuyo dígito más significativo es el 3: 33, 34 y 37. El siguiente dígito más significativo de cada observación se indica a la derecha de la barra vertical |. En esencia, el diagrama de tallo y hoja representa cada observación como un dígito en cada fila, y las filas representan las observaciones cuyo dígito más significativo es el indicado. El diagrama de tallo y hojas viene siendo como un histograma de frecuencias dispuesto de arriba hacia abajo. Actualmente, los diagramas de tallo y hoja no se utilizan mucho, pero en una época en que los computadores no tenían capacidades gráficas y solo se podía visualizar la información en un terminal de puro texto, los diagramas de tallo y hoja eran una alternativa para visualizar los datos- un histograma de frecuencias para pobres si se quiere. Compare el diagrama de tallo y hoja con el histograma de frecuencias para los mismos datos:

La función stem en R genera los diagramas de tallo y hoja. Mediante el parámetro scale de esta función podemos controlar en cuantas filas subdividimos los datos. Por defecto, scale es igual a 1. Para esta data, si duplicamos scale tambien duplicamos el número de filas. Con un parámetro scale de dos, el diagrama de tallo y hoja sería como sigue:

> stem(x,scale=2)

  The decimal point is 1 digit(s) to the right of the |

  2 | 23
  2 |
  3 | 34
  3 | 7
  4 | 0
  4 |
  5 | 0000000000000011111111111111111124
  5 | 888
  6 | 2
  6 |
  7 | 04
  7 | 5788


En el diagrama superior, se puede observar que hay dos filas para cada dígito significativo: una fila contendrá las observaciones con el siguiente dígito entre 0 y 4 y la siguiente fila las observaciones con el siguiente dígito entre 5 y 9. Así por ejemplo, hay dos filas con un 5 a la izquierda- la de arriba contiene las observaciones que comienzan por 50 - 54 y la siguiente las observaciones entre 55 y 59.  Se puede apreciar que ambas filas representan la clase modal de los datos.


Ojivas de frecuencia

Las ojivas de frecuencia son esencialmente gráficos que visualizan las frecuencias acumuladas de una variable. En el eje de las X se disponen los distintos niveles de la variable a graficar (o equivalentemente, los límites de clase de los intervalos en los cuales uno agruparía las observaciones para hacer un histograma de frecuencias) y en el eje de las Y se colocan las frecuencias absolutas acumuladas. Mi librería estUNA dispone de una función para graficar ojivas. Su sintaxis es ojiva(x,intervalos), en donde x es la variable a graficar e intervalos es un número indicando el número de clases, un vector numérico indicando los límites de las clases o alguno de los siguientes valores alfanuméricos:

sturgesparticionamiento en clases según la regla de Sturges
sturges.rla regla de Sturges mejorada que usa R
fdLa regla de Freedman-Diaconis
scottLa regla de Scott

Por ejemplo, para construir una gráfica de ojiva de la variable X1 en el dataset del 2014-1, colocamos la siguiente instrucción.

> attach(d20141)
> ojiva(X1)



Diagramas de Caja


Los diagramas de caja, o boxplots, son otras de las técnicas de visualización de datos ideada por John Tukey. En ellos, se presentan las medidas de posición más importantes de una serie de datos: el primer cuartíl, la mediana y el tercer cuartil. Estas tres medidas se visualizan como una caja dispuesta verticalmente (de ahí deriva su nombre). El borde inferior de la caja es el primer cuartil, el borde superior de la caja es el tercer cuartíl y la mediana se visualiza como una línea horizontal que divide la caja.  La posición relativa de la línea mediana respecto a los otros dos cuartiles ya de por sí es una indicación de la asimetría de una distribución. Si la mediana está más cerca del primer cuartil, la distribución es asimétrica hacia la derecha. En caso contrario, si la mediana está más cerca del tercer cuartil, la distribución es asimétrica hacia la izquierda.

Los diagramas de caja también sirven para visualizar los datos atípicos. Lo que se denominan los bigotes del diagrama de caja son los límites de atipicidad moderada. De hecho, el bigote superior por ejemplo se corresponde al valor observacional más alto (supremo) que es menor a 1.5 veces el rango intercuartílico más el tercer cuartíl. Los valores que se encuentran más allá de los límites de la atipicidad moderada, los datos atípicos efectivamente, se visualizan como puntos redondos arriba o abajo de los bigotes. Por ejemplo, para la variable X7 del dataset del semestre 2014-1, el diagrama de caja se obtiene como sigue:

> caja(X7)

Extrayendo las medidas de posición de esta variable a partir de los resultados de la instrucción resumen(X7) en R, observamos lo siguiente:

 Medidas de Posicion
  Minimo     :  85
  Cuartil 1  :  97
  Mediana    :  99
  Cuartil 3  :  100
  Maximo     :  102

 Valores Atipicos
  Moderados :
Ninguno
  Extremos  :
 #9 #10  #6  #7  #8
 85  85  87  87  87

 Medidas de Forma
  Coeficiente de asimetria  :  -1.735933


Como ejercicio, observe el diagrama de cajas de arriba y establezca las correspondencias entre lo que se visualiza allí y la información en este resumen. Les invito a que hagan sus preguntas y discutan e interpreten estos resultados en los comentarios a esta entrada.

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.

No hay comentarios:

Publicar un comentario