lunes, 25 de julio de 2016

Trabajo práctico de la 745, lapso 2016-1

Como seguramente ustedes saben, los trabajos prácticos de estadística pasaron a ser evaluaciones formativas desde hace algunos semestres. A partir de entonces, el objetivo 1 de Estadística General (745) se evalúa en la primera parcial y en la integral. Aunque ya no es necesario entregar un trabajo práctico cómo tal ni recibirá una calificación departe mía, yo les recomendaría realizar las actividades contempladas en el enunciado del trabajo, que fueron publicadas aqui. La razón de mi recomendación es porque en este semestre, las actividades del trabajo práctico contemplan la elaboración de diagramas de caja y de torta. Mi olfato docente me obliga a avisarles sobre esto e invitarlos a que continúen leyendo esta entrada, donde realizaremos juntos las actividades propuestas, no vaya a ser que las gráficas de tortas y de caja los agarren desprevenidos este semestre...





Sobre las gráficas de torta y de caja he escrito entradas en este blog. Sobre las gráficas de torta no he escrito cosas muy amables (ver por ejemplo ¿Porqué no me gustan las gráficas de torta. Sin embargo, es un tipo de gráfica estadística muy común y muy sencilla de elaborar. La idea básica es que si tienen data sobre una variable clasificada o agrupada en categorías (las categorías son los distintos valores que toma esta variable), entonces ustedes pueden repartir un circulo en sectores o tortas según la frecuencia absoluta o relativa de cada categoría. Para eso, deben dibujar un circulo y ubicar su punto central y a partir de ahi, trazar con un transportador ángulos de sectores que sean proporcionales a las frecuencias de las respectivas categorías. Si todo esto suena confuso, se aclarará al ver cualquier gráfica de tortas como las que vienen a continuación. En todo caso, pueden encontrar una buena exposición de cómo elaborar estas gráficas en el Módulo II, Unidad 6 de Matemática I (asignaturas 175-177 de la UNA).

Sobre los diagramas de caja, también he escrito en este blog (ver por ejemplo Técnicas de visualización de datos a ser utilizadas este semestre). Para mí, las gráficas de caja son una excelente alternativa cuando uno quiere ver como se comportan las variables de escala ordinal o de intervalo (las variables numéricas o las que por lo menos, se puedan caracterizar en términos de una relación de orden de menor a mayor). En un diagrama de caja uno puede ver tendencia central, dispersión, asimetría y valores atípicos todo en una misma gráfica con máxima economía de tinta y sin periquitos inútiles, como diría Edward Tufte. Por cierto, cuando se quiere explorar cómo se relacionan dos o más variables conjuntamente, los diagramas de caja comparativos son una excelente opción (ver por ejemplo The Lending Club, Parte II).

Por si acaso les piden elaborar un diagrama de cajas, les daré un breve how to a continuación. Para elaborar un diagrama de caja, es preciso primero calcular la mediana de los datos (no agrupados) y el primer y tercer cuartíl. Sobre el eje vertical, dibujan una caja cuya arista superior se corresponderá al tercer cuartíl y cuya arista inferior se corresponderá al primer cuartíl. En algún lugar de entre esas dos aristas de la caja, ubican la mediana dibujándola como una línea horizontal. Recuerden que el tope, el fondo y la línea de la mediana se dibujan en alguna altura (del eje Y) correspondiente a los valores del 3er cuartíl, el 1er cuartíl y la mediana respectivamente. Los bigotes de un diagrama de caja son las líneas con sus respectivos "topes" horizontales que se extienden a partir de la caja central. Para dibujar los bigotes, primero deben de calcular el rango intercuartílico o el IQR, que es la diferencia entre el tercer cuartíl y el primer cuartíl. Entonces deben verificar si hay datos atípicos, es decir valores mayores al tercer cuartil más 1,5 veces el rango intercuartílico (\(Q_3+1,5 IQR\)) o menores al primer cuartíl menos 1,5 veces el rango intercuartílico (\(Q_1-1,5 IQR\)). Si hay datos atípicos, dibujan la línea horizontal del bigote correspondiente (el superior o interior) a la altura de los límites de atipicidad mencionados anteriormente y los datos atípicos se represenrán como puntos a su altura correspondiente más allá del límite del bigote. Si no hay datos atípicos, entonces los límites de los bigotes se corresponderán a los valores máximos o mínimos de la data. Vean la gráfica de caja en la parte inferior de la entrada Técnicas de visualización de datos a ser utilizadas este semestre, donde se ilustra el caso de unos datos con valores atípicos en la parte inferior).

A continuación realizaré las actividades del trabajo de este semestre. Como es de esperar, lo hago con mi herramienta favorita - el R. He dispuesto de un script que pueden descargar aquí. Si van a utilizar el R y no saben cómo descargarlo e instalarlo junto con mi librería estUNA (que necesitarán y que contiene la data de este semestre), entonces los invito a ver el video tutorial. En otro video tutorial, por cierto, explico cómo utilizar estUNA para hacer resúmenes o gráficas de estadística descriptiva. Sólo explicaré los literales del punto 1, ya que estos se corresponden al objetivo 1 cuya ponderación es de 4 puntos. Los puntos 2 y 3 se corresponden al objetivo 2, cuya ponderación es de sólo un punto.

El primer literal del punto 1 es algo confuso, pero por lo que pude entender, ser trata de elaborar las tablas de frecuencia y las gráficas de torta de la distribución en zonas para cada uno de los tres tipos de yacimiento (X2- residuales, X3 - eluviones, X4 - aluviones). Como las variables X2, X3 y X4 son 0 o 1 según si la localización tiene yacimientos de tipo residual, eluvional o aluvional, entonces se trata de determinar la distribución de frecuencia en zonas (I, II, III o IV) para cada variable donde esa variable asume el valor de "1", indicando que es un yacimiento del tipo correspondiente (para más detalles vean el script). Para la variable X2 (yacimientos residuales), tenemos entonces la siguiente tabla de frecuencias con su respectiva gráfica de torta:

Zona01Total Zona
I162440
II132740
III152540
IV172340
Totales6199160


Para X3 (yacimientos eluvionales), tenemos:

Zona01Total Zona
I103040
II122840
III172340
IV142640
Totales53107160


Y para X4:

Zona01Total Zona
I162440
II132740
III162440
IV172340
Totales6298160

Según el análisis de las tres gráficas anteriores, hay más o menos una distribución igualitaria de los tres tipos de yacimientos en las cuatro zonas. En el segundo literal, debemos hacer las tablas de distribución de frecuencia para las variables X5 y X1, con sus respectivas gráficas de torta. Así, para X5:


X5
068
192
Total160


Según esta gráfica, la mayoría de los yacimientos son de composites sulforados. Ahora, para X1:


X1
I40
II40
III40
IV40
Total160


Como podemos ver, esta gráfica no es muy interesante, ya que simplemente nos dice que la muestra fue tomada con representación equitativa de las cuatro zonas.

En el tercer literal se nos piden las tablas de frecuencia (datos agrupados) y el histograma para las siguientes variables: X6, X7, X11, X14, X16, X17, X18 y X19. Sin embargo, sólo haremos aquí lo pedido para la variable X6.

Intervalo de claseMarcafrec.absfrec.rel
[0.1,0.15]0.125210.13125
(0.15,0.2]0.175220.13750
(0.2,0.25]0.225250.15625
(0.25,0.3]0.275160.10000
(0.3,0.35]0.325190.11875
(0.35,0.4]0.375180.11250
(0.4,0.45]0.425260.16250
(0.45,0.5]0.475130.08125

Esta variable presenta dos picos de frecuencia, uno en la clase (0.2, 0.25] y otro en (0.4, 0.45]. Cuando una distribución es bimodal o multimodal, pudiese tratarse de dos o más grupos poblacionales en una misma muestra. A pesar de ello, la distribución de frecuencias se ve bastante simétrica, con la mediana y la media coincidiendo en las clases centrales. Veamos el comportamiento de la variable X7:

Intervalo de claseMarcafrec.absfrec.rel
[0,5]2.580.05000
(5,10]7.5230.14375
(10,15]12.5240.15000
(15,20]17.5300.18750
(20,25]22.5270.16875
(25,30]27.5170.10625
(30,35]32.5150.09375
(35,40]37.5160.10000

La variable X7 no evidencia multimodalidad y parece tener una leve asimetría hacia la derecha (moda < mediana < media).

Por último, se da a continuación el diagrama de cajas para la variable X6 (cuarto literal del punto 1). No se evidencian valores atípicos para esta variable. Los invito a hacer los otros diagramas de caja para determinar si las otras variables poseen valores atípicos.


Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.