Mostrando entradas con la etiqueta Excel. Mostrar todas las entradas
Mostrando entradas con la etiqueta Excel. Mostrar todas las entradas

martes, 19 de marzo de 2013

Observaciones sobre el trabajo de estadística (regresión lineal) del semestre 2013-1

He visto que algunos tienen dudas respecto al trabajo de estadística para este semestre, en particular lo referente a la regresión lineal, que forma parte de los objetivos a evaluar para las asignaturas 745, 738 y 748.

Primero, debo aclarar, una vez más, lo siguiente:
NO ES OBLIGATORIO EL USO DE R PARA LA REALIZACIÓN DE ESTE TRABAJO.  POR RAZONES HARTO EXPLICADAS EN ESTA PÁGINA, YO RECOMIENDO EL USO DE R, PERO EL ESTUDIANTE PUEDE OPTAR POR USAR EXCEL, SAS, SPSS, MINITAB O CUALQUIER APLICACION ESTADÍSTICA (Excel es un programa de hoja de cálculo, no una aplicación para la estadística). LO QUE SE REQUIERE ES REALIZAR LAS ACTIVIDADES QUE SE PIDEN EN EL ENUNCIADO CORRECTAMENTE.
Al momento de elegir la aplicación con la cual trabajarán, deben preguntarse: ¿Qué es lo que se requiere que el estudiante realice correctamente?  Se copia la parte del enunciado detallando las actividades a realizar:

6.1. Obtener los siguientes modelos de regresión lineal múltiple,
        Modelo 1: Y = b0 + b1 X1 + b2 X2 + b3 X3 + b4 X4 + b6 X6 +b7 X7 + b8 X8 + b9 X9
        Modelo 2: Y = b1 X1 + b2 X2 + b3 X3 + b4 X4 + b6 X6 + b7 X7 + b8 X8 + b9 X9
6.2. Explicar cual de los modelos anteriores consideraría para realizar el estudio.
6.3. Estudiar la posibilidad de colinealidad o multicolinealidad en el modelo
        considerado en la pregunta anterior. Si existe, corregir este problema y obtener el
        nuevo modelo.
6.4. Partiendo del modelo obtenido en la pregunta 6.3, explicar todos los resultados
        arrojados por el programa (coeficientes y estadísticos).
6.5. Utilizar el procedimiento de regresión paso a paso (eliminación hacia atrás) para
        encontrar el modelo que mejor se ajusta. Interprete los coeficientes de este último
        modelo.
6.6. Considere una nueva variable,
        X11=(X3+X4)/2.
        Construir el siguiente modelo,
        Y = b1 X1 + b2 X2 + b7 X7 + b8 X8 + b9 X9 + b11 X11
        Realizar el procedimiento indicado en 6.5.
6.7. Explicar cual de los modelos obtenidos en 6.5 y 6.6 representa “mejor” la situación
         bajo estudio.
6.8. Realizar un análisis de residuos para los modelos obtenidos en los puntos 6.5
        y 6.6.
6.9. Explicar los fundamentos teóricos que justifican o no, todos los pasos seguidos
        desde el ítem 6.1. hasta el ítem 6.8.

Antes de elaborar el trabajo, asegúrese de manejar los fundamentos de la técnica de regresión lineal.  ¿Sabe usted qué es la regresión lineal y qué es un modelo de regresión lineal? ¿Sabe en qué consiste un análisis de residuos y cuál es la importancia de realizarlo? ¿Sabe en que consiste el procedimiento de regresión paso a paso (eliminación hacia atrás)? ¿Sabe cómo determinar la colinealidad entre dos variables? ¿Entre múltiples variables? ¿Sabe porqué es problemático  trabajar con variables predictoras que sean colineales entre sí? ¿Sabe cómo evaluar o comparar modelos y cómo esto va más allá de comparar sus coeficiente de determinación? ¿Sabe cómo interpretar un modelo de regresión lineal y determinar cuales variables predictoras son significativas? ¿Sabía que las variables categóricas no se pueden utilizar directamente como variables cuantitativas sin antes transformarlas en variables indicadoras?

He puesto a su alcance ciertos recursos que serán de utilidad.  En la parte inferior de la página http://unamatematicaseltigre.blogspot.com/p/estadistica-aplicada.html podrán ubicar la bibliografía más relevante.  Los capítulos 13 y 14 del Canavos tratan en detalle el tema de la regresión lineal, incluyendo información detallada sobre el problema de la multicolinealidad, las variables indicadoras y el análisis de residuos.  El Webster no es tan extenso, pero lo menciono porque es el texto principal de la asignatura.  Además de esto, he escrito una monografía sobre el análisis de residuos cuya lectura recomiendo.

Me he dedicado laboriosamente a poner a su alcance varias herramientas computacionales y guias tutoriales sobre su uso.   Consideren estos recursos cómo herramientas- su buen uso depende del criterio de ustedes y de lo que desean realizar.  Si optan por usar R y la librería estUNA que he creado para tal fin, estudien detenidamente los siguientes recursos:


Si optan por usar R con mi librería y presentan problemas con su descarga o uso, deben describir detalladamente el error que presentan.  Si sólo me indican que "no logran usar el R", o "me sale un error", sin indicar la secuencia de comandos que están intentando ejecutar, cuál es la salida del interprete y el aviso de error, cuál plataforma/sistema operativo o versión de R están usando, no les puedo ser de mucha ayuda.  Tampoco haré el trabajo por ustedes.


Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.

lunes, 5 de noviembre de 2012

Sobre las variables aleatorias continuas, ecuaciones de dibujitos y la moda.

En esta entrada quiero abordar el cálculo de probabilidades para variables aleatorias continuas. Las variables aleatorias continuas son aquellas que asumen todos los valores posibles en algún segmento o porción de la recta real. Para efectos prácticos, sabemos que estamos en presencia de una variable aleatoria contínua cuando los valores u observaciones de dicha variable contienen cifras decimales. Esto último es una regla generalmente válida pero no universal. Por ejemplo, para el trabajo práctico del semestre 2012-1, la variable X7 (Índice de Actividad Física) tiene como posibles valores 1, 1.2, 1.4, 1.6 y 1.8, pero no es una variable continua (aunque sus valores contienen decimales). De hecho, esta variable X7 es una variable ordinal - sus valores se corresponden a grados de actividad física (desde sedentaria hasta muy alta) en una escala ordinal. Además, las 150 observaciones de esta variable asumen algunos de estos 5 posibles valores y no aquellos con otros decimales, como 1.27465, por dar un ejemplo

Aclarando un poco lo anterior, las variables continuas generalmente se corresponden a los tipos de escala "proporcional" o de "intervalo", para las cuales es posible establecer comparaciones de proporción como "la edad de x es el doble de la edad de y", o "el salario mensual de y es una cuarta parte del salario mensual de z". Este tipo de comparaciones no se puede hacer con las variables ordinales ni mucho menos con las variables nominales o categóricas. Por ejemplo, con respecto a la variable X7, no podemos afirmar que una persona con un índice de actividad física de 1.2 (actividad física ligera, hace deporte 1 a 3 veces por semana) tiene un 20% más de actividad física que una persona con índice 1 (sedentaria). Por ser comparables en términos de proporción, estas variables se pueden promediar. De modo que las variables contínuas tienen la media, la mediana y por supuesto la moda como medidas de tendencia central. Volveremos sobre este punto a lo largo de esta entrada. Por ahora vamos a analizar cómo se calculan probabilidades para este tipo de variables. 

En primer lugar, las variables aleatorias continuas tienen algo que se conoce como función de densidad. Es importante acotar que, a diferencia de las variables aleatorias discretas en donde calculabamos probabilidades puntuales mediante la función de probabilidad puntual, para variables continuas la función de desidad no nos permite calcular probabilidades directamente.  Sin embargo, la función de densidad nos caracteriza la distribución de frecuencias de una variable y a partir de ella se deriva la función de distribución de probabilidad acumulada, con la cual sí podemos calcular probabilidades.

 Para las variables uniformes, la función de densidad es constante en un intervalo de valores. La función de densidad exponencial es f( x ) = 1 β e x β para todo x>0. La función de densidad normal es algo más complicada que la función de densidad exponencial y no vale la pena dar su forma explícita aqui. Lo importante es familiarizarse con los tipos de gráficas de estas funciones de densidad:


Fig. 1a - variable uniforme

Fig. 1b - variable exponencial

Fig. 1c - variable normal

Comentando un poco las figuras de arriba, podemos notar que la distribución uniforme distribuye la probabilidad de manera equitativa a través de todo su rango. Por tal razón, el valor esperado de esta variable se ubica en todo el centro del intervalo (5,10), para el ejemplo de la figura 1a (ver la entrada en este blog: "¿Cómo se calcula un valor esperado?"). En la uniforme, que es una distribución simétrica, la media y la mediana coinciden (son iguales a 7.5 para el ejemplo de la figura 1a). Como la función de densidad es uniforme, todos los valores entre 5 y 10 son modales. Por razones de simétría, podemos asumir el valor de 7.5 como el valor modal "más representativo". La distribución exponencial no es simétrica- podemos ver que la mayor densidad de probabilidad está acumulada hacia la izquierda (ver figura 1b). La moda, o el valor con mayor densidad de probabilidad asociado, es el 0 (puede observar que ese es el punto donde la densidad es mayor). La normal es otra distribución simétrica, caracterizada por su típica forma acampanada (ver figura 1c). Para la normal, media, moda y mediana coinciden justo en "el punto de la campana más alto". Nótese que TODA variable aleatoria contínua tiene moda, o por lo menos, un valor modal.

En los cursos introductorios de teoría de probabilidad (asignaturas 737, 745 y 747 de la UNA), vemos algunas distribuciones continuas y cómo calcular probabilidades respecto a estas distribuciones.  La finalidad de esto es reconocerlas como modelos matemáticos de algún fenómeno real y poder así inferir sobre la realidad en base a nuestro modelo matemático.  Por ejemplo, al observar el histograma de frecuencias para la variable X2 (trabajo práctico 2012-1) en la figura 2,


Fig. 2 - histograma de X2

uno podría sospechar que la variable X2 (edades de 150 niños de una muestra) es uniformemente distribuida: las frecuencias de los intervalos de clase, indicadas por las alturas de las barras de la gráfica, son más o menos iguales.  De hecho, tendría mucho sentido escoger una muestra de 150 niños de modo que todos los grupos de edades tuviesen igual representación (frecuencia).  En los cursos de inferencia estadística (asignaturas 746 y 738/748 de la UNA), se estudian técnicas para comprobar si la distribución de frecuencias de una muestra es lo "suficientemente parecida" a alguna distribución de probabilidades específica.  Estas técnicas se conocen como "contrastes de bondad de ajuste".

Para calcular probabilidades de tipo "calcúle la probabilidad de que una variable contínua X asuma valores entre a y b", necesitamos conocer lo que se llama la función de distribución de probabilidad (acumulada).  La función de distribución de probabilidad, denotada por F(x) ("F mayúscula de X", a no confundir con f(x), que es la función de densidad) es básicamente la integral de la función de densidad. Sin embargo, como los que cursan las carreras de contaduría y administración, en cuyo pensum de estudio no figura el cáculo integral, en los formularios se dan directamente las fórmulas o las tablas que nos permiten trabajar con la función de distribución directamente.  Por ejemplo, a continuación damos las fórmulas par las funciones de distribución de la variable uniforme y exponencial:

Función de distribución
uniforme

F ( x ) = P ( X x ) = 0 x < a ( x a ) ( b a ) a x b 1 x > b
    
Función de distribución
 exponencial 


F ( x ) = P ( X x ) = 1 e x β


Estas fórmulas de arriba figuran en el formulario de la UNA como las fórmulas 49 y 55.  Por ejemplo, si queremos calcular P(X<4), para una variable X exponencialmente distribuida con parámetro β=2, enchufariamos el 4 y el 2 como valores para x y β, respectivamente, en la fórmula de arriba, obteniendo así P(X<4)=0,8646.  Obsérvese que en la gráfica debajo de la fórmula donde se sombrea toda el área bajo la curva de la exponencial desde x=0 hasta x=4, el área sombreada se corresponde al 86% del área total bajo toda la curva, que siempre será 1 para cualquier variable aleatoria.

En efecto, podemos hacer una analogía entre "probabilidad" y "área bajo la curva de densidad" que nos permitirá fácilmente calcular probabilidades respecto a cualquier variable aleatoria contínua.  Esto es algo así como el equivalente probabilístico de los diagramas de Venn en teoría de conjuntos.  Siempre ha de recordarse que para cualquier función de densidad, el aŕea total bajo la curva en todo el rango de la variable es 1.  La función de densidad nos indíca como se distribuye la probabilidad total de 1 a través de todo el rango de valores de la variable.

Explotando esta analogía, les propongo a continuación una técnica visual para facilitar el cálculo de probabilidades que he llamado "ecuaciones con dibujitos".  Supóngase por ejemplo que queremos calcular P(X>4) para una variable X exponencialmente distribuida.  Revisando la fórmula 55, notamos que solo nos permite calcular probabilidades de tipo P(X<x), y nosotros necesitamos que la desigualdad sea al contrario (P(X>4)).  Sin embargo, podemos utilizar la fórmula 55 si nos damos cuenta que P(X<4) es el área bajo la curva exponencial desde 0 hasta 4.  Teniendo en cuenta que P(X>4) es el área bajo la curva exponencial desde 4 hasta infiníto, y que ambas áreas suman a 1, tenemos la siguiente ecuación de dibujitos:

Esta ecuación de dibujitos se interpreta como sigue: "para calcular P(X>4), tenemos que restarle el área (sombreada) bajo la curva a la izquierda de 4 al área total bajo la curva exponencial, que es igual a uno".  De este modo, la ecuación de dibujitos nos sugiere como calcular P(X>4) a partir del valor de P(X<4) que podemos calcular a partir de la fórmula de la función de distribución de probabilidad acumulada.

Proponemos otro ejemplo de cálculo de probabilidades referente a una distribución uniforme entre 10 y 20.  Supóngase que esta vez estamos interesados en calcular P(12<X<16). Puesto que la fòrmula 49 de la función de distribución de probabilidad uniforme sólo nos permite calcular probabilidades de tipo P(X<x), o equivalentemente, areas bajo la curva de densidad uniforme ubicadas a la izquierda de la distribución, podemos plantear una ecuación de dibujitos que nos permita orientarnos en el cálculo:

Así, para este ejemplo, P(12<X<16)=P(X<16)-P(X<12)=0.6-0.2=0.4.  En resúmen, podemos plantear cualquier cálculo de probabilidades respecto a variables contínuas como un cálculo con sumas y restas de áreas (sombreadas) bajo la curva.

Para las variables normálmente distribuidas no se dá explícitamente la fórmula de la función de distribución de probabilidad acumulada F(x), puesto que para el caso de la normal, la función de densidad f(x) no tiene primitiva (no es posible calcular su integral indefinida analíticamente).  Por esta razón, el cálculo de probabilidades para la distribución normal involucra el uso de tablas, donde se encuentran tabulados los valores F(x) para distintos valores de x.  El cálculo de probabilidades normales será abordado en una entrada futura en este blog.  Como se verá, las ecuaciones de dibujitos son particularmente útiles en ese contexto también.

Mientras tanto, volvemos sobre el tema de la moda en el contexto de las variables aleatorias continuas.  En los trabajos prácticos de la asignatura 745, muchos de ustedes utilizan la función MODA de Excel para calcular la moda de una muestra para datos no agrupados.  Generalmente, esta función en Excel arroja "#NA" como respuesta, lo cual se interpreta como "no disponible".  De ahí, muchos estudiantes infieren erroneamente que la variable en cuestión no tiene moda, o que la moda no existe para esta variable.  Esto es desde luego un error, pues toda variable aleatoria tiene por lo menos un valor modal (en el caso de la uniforme, todos sus valores son modales).  ¿Porqué Excel no puede calcular la moda para algunas variables?

Veamos la cuestión un poco más a fondo.  La función MODA de Excel simplemente devuelve el valor que más se repite entre un conjunto de valores.  Cuando ningún valor se repite, la función MODA devuelve "#NA".  Esto no significa que la variable en cuestión no tenga moda, simplemente nos indica que ningún valor de la muestra se repite.  El problema es que cási siempre, cuando trabajamos con poblaciones con distribuciones de probabilidad contínuas, ningún valor de la muestra se repite y si esto sucede, es debido a errores de medición o truncamiento decimal.

La razón por la cual ningún valor se repite en una muestra proveniente de una población con distribución continua tiene que ver con el hecho que para toda variable aleatoria continua, cualquier probabilidad puntual de tipo P(X=x) es necesariamente igual a cero.  Para visualizar intuitivamente este hecho, planteamos el cálculo de una probabilidad puntual mediante una ecuación de dibujitos:


El ejemplo de arriba está referido al cálculo de P(X=100) para una variable aleatoria normal con media igual a 100.  Como el resultado de la resta de las dos areas sombreadas es el área equivalente a la superficie de un segmento de recta - y puesto que los segmentos de recta tienen área nula (la recta es un área infinitamente delgada) - se puede ver que la probabilidad P(X=100) es necesariamente igual a cero ¡aún cuando paradójicamente, la media de la variable es igual a 100!

Para las variables aleatorias continuas, no se puede calcular la moda como "aquel valor que más se repite", puesto que todas las probabilidades puntuales son iguales a cero. Por lo tanto, la función MODA de Excel no puede calcular el valor modal para este tipo de variables ¿Qué hacer entonces?

Primeramente, para el caso de las variables continuas, la definición de la moda como el "valor con mayor frecuencia asociada" no es del todo correcta, o es correcta sólo en parte.  Para estas variables, la moda es aquel valor con mayor densidad de probabilidad asociado y debemos tener presente que "densidad de probabilidad" no es lo mismo que "probabilidad".  Para calcular la moda muestral en tales casos, sería necesario estimar esta función de densidad de probabilidad en base a la muestra (lo que se conoce como el kernel o núcleo de densidad) y determinar el punto para el cual esta densidad se hace máxima.  Y esto, claramente, es algo que no hace el Excel.  Por lo tanto, la alternativa sería usar un programa para estadísticas "de verdad".

En R, usando mi librería estUNA, esto es bastante fácil de hacer.  Por ejemplo, si queremos calcular la moda de la variable X2 cuyo histograma es el de la figura 2 arriba, esto se haría mediante el comando resumen(X2), cuya salida devuelve toda clase de medidas estadísticas de la variable X2, incluyendo la moda de dicha variable, o utilizar el comando moda(X2), que devuelve sólamente la moda.  Para esta variable en partícular, la moda es de 7,323183, lo cual se indica mediante la línea vertical roja en el histograma de la figura 2.

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.