Mostrando entradas con la etiqueta calculadora. Mostrar todas las entradas
Mostrando entradas con la etiqueta calculadora. Mostrar todas las entradas

miércoles, 1 de mayo de 2013

Cómo evitarse calculos tediosos en un exámen sobre regresión lineal

Unos cálculos tediosos

El objetivo 5 de la asignatura de Estadística Aplicada de la UNA (código 746) consiste en resolver problemas de regresión lineal simple. Los cálculos en sí no son muy complejos, pero sí muy tediosos cuando no se dispone de una calculadora con capacidades de regresión lineal. Algunas calculadoras científicas como la CASIO fx-85ES poseen estas funciones. Este por cierto es el modelo de mi fiel calculadora, la cual ha batallado duramente conmigo desde mis días de estudiante en la UNA (en la foto de abajo les presento a mi fiel amiga). Este modelo de calculadora es parte de una serie de modelos de la CASIO que tienen la característica de "Natural Display". Esto significa que la pantalla es un poquito más alta que la de los modelos normales porque se visualizan las expresiones matemáticas de un modo más natural o más parecido a como uno escribiría expresiones matemáticas en papel
Este tutorial se enfoca en la resolución de problemas de regresión lineal simple en calculadoras CASIO con natural display. Creo que lo mismo se puede hacer en calculadoras científicas de otras series que poseen funcionalidades de regresión lineal, pero debe consultar el manual de usuario de su calculadora o esperar a que me inspire en hacer otra entrada del blog dedicada a estas calculadoras (sin natural display). En todo caso, si no tiene una calculadora de estas (con regresión lineal), considere pedir una prestada para el examen. ¿Listo? Aquí vamos...

El menú principal de STAT en la calculadora CASIO fx-85ES

Para acceder a este menú, es preciso presionar las teclas [SHIFT] + 1⃣. A continuación se desglosa el contenido de este menú y los sub-menúes que lo constituyen:
  1. Type
    Para indicar el tipo de análisis estadístico a realizar entre las siguientes posibilidades. Las opciones más comúnmente utilizadas son la 1 (estadísticas de una variable) y la 2 (regresión lineal simple sin transformación de variables), resaltadas en rojo. Las opciones 3 a 8 se corresponden a regresión lineal con transformación de variables.
    1. 1-VAR
    2. A+BX
    3. _+cX²
    4. ln X
    5. e^X
    6. A.B^X
    7. A.X^B
    8. 1/X

  2. Data
    Esta opción permite acceder a la ventana de edición de datos, en la cual se tienen dos columnas para las variables X e Y respectivamente. Un cursor, que se puede mover mediante las teclas de flechas (ubicadas en una sola gran tecla circular en la parte superior de la calculadora), indica la celda a editar. Al principio, debe insertar los valores en las celdas presionando la tecla igual  =⃣  tras ingresar el número.
     │   X    │   Y    │
    1│     5.1│     7.2│
    2│     6.5│     8.3│
    3│     7.8│    11.7│
    4│     8.2│    16.1│

  3. Edit
    Presumo que mediante esta opción se puede insertar o borrar celdas en la tabla de datos, pero nunca la he usado.
  4. Sum
    Opciones para las siguientes sumas:
    1. ∑x²
    2. ∑x
    3. ∑y²
    4. ∑y
    5. ∑xy
    6. ∑x³
    7. ∑x²y
    8. ∑x⁴

  5. Var
    Medias muestrales y desviaciones estándar para las variables X e Y.
    1. n     Número de renglones de los datos.
    2. x̄     Media muestral de X
    3. xσn   Desv. estándar de X (con numerador n)
    4. xσn-1 Desv. estándar de X (con numerador n-1)
    5. ȳ     Media muestral de Y
    6. yσn   Desv. estándar de Y (con numerador n)
    7. yσn-1 Desv. estándar de Y (con numerador n-1)

  6. MinMax
    Permite obtener los valores máximos y mínimos para x e Y, según la data tabulada. No se utiliza en los ejercicios de regresión lineal simple.

  7. Reg
    Este sub-menu da acceso a algunos parámetros importantes en la regresión lineal:
    1. Estimación del coeficiente A en el modelo Y=A+BX.
    2. Estimación del coeficiente B en el modelo Y=A+BX.
    3. Estimación del coeficiente de correlación múltiple.
    4. x̂ Predicción para X según un valor de Y dado.
    5. ŷ Predicción para Y según un valor de X dado.
    Para obtener el coeficiente de determinación se debe elevar esta cantidad al cuadrado.

Ejemplo de regresión lineal simple

Como ejemplo, ingresamos los siguientes cuatro renglones en la tabla de datos. Primero debemos indicar que queremos trabajar en modo estadístico con regresión simple. Para ello, tecleamos [MODE] y seleccionamos la regresión lineal simple en la opción 2 (A+BX). Seguidamente aparece la tabla de entrada de datos, en la cual ingresamos la data indicada abajo. Recuerde que tras ingresar cada valor numérico presiona la tecla =⃣. El cursor se desplazará una celda hacia abajo. Puede mover el cursor con las teclas de flecha (tecla grande redonda en la parte superior central de la calculadora).
 │   X    │   Y    │
1│  4582.9│ 3669.88│
2│  5539.8│ 3473.95│
3│  2950.4│  2295.1│
4│  2243.1│ 4675,56│
5│  7747.1│ 6125.96│
6│  3140.6│ 5031.66│
7│  2086.2│ 3367.45│
8│  8846.2│ 6519.45│
La data anterior se corresponde a el problema del objetivo 5 de la parcial del 2010-2 (Nivel Central). En este problema, se estudiaba el volumen de ventas (variable Y) como función del gasto en publicidad (variable X). En el aparte (a) de la pregunta se pide estimar la recta de regresión lineal. Para ello hay que calcular los coeficientes A y B que definen la ecuación de la recta de regresión Y=A+BX. Esto se hace accediendo a las opciones respectivas en el sub-menú Reg del menú de estadística de la calculadora. A continuación se da la secuencia de teclas y el cálculo para cada coeficiente:
Para el cálculo de A: [SHIFT] + 1⃣ + 7⃣ + 1⃣ + = 2552.312142
Para el cálculo de B: [SHIFT] + 1⃣ + 7⃣ + 2⃣ + = 0.3969300352

La ecuación de la recta es por lo tanto Y=2552.3121 + 0.3969X (con 4 decimales de presición). Existe una pequeña discrepancia entre estos resultados y los que aparecen en el modelo de respuestas de la segunda parcial del 2010-2. Ello se debe a que la data se ha almacenado en la calculadora con sólo 1 decimal de precisión. No es un error importante.

Para el siguiente aparte, se requiere hacer inferencia sobre el coeficiente de regresión B. Concretamente, se requiere comprobar la siguiente hipótesis:

\[\begin{align*} H_0\quad &:\quad B=0\\ H_a\quad&:\quad B\neq 0 \end{align*}\]

Para este constraste, necesitamos calcular el estadístico T-Student para el coeficiente B dado en  la fórmula 140 del fórmulario UNA, el cual viene dado por:

\[T=\frac{\hat{\beta}-\beta_0}{S_{\hat{\beta}}}\]

\(\hat{\beta}\) ya lo hemos calculado- es el valor del coeficiente B calculado arriba, el cual es igual a 0,3969. \(\beta_0\) es el valor del coeficiente poblacional según la hipótesis nula, de modo que \(\beta_0=0\). Resta por calcular la desviación estándar muestral del coeficiente \(\hat{\beta}\), representada por \(S_{\hat{\beta}}\). Para ello es preciso utilizar las expresiones disponibles en el sub-menú Sum de las funciones estadísticas que son las sumas ∑x, ∑x², ∑y , ∑y²  y ∑xy. Las fórmulas aparecen en el formulario antes mencionado (fórmulas 125-141) y la secuencia de cálculos en la calculadora es la siguiente:

\(SC_Y=\sum{Y^2}-\frac{\left(\sum{Y}\right)^2}{n}=\) 14833131.2
\(SC_{XY}=\sum{XY}-\frac{\left(\sum{X}\right)\left(\sum{Y}\right)}{n}=\) 18071838.95
\(SC_X=\sum{X^2}-\frac{\left(\sum{X}\right)^2}{n} =\)45529028.66
\(SCE=SC_Y-\frac{(SC_{XY})^2}{SC_X} =\) 7659875.529
\(CME=\frac{SCE}{n-2} =\) 1276645.921
\(S_e=\sqrt{CME} =\) 1129.88757
\(S_{\beta_1}=\frac{S_e}{\sqrt{SC_X}} =\) 0.1674522697

Según esto, el estadístico de contraste T-Student resulta ser:

\[T=\frac{\hat{\beta}-\beta_0}{S_{\hat{\beta}}}=\frac{0,3969}{0,1674}=2,3709\]

Para un nivel de significancia de 5% (2,5% en cada cola), el nivel crítico T-Student de una distribución con \(n-2=6\) grados de libertad es 2,4469. Debido a que el estadístico de contraste obtenido por nosotros no es mayor  al nivel crítico, no se rechaza la hipótesis nula y se debe concluir que la variable X (gasto en publicidad) no incide lineal y significativamente sobre la variable Y (volumen de ventas).

Para el aparte c, debemos calcular el coeficiente de determinación e interpretarlo.  Este valor está disponible directamente en la calculadora (recordando que debemos elevar r al cuadrado):

[SHIFT] + 1⃣ + 7⃣ + 3⃣ + [] + = 0.4835968598

Según el resultado anterior, el 48% de la variabilidad de Y se debe a la variabilidad de X. No es un muy buen modelo el que hemos producido.  De hecho, según el contraste de hipótesis del aparte anterior, concluimos que la variable X no indice significativamente sobre Y.

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.