viernes, 11 de septiembre de 2015

Regresión Lineal, semestre 2015-1

Quisiera en esta entrada aclarar algunas cosas sobre la regresión lineal a la luz de los (deplorables) resultados de la segunda prueba parcial de la 746 de este semestre. Si han presentado esta prueba y no lograron el objetivo 5 o el 6, lean a continuación para ver porqué.

Comencemos repasando lo que es un modelo de regresión lineal:

\[
Y=\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_d X_d + \varepsilon
\]



Y es denominada la variable dependiente, con dos componentes: (1) una combinación lineal de las variables independientes \(X_i\) más un coeficiente de intercepto \(\beta_0\) y (2) \(\varepsilon\) que se conceptúa como una variable aleatoria que subsume toda variación de Y no explicada por variaciones de las variables independientes.

El componente de intercepto \(\beta_0\) representa la media de Y en ausencia de toda influencia de las variables independientes (cuando todas las \(X_i\) son iguales a cero) y sirve para eliminar el sesgo en la estimación de Y. Hay que ser cuidadosos al decidir si se elimina el intercepto en un modelo lineal porque su presencia garantiza que el modelo lineal sea insesgado. Sobre esto ahondaremos luego.

El algoritmo de los mínimos cuadrados que se usa en un análisis de regresión lineal sirve para estimar los coeficientes \(\beta_i\) (llamados coeficientes poblacionales), de modo que el ajuste a la data sea óptimo. Pero, ¿que quiere decir óptimo?

Imaginemos que hemos hemos estimado unos valores para los \(\beta_i\) que en lo sucesivo serán indicados como \(\hat{\beta_i}\) para diferenciar los verdaderos valores de \(\beta_i\), que nunca conoceremos, de sus respectivas estimaciones \(\hat{\beta_i}\) (recuerden que la regresión lineal sigue siendo un problema de inferencia estadística). Teniendo las estimaciones de estos coeficientes, podemos proyectar (pronosticar) los valores de Y para valores de los X que no tenemos en nuestra data. También podemos calcular los valores de Y para cada combinación de valores de los \(X_i\) que tenemos en la data y comparar estos valores de Y proyectados según nuestro modelo (identificados como \(\hat{Y_i}\)) contra los verdaderos valores de Y en la data (observe cuidadosamente los subíndices y todos los símbolos de la siguiente ecuación):

\[
Y_i-\hat{Y_i}=Y_i - (\hat{\beta_0} + \hat{\beta_1} X_{i,1} + \ldots + \hat{\beta_d} X_{i,d})
\]

La diferencia \(Y_i - \hat{Y_i}\) se llama residuo. El algoritmo de los mínimos cuadrados encuentra los \(\hat{\beta_i}\) que hace la suma de los residuos cuadrados \(\sum{\left(Y_i - \hat{Y_i}\right)^2}\) sea mínima. En esta ocasión no entraré en detalles sobre cómo funciona el algoritmo de los mínimos cuadrados. Basta con decir que para un conjunto de datos \(\{Y_i\}\) y \(\{X_i,j\}_{n\times d}\), la estimación de los coeficientes poblacionales que minimiza la suma de los residuales cuadráticos es única y si asumimos un conjunto de condiciones llamadas condiciones de Gauss-Markov, un teorema homónimo nos garantiza que los estimadores \(\hat{\beta_i}\) de mínimos cuadrados son los mejores posibles (son insesgados y de mínima varianza).

¿Qué pasaría si por ejemplo en el modelo \(Y=\beta_0 + \beta_1 X_1 + \beta_2 X_2\) el coeficiente \(\beta_1\) fuese realmente igual a cero (recuerden que sólo podemos estimar los coeficientes, no calcular su verdadero valor)? Pues en este caso, no importa cuales valores asuma la variable \(X_1\), el efecto de la variable \(X_1\) sobre Y sería nulo porque \(X_1\) va multiplicado por cero. Esto implicaría que la variable \(X_1\) no es significativa en el modelo y no está asociada linealmente con Y. Este principio nos provee una manera de evaluar si cada una de las variables del modelo de regresión son significativas o no, comparando el coeficiente \(\hat{\beta_i}\) respectivo con el valor de cero.

Resulta que si se cumplen ciertos supuestos sobre los errores (recuerden que el error es una variable aleatoria que explica la diferencia entre Y y su proyección lineal \(\hat{Y}\)), principalmente que los errores sean normalmente distribuidos con varianza constante, entonces los \(\hat{\beta_i}\) serán distribuidos según una T-Student (con sus respectivas varianzas muestrales estimadas a partir de la muestra). Por eso es que realizamos un contraste de hipótesis para cada coeficiente \(\beta_i\) en el cual la hipótesis nula es \(H_0: \beta_i=0\) y la alternativa es \(H_a:\beta_i\neq 0\). Rechazar la hipótesis nula en estos contrastes equivale a concluir que la respectiva variable \(X_i\) es significativa en el modelo.

En este punto, debo aclarar que la salida con los datos de diagnóstico arrojadas por la mayoría de los paquetes estadísticos como las que presentan en los exámenes proveen de los p-valores para que Uds. puedan inferir sobre la significatividad de cada variable en el modelo de regresión lineal. En el caso de la asignatura 746, las salidas presentadas en los exámenes incluyen una columna rotulada "Sig." a la izquierda del recuadro titulado "Coeficientes". Estos son los valores que deben observar.

Un p-valor es la probabilidad de obtener un valor tan o más extremo que la estimación del estadístico de contraste considerando una variable aleatoria distribuida como ese estadístico de contraste y su especificación completa según la hipótesis nula. En cristiano, esto significa que los p-valores muy pequeños constituyen evidencia para rechazar la hipótesis nula (cuan pequeños deben ser depende del nivel de signifcancia que uds. consideren). Pero para p-valores grandes, digamos mayores que 0.05, no rechazaríamos la hipótesis nula y ello significaría que la variable respectiva \(X_i\) no incide sobre Y o no es significativa. En el Objetivo 6 de algunos exámenes, observo que hicieron todo lo contrario, consideraron como significativas las variables cuyos p-valores eran altos. En el objetivo 5 (aparte b) se les pedía realizar el contraste de hipótesis para \(\beta=0\) e indicar qué significa el resultado obtenido. En la gran mayoría de los exámenes indicaron si rechazan la hipótesis nula o no pero no indicaron que significa el resultado obtenido (no interpretaron el resultado a la luz de explicar si la variable Distancia se relaciona linealmente con la variable Tiempo o no). Quizás tengan que releer estos últimos tres párrafos cuidadosamente para que esta idea cale bien.

Bien, ahora sabemos cómo diagnosticar si cada variable es significativa o no, pero no hemos hablado sobre cómo diagnosticar cuan adecuado es el modelo en sí. Existen dos maneras: analizando el coeficiente de determinación \(R^2\) y la desviación estándar de los residuales (el primero lo encuentran en la columna "R cuadrado" del recuadro "Resumen del modelo" y el segundo bajo la columna "Desviación Típica" en la fila "Residual" del recuadro "Estadísticos sobre los residuos"). Ustedes deben consideran ambos parámetros (luego explicaré porqué).

El coeficiente de determinación nos indica el porcentaje de la variabilidad total de Y atribuible o explicada por las variables del modelo.  \(R^2\) siempre será una cantidad entre 0 y 1, siendo los valores más cercanos a uno (o por lo menos mayores a 70% indicativos de un modelo adecuado). Para entender esto, debemos explicar que por "variabilidad total de Y" nos referimos a \(\sum{\left(Y_i - \overline{Y}\right)^2}\) que no es otra cosa que la desviación cuadrática total de la variable Y respecto a su media \(\overline{Y}\) según la muestra. Se puede demostrar que:

\[
\sum{\left(Y_i - \overline{Y}\right)^2} = \sum{\left(Y_i - \hat{Y_i}\right)^2} + \sum{\left(\hat{Y_i} - \overline{Y}\right)^2}
\]

La ecuación anterior implica que la variabilidad total de Y respecto a su media se descompone por una parte de la variabilidad debida al modelo (que es la suma de las diferencias cuadráticas de \(\hat{Y_i} - \overline{Y})\) y por otra parte del término de error aleatorio (representada por la suma de los cuadrados de los residuales) que es toda la variabilidad de Y que no es explicada por el modelo.

La desviación estándar de los residuales (en realidad cada residual tiene su desviación estándar y los residuales no son homocedásticos como el error pero dejémoslo así para no complicar más las cosas) representa la distancia promedio de los puntos \(\left(X_{i,1},\ldots,X_{i,d},Y_i\right)\) respecto a sus proyecciones en el hiperplano de regresión (o recta de regresión para el caso de la regresión lineal simple) \(\left(X_{i,1},\ldots,X_{i,d},\hat{Y_i}\right)\). Cuanto mayor es la desviación estándar de los residuales, tanto más es la dispersión de los puntos verdaderos respecto a los pronosticados. Consideren a la desviación estándar residual como una medida de cuan preciso es el modelo lineal o cuanto se parecen los valores pronosticados de los \(Y_i\) a sus valores verdaderos. Recuerden que iba a hablar sobre porqué es importante considerar tanto la desviación estándar de los residuales como el coeficiente de determinación, pero lo dejaré para más adelante.

El verificar cuales de las variables del modelo son significativas y comparar los coeficientes de determinación no es suficiente para ver cual de dos modelos lineales es el mejor modelo. Hace falta realizar un análisis de residuos e indicar cuales de los supuestos se cumplen o no y en qué se basan para cada una de estas verificaciones, para cada modelo. En todos los exámenes que corregí, o bien ni siquiera mencionaron el análisis de residuos o no lo hicieron completa y correctamente, justificando cada paso (en la UNA tenemos que justificar bien todas nuestras respuestas). Por tal razón, no les coloqué el Obj. 6 como aprobado. Recuerden que este objetivo vale 4 puntos y las preguntas contemplan la evaluación de todo el tema de regresión lineal múltiple, que incluye sobre todo el análisis de residuos.

Pero empecemos por el principio: ¿Qué significa que un modelo sea mejor que otro? ¿Qué entendemos por "mejor" modelo? De un modelo de regresión lineal nos interesa sobre todo su interpretabilidad y su sencillez. También nos interesa que el modelo refleje lo más fielmente posible la relación real entre sus variables, es decir, que el error entre las predicciones de Y y sus valores observados sea mínimo. Pero no estaremos dispuestos a sacrificar la interpretabilidad o la sencillez de un modelo por una mínima ganancia en precisión o fidelidad de ajuste a los datos. Más bien, demasiado ajuste a los datos (lo que se conoce como sobreajuste) implica que nuestro modelo podría no generalizar bien para predecir lo que ocurre fuera de lo observado.

Piensen en un modelo matemático como un lente a través del cual se mira la realidad. Los modelos de regresión lineal son valiosos o útiles en la medida en que nos enseñan algo sobre el fenómeno bajo estudio. Tras todos los análisis estadísticos de rigor en la comparación de varios modelos de regresión lineal, deberíamos ser capaces de enunciar que cosas hemos aprendido (o concluido) sobre el fenómeno bajo estudio. A esto se refería la última parte del enunciado de la pregunta del objetivo 6 de este examen cuando se pedía que "Justifique la selección de uno de estos modelos con base al análisis estadístico necesario y el análisis de la situación bajo estudio", punto que por cierto estaba conspicuamente ausente en todas las respuestas que revisé.

Pregúntense ustedes: ¿qué pueden afirmar o concluir en el contexto de la situación bajo estudio (en el tema del control de plagas en un cultivo agrícola) tras comparar los dos modelos de regresión propuestos? ¿Escribieron algo al respecto en su respuesta? Antiguamente, cuando se evaluaba el objetivo 6 mediante un trabajo práctico, ustedes desarrollaban este punto en la interpretación de los resultados (las conclusiones eran más bien sobre lo que ustedes aprendieron acerca de la regresión lineal como técnica de análisis, no sobre la situación bajo estudio). Muy acertadamente diría yo, han cambiado la forma de evaluar ese objetivo de la 746 a una forma de evaluación más factible para ustedes, pero los contenidos evaluados siguen siendo los mismos.

Por último, antes de comenzar yo a abordar mi respuesta a la pregunta del objetivo 6, permítanme comentarles un poco sobre el Principio de la Navaja de Occam. En una cita que se le atribuye a Einstein, él afirma que "una explicación de la data debería de ser tan sencilla como sea posible, pero no más sencilla". Por sencillo nos referimos al número de variables del modelo de regresión lineal bajo consideración. Pero a la vez, no queremos eliminar variables más allá del punto en que nuestro modelo deje de ser consistente con la data. Por ello, debemos de asegurarnos que las variables independientes en un modelo sean las que realmente inciden sobre la variable dependiente, que no exista colinealidad entre las variables independientes porque esto podría producir lo que se denomina un efecto confusor y sobre todo, que nuestro modelo lineal no se desvíe demasiado de las suposiciones básicas sobre los errores que se deben verificar mediante un análisis de residuos.

Comencemos pues con los dos modelos bajo consideración en esta pregunta. El modelo 1 plantea la siguiente relación: \(Y=\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_4 + \beta_4 X_5 + \beta_5 X_6\). La relación para el modelo 2 es \(Y=\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_4\). Como se puede observar, todas las variables independientes del modelo 2 están incluidas en el modelo 1, pero el modelo 1 hay dos variables adicionales: \(X_5\) y \(X_6\). Los coeficientes de determinación de ambos modelos son comparables (0,662 y 0,660) si bien el del modelo 1 es ligeramente mayor. De igual manera, las desviaciones estándares residuales son bastante semejantes (16,76 y 16,813), si bien la del modelo 2 es un poquito mayor. Esto quiere decir que las variables adicionales que tiene el modelo 1 no aportan poder explicativo en cuanto a predecir Y - la tasa porcentual de mortandad. De hecho, si se fijan en los p-valores para los coeficientes de \(X_5\) y \(X_6\) (que son 0,417 y 0,581 respectivamente), tendríamos que concluir que estas variables no son significativas en el modelo 1. Por lo expuesto hasta ahora, parece que el modelo 2 es mejor que el modelo 1.

Hasta aquí llegaron en la mayoría de las respuestas, palabras más, palabras menos. Pero falto hacer un análisis de los residuos de cada modelo para confirmar o validar la conclusión de arriba. También falto interpretar que significa que el modelo 2 sea el mejor modelo en el contexto de la situación bajo estudio. Con respecto al análisis de residuos, el hecho de que para este caso en particular, ambos pares de gráficas de diagnóstico sean similares no los exime de hacer el análisis de residuos, porqué lo que se pretende es evaluar si ustedes son capaces de hacer un análisis de residuos. Además, puedo fácilmente imaginarme un tercer modelo superior a los otros dos (en cuanto a los criterios utilizados en el párrafo anterior) pero cuyos residuos no evidencian el cumplimiento de todos los supuestos y que al ser tomado en cuenta esto, modificaría nuestra valoración del modelo. Si yo estuviese elaborando las pruebas, incluiría un caso así.

En todo caso reproduzco a continuación las gráficas de diagnóstico de residuos para el modelo 1 y el modelo 2:

Modelo 1:  \(Y\sim \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_4 + \beta_4 X_5 + \beta_5 X_6\)



Modelo 2: \(Y\sim \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_4\)



El supuesto de normalidad de los errores se verifica comúnmente mediante una gráfica cuantil-cuantil (un Q-Q plot). Por alguna razón, quizás por el tipo de software estadístico que utilizan en la elaboración de estas pruebas, se incluye en vez de ello una gráfica de probabilidad-probabilidad (gráfica P-P). En ambos casos, la idea es semejante. Uno estandariza los residuos y gráfica los cuantiles (respectivamente, las frecuencias relativas acumuladas para la gráfica P-P) muestrales contra los cuantiles teóricos (respectivamente, las probabilidades acumuladas teóricas para la gráfica P-P) de una distribución normal estándar. En ambos tipos de gráficas, los puntos deberían de caer lo más cerca posible a la recta (línea) diagonal de la gráfica. Una desviación de estos puntos respecto a esa línea indica una ausencia de ajuste de la distribución de los errores respecto a la distribución normal.

Yo particularmente prefiero utilizar las gráficas Q-Q porque me permiten evaluar cosas como la curtósis (que podría ser indicativo de heterocedasticidad o valores atípicos de regresión) o la asimetría (nuevamente otro posible indicativo de heterocedasticidad) más efectivamente que las gráficas P-P porque uno quiere saber porqué se desvía una distribución de la normalidad. Explicar más en detalle la interpretación de estas gráficas más allá del principio general de verificar la desviación de los puntos respecto a la línea diagonal requeriría elaborar otra entrada de este blog, cosa que además me parece innecesaria. Los refiero en vez de ello a un excelente videotutorial:   Statistics 101 Is my data normal?

Un error común en la interpretación de estas gráficas de normalidad consiste en suponer que lo que se está viendo es una gráfica de dispersión cuya recta es la recta de regresión lineal. Esto es completamente erróneo por muchísimas razones, entre las cuales: (1) sólo podemos graficar una recta de regresión lineal de Y según X cuando hacemos una regresión lineal simple, pero en el caso de la regresión lineal múltiple (con varias variables \(X_i\) no podríamos siquiera graficar el hiperplano de regresión si tenemos más de 2 variables independientes porque, ¿cómo hacemos gráficas en más de 3 dimensiones? (2) aún en el caso de la regresión lineal simple, una recta diagonal que siempre es ascendente supondría que no importa cual sea tu data, el coeficiente poblacional de X siempre será positivo (la pendiente de la recta es positiva), lo cual obviamente no es el caso. En fin, ustedes deben entender que las gráficas P-P o Q-Q son para verificar la normalidad de los errores y en ellas no se visualiza recta de regresión alguna.

Para ambos modelos, las gráficas de verificación de normalidad no indican desviaciones importantes de la distribución de los errores respecto a la normalidad (exceptuando el hecho de que en ambos modelos, la cola derecha es un poco más larga de lo que debería ser), por lo cual podemos suponer que se cumple el supuesto de normalidad de los errores. Sin embargo, cuando revisamos las gráficas de residuales versus valores ajustados, la historia es muy distinta.

Las gráficas de residuales versus valores ajustados sirven para verificar si el modelo es sesgado, si los errores son homocedásticos (de varianza constante) y si se presentan no-linealidades en las asociaciones de alguna variable independiente con la variable Y. Una gráfica de residuales versus valores ajustados de un modelo insesgado cuya asociación de la variable Y con las variables independientes es puramente lineal y cuyo término de error es homocedastico e independiente de las variables del modelo debería de asemejarse más o menos a esto:


Observen que en esta gráfica los puntos que representan los residuos se distribuyen como una banda horizontal de ancho uniforme (se verifica la homocedasticidad) simétricamente alrededor de cero (no hay sesgo) y no se observan patrones no aleatorios ni la curva central (roja) de la nube de puntos parece indicar una no linealidad, porque es más o menos horizontal.

En vez de ello, observamos que hay una no linealidad en ambas gráficas de residuos versus valores ajustados, tal como se indica por las curvas rojas que son evidentemente cóncavas (ven la forma de U invertida?) y no horizontales. Otra cosa que indican estas gráficas es que los errores no son homocedásticos (de varianza constante). ¿Ven cómo la nube de puntos se va haciendo más angosta, como un embudo, para valores mayores de \(\hat{Y}\)? Otra cosa que complica este análisis es la presencia de patrones de puntos lineales descendentes claramente delineados.



Cuando se ven patrones lineales descendientes como estos, tenemos un indicativo de conjuntos de valores de Y muy repetidos. De hecho, consideremos el siguiente diagrama de tallo y hoja de la variable Y:

> stem(Y)

The decimal point is 1 digit(s) to the right of the |

0 | 0000000
1 |
2 | 0035567
3 | 00568
4 | 3334455678999
5 | 1255555678
6 | 0000299
7 | 0000233444556688
8 | 0000001233355
9 | 0555555567888888889999
10 | 00000000000000000000000000000000000000000000000000000000



¿Pueden ver la gran cantidad de valores de 100 en la muestra de Y? Pensemos un instante sobre que puede estar produciendo esta anomalía en nuestras observaciones de Y. ¿Será un error en la observación de esta variable? Recuerden que Y es el porcentaje de mortandad de las larvas, es decir, una razón de larvas muertas entre el total de larvas vivas y muertas. Sobre todo si hay superficies de cultivo con poca infestación de larvas (y el insecticida por ser medianamente efectivo acabó con toda la plaga) tendremos valores de 100% muy frecuentemente en nuestra muestra de Y. No así por ejemplo para un valor de 49%, que puede estar configurado por 49 de 100 larvas muertas, 98 de 200 larvas muertas, etc. pero no hay muchas combinaciones que produzcan ese porcentaje específico. Al parecer, nada podremos hacer para eliminar la presencia de patrones lineales descendientes en las gráficas de residuos versus valores ajustados.

En conclusión, en cuanto a la heterocedasticidad de los errores y la presencia de alguna no linealidad en la asociación de Y con las otras variables, el modelo 1 y el modelo 2 son igualmente malos. Nótese también que hay muchos valores pronosticados mayores que 100 y a veces, hasta casi 120. No tiene mucho sentido una mortandad porcentual mayor a 100. Deberíamos de sugerir como mejora a estos modelos una transformación logarítmica de alguna de las variables, lo que generalmente mejora la no linealidad y puede atenuar un poco la heteroscedasticidad. El problema de la heteroscedasticidad es que en lo modelos heteroscedasticos de relativamente poco tamaño de muestra, el coeficiente de determinación se infla y aparenta ser mayor de lo que realmente es (lean mi artículo sobre Análisis de Residuos para Dummies para entender porqué). Hasta aquí puede llegar una respuesta a una pregunta de examen. Claro está, yo me explayé mucho más en las explicaciones, para que ustedes entiendan.

Pero todavía quedan algunos cabos sueltos. Consideren por ejemplo este modelo

Modelo 3: \(Y\sim \beta_1 X_1\)

cuya información de diagnóstico se da a continuación:

Residuals:
Min 1Q Median 3Q Max
-66.95 -15.84 11.90 37.86 57.64

Coefficients:
   Estimate Std. Error t value Pr(>|t|)
X1 14.1194 0.5628 25.09 <2e-16 *** ---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 36.32 on 155 degrees of freedom
Multiple R-squared: 0.8024, Adjusted R-squared: 0.8011
F-statistic: 629.3 on 1 and 155 DF, p-value: < 2.2e-1
6


¡Diablos! ¡Un coeficiente de determinación de 80% con un modelo de una sola variable! Este definitivamente es el mejor modelo considerado hasta ahora. Pero, ¿será realmente mejor que los demás modelos?  Según la lógica de ustedes, aparentemente sí pero lo que soy yo mejor hago un análisis de residuos. Veamos las gráficas de diagnóstico:

Modelo 3: \(Y\sim \beta_1 X_1\)


Pueden observar en la gráfica de residuos versus valores ajustados el sesgo sistemático de este modelo. La curva roja, en vez de ser horizontal y centrada en 0, va descendiendo a medida que \(\hat{Y}\) aumenta. Esto quiere decir que el modelo 3 es sesgado- la media de los residuos ni siquiera es constante e igual a cero. En la grafica cuantil-cuantil podemos observar como ambas colas extremas son más largas de lo norma. Pero claro, ¿cómo no va a ocurrir todo esto si en el modelo 3 hemos eliminado el coeficiente del intercepto?

Al no haber intercepto, casi toda la variabilidad de Y es atribuible a \(X_1\)- eso explica el r-cuadrado de 80%. Sin ver las graficas de diagnóstico de residuales y solo comparar las desviaciones estandares de los residuos - 36.32 para el modelo 3 y  17.04 para el modelo 1 - nos damos cuenta que el ajuste del modelo 3 es casi el doble de malo que el del modelo 1. Pero al hacer el análisis de residuos es cuando realmente nos damos cuenta que este modelo no pasa la prueba. Como ejercicio recalculen ustedes el mismo modelo pero con el coeficiente de intercepto y observen cómo disminuye r-cuadrado. ¿Se dan cuenta de la importancia de realizar un análisis de residuos completo y no simplemente enunciar los supuestos sin verificar si realmente se cumplen?

Ahora voy a plantear un modelo mejor que los anteriores:

Modelo 4: \(Y\sim \beta_0 + \beta_1 log\left(X_2 - X_1+1\right) + \beta_2 X_1\)


Residuals:
    Min      1Q  Median      3Q     Max
-43.099  -6.070  -0.678   6.205  55.901

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)   
(Intercept)         -19.8568     6.3344  -3.135  0.00206 **
I(log(X2 - X1 + 1))  46.9435     2.4349  19.279  < 2e-16 ***
X1                   10.1391     0.9375  10.815  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 15.66 on 153 degrees of freedom
Multiple R-squared:  0.7088,    Adjusted R-squared:  0.705
F-statistic: 186.2 on 2 and 153 DF,  p-value: < 2.2e-16
 



Observen que aún cuando observamos un patrón de puntos en línea descendente (habíamos dicho que no íbamos a poder controlar esto del todo), los residuos no indican ni sesgo ni no-linealidades. Puede observarse también que los errores son más homocedásticos, pues la nube de puntos es más uniformemente ancha que para los modelos 1 y 2, aunque sigue siendo más estrecha hacia los valores superiores de \(\hat{Y}\). Quizás los errores sean un poquito más desviados de la normalidad pero como hemos mejorado en los otros aspectos antes mencionados, esta desviación no es de mucha importancia.

Observen también que nuestro r-cuadrado aumentó a 71% y que nuestra desviación estándar residual disminuyo a 15,66, lo cual indica un mejor ajuste a los datos. Todo esto con solo dos variables y un coeficiente de intercepto, todos los cuales son componentes significativos del modelo. Claramente, el modelo 4 es superior a los otros 3.

Por último (casi lo olvidaba), ¿cómo interpretamos esto en el contexto de la situación bajo estudio? El hecho de que las variables \(X_5\) y \(X_6\) no sean relevantes para explicar la variabilidad de Y indica que la tasa de mortandad de la plaga del cultivo al aplicar cualquiera de los dos tipos de insecticidas no depende de factores ambientales como la humedad relativa o la temperatura ambiente, sino más que todo en la edad de las larvas al momento de aplicar la fumigación y al momento de observación posterior de sus efectos. Según los resultados del modelo 4, cada día adicional en la edad de las larvas nos aumenta la mortandad en aproximadamente 10 puntos porcentuales. Hay que dar un compás de espera para observar la efectividad de la fumigación, siendo que la mortandad no aumenta indefinidamente y a la misma tasa mientras más largo sea este tiempo de espera, sino que eventualmente alcanza un tope máximo de 100. La disminución de la tasa marginal de mortandad se explica gracias al componente logarítmico del tiempo de espera (\(X_2-X_1\)).

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.