En esta entrada, haremos el ejercicio de regresión lineal planteado en el semestre 2012-1, cuyo trabajo práctico es igual al de este semestre (2017-1). Se hace uso del R y mi librería estUNA para construir modelos de regresión lineal mediante el método de eliminación hacia atrás. En este proceso, enfatizamos la importancia de realizar un análisis de residuos, entre otras cosas para sugerirnos posibles transformaciones de las variables con las que podamos mejorar los modelos de regresión.
lunes, 1 de mayo de 2017
jueves, 6 de abril de 2017
estUNA
¿Qué es estUNA?
Eventualmente será publicada en el repositorio CRAN como un paquete. Actualmente, el archivo imagen (que permite trabajar con la librería) está disponible para su descarga en https://raw.githubusercontent.com/unamatematicaseltigre/estUNA/master/estUNA.
Introducción al R
es un entorno de programación
En esta página se hará una brevísima introducción al lenguaje R como entorno de programación. Sin pretender que esto sea una guía completa, se exponen los conceptos necesarios para poder utilizar este lenguaje como complemento instruccional a los cursos de estadística y probabilidades de la Universidad Nacional Abierta.
Un entorno de programación es una aplicación que permite crear, ejecutar y depurar programas. Los programas son esencialmente secuencias de instrucciones que le indican al computador de manera muy precisa lo que este debe hacer. Estas instrucciones se especifican en algo llamado lenguaje de programación y cada lenguaje de programación tiene su "gramática" particular y sus reglas de sintaxis. R es un lenguaje de programación interpretado, lo cual quiere decir que el programador ingresa instrucciones a través de una consola y el interprete de R va procesando cada instrucción a medida que esta se ingresa y va dando la salida respectiva a cada instrucción de forma secuencial.
En vez de escribir las instrucciones una por una en la consola, podemos indicar la secuencia de instrucciones que queremos ejecutar a través de un archivo de texto (cómo los que creamos cuando usamos el bloc de notas). Esto es lo que se conoce como un script. Un script es una especie de programa que necesita siempre de un interprete para poderse ejecutar. En esta guía, aprenderemos a crear nuestros propios scripts.
martes, 19 de julio de 2016
Trabajos de Estadística (738/748, 745 y 746) Lapso 2016-1
738/748 |
745 |
746 |
Para este semestre, la data se encuentra en el siguiente data frame de estUNA: d20161
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
lunes, 10 de noviembre de 2014
Trabajos de Estadística para el 2014-2
martes, 13 de mayo de 2014
Técnicas de visualización de datos a ser utilizadas este semestre
martes, 19 de noviembre de 2013
Estudio de estadística descriptiva en R /estUNA - video Tutorial
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
lunes, 4 de noviembre de 2013
Video tutorial sobre cómo instalar R
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
domingo, 28 de abril de 2013
Actualización de página tutorial de estUNA
- Para comenzar a trabajar con la librería estUNA - enlace.
- Estadística descriptiva para datos univariantes no agrupados (Objetivos 1 y 2 de la 745) - enlace.
- Estadística descriptiva para datos univariantes agrupados (Objetivos 1 y 2 de la 745) - enlace.
- Gráficas de dispersión y gráficas de caja comparativas - enlace.
- Regresión lineal - enlace.
- Contrastes de bondad de ajuste chi-cuadrado - enlace.
- Tests de independencia chi-cuadrado - enlace.
- Cómo enviar la salida gráfica a archivos - enlace.
Si necesitan alguna explicación sobre otros aspectos de la librería o tienen algún comentario sobre la página tutorial, pueden enviarme un correo a jlaurentum@gmail.com o dejar un mensaje en el buzón a la derecha de esta página.
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
lunes, 1 de abril de 2013
The Lending Club - parte III
En esta última entrada de la serie, procedemos a construir y analizar distintos modelos de regresión para descubrir cómo se determina la tasa de interés de los prestamos que se tramitan a través del Lending Club En entradas anteriores, dimos la información de contexto del problema bajo estudio (ver la primera parte) y luego realizamos un análisis exploratorio de datos (ver la segunda parte).
Primer modelo de regresión
load("estUNA")
load("lending_club.Rda")
attach(loandata)
options(width=60)
png("regresion%02d.png")
- Ar (Monto Requerido).
- Fi (calificación FICO).
- Ld (Duración del prestamo)
- Ocl (Líneas de crédito abiertas)
- Inq0 (Variable indicadora según sea el número de indagaciones igual a 0).
- Lp_dc (Variable indicadora según sea el propósito del préstamo la consolidación de deudas).
Las últimas dos variables indicadoras, Inq0 y Lp_dc, no están definidas en loandata- hay que definirlas. Seguidamente se define el modelo de regresión como modelo1a y se imprime un resumen:
Lp_dc <- Lp=="debt_consolidation"
Inq0 <- Inq==0
modelo1a <- regresion.lineal(Ir~1+Ar+Fi+Ld+Inq0+Ocl+Lp_dc)
resumen(modelo1a)
--------------------------------------------------------------
Resumen de regresion lineal
MODELO : modelo1a
Marco de datos : variables globales
Formula : Ir ~ 1 + Ar + Fi + Ld + Inq0 + Ocl + Lp_dc
Estimacion de los coeficientes poblacionales
Estimacion Error Est. Estadistico T
[Intercepto] 7.382562e-01 8.548541e-03 86.360488
Ar 1.481033e-06 5.975320e-08 24.785830
Fi -8.772580e-04 1.189671e-05 -73.739512
Ld60 3.201605e-02 1.081372e-03 29.606863
Inq0TRUE -1.079905e-02 8.222849e-04 -13.132985
Ocl -5.018680e-04 9.328141e-05 -5.380150
Lp_dcTRUE -2.028007e-03 8.385869e-04 -2.418362
p-valor
[Intercepto] < 2.22e-16
Ar < 2.22e-16
Fi < 2.22e-16
Ld60 < 2.22e-16
Inq0TRUE < 2.22e-16
Ocl 8.138e-08
Lp_dcTRUE 0.015662
Prueba F global
Valor F : 1342.558 gl. num: 6 gl. den : 2485
p-valor : < 2.22e-16
Coeficientes de determinacion
R^2 : 0.7642392 R^2 ajustado : 0.76367
Residuos
Minimo : -0.094555
Mediana : -0.002316511
Maximo : 0.09745238
Desv. estandar residual: 0.02032266
--------------------------------------------------------------
modelo1b <- regresion.lineal(Ir~1+Fi+Ld+Inq0+Ocl+Lp_dc)
resumen(modelo1b)
---------------------------------------------------------
Resumen de regresion lineal
MODELO : modelo1b
Marco de datos : variables globales
Formula : Ir ~ 1 + Fi + Ld + Inq0 + Ocl + Lp_dc
Estimacion de los coeficientes poblacionales
Estimacion Error Est. Estadistico T
: : : :
: : : :
Lp_dcTRUE 1.717800e-03 9.210058e-04 1.8651343
:
:
Coeficientes de determinacion
R^2 : 0.7059548 R^2 ajustado : 0.7053634
:
:
Desv. estandar residual: 0.02269156
modelo1c <- regresion.lineal(Ir~1+Ar+Fi+Ld+Inq0+Ocl)
resumen(modelo1c)
graficar(modelo1c)
--------------------------------------------------------------
Resumen de regresion lineal
MODELO : modelo1c
Marco de datos : variables globales
Formula : Ir ~ 1 + Ar + Fi + Ld + Inq0 + Ocl
Estimacion de los coeficientes poblacionales
Estimacion Error Est. Estadistico T
[Intercepto] 7.349896e-01 8.449383e-03 86.987369
Ar 1.454991e-06 5.883215e-08 24.731215
Fi -8.735828e-04 1.181075e-05 -73.965030
Ld60 3.206793e-02 1.082213e-03 29.631794
Inq0TRUE -1.078765e-02 8.230728e-04 -13.106558
Ocl -5.111106e-04 9.329393e-05 -5.478498
p-valor
[Intercepto] < 2.22e-16
Ar < 2.22e-16
Fi < 2.22e-16
Ld60 < 2.22e-16
Inq0TRUE < 2.22e-16
Ocl 4.7207e-08
Prueba F global
Valor F : 1606.766 gl. num: 5 gl. den : 2486
p-valor : < 2.22e-16
Coeficientes de determinacion
R^2 : 0.7636844 R^2 ajustado : 0.7632091
Residuos
Minimo : -0.09370228
Mediana : -0.002240513
Maximo : 0.09816036
Desv. estandar residual: 0.02034247
--------------------------------------------------------------
Segundo modelo de regresión
modelo2 <- regresion.lineal(Ir~1+Ar+Fi+I(Fi^2)+Ld+Inq0+Ocl+I(Ocl^2))
resumen(modelo2)
graficar(modelo2)
--------------------------------------------------------------
Resumen de regresion lineal
MODELO : modelo2
Marco de datos : variables globales
Formula : Ir ~ 1 + Ar + Fi + I(Fi^2) + Ld + Inq0 + Ocl + I(Ocl^2)
Estimacion de los coeficientes poblacionales
Estimacion Error Est. Estadistico T
[Intercepto] 3.553545e+00 1.275557e-01 27.85877
Ar 1.558942e-06 5.216556e-08 29.88451
Fi -8.637778e-03 3.535800e-04 -24.42949
Fi^2 5.366278e-06 2.444955e-07 21.94837
Ld60 3.218830e-02 9.567038e-04 33.64500
Inq0TRUE -1.043817e-02 7.277374e-04 -14.34332
Ocl -4.370420e-03 2.763538e-04 -15.81458
Ocl^2 1.597878e-04 1.087364e-05 14.69497
p-valor
[Intercepto] < 2.22e-16
Ar < 2.22e-16
Fi < 2.22e-16
Fi^2 < 2.22e-16
Ld60 < 2.22e-16
Inq0TRUE < 2.22e-16
Ocl < 2.22e-16
Ocl^2 < 2.22e-16
Prueba F global
Valor F : 1568.202 gl. num: 7 gl. den : 2484
p-valor : < 2.22e-16
Coeficientes de determinacion
R^2 : 0.8154726 R^2 ajustado : 0.8149526
Residuos
Minimo : -0.09329256
Mediana : -0.001115824
Maximo : 0.1044033
Desv. estandar residual: 0.01798302
--------------------------------------------------------------
modelo3 <- regresion.lineal(Ir~-1+Ar+Fi+I(Fi^2)+
Ld+Inq0+Ocl+I(Ocl^2))
:
:
:
Coeficientes de determinacion
R^2 : 0.9828925 R^2 ajustado : 0.9828374
Residuos
Minimo : -0.09329256
Mediana : -0.001115824
Maximo : 0.1044033
Desv. estandar residual: 0.01798302
Conclusiones
Como citar esta entrada
Romero, J. (Marzo, 2013). The Lending Club - parte III. [Entrada de blog]. Recuperado desde https://unamatematicaseltigre.blogspot.com/2013/04/the-lending-club-parte-iii.html.
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
miércoles, 27 de marzo de 2013
The Lending Club - Parte II
Para comenzar a trabajar con este ejemplo
En la primera parte de esta serie de entradas, se expuso la información de contexto sobre el problema del Lending Club. En la siguiente parte, se hará el ejercicio de construcción de modelos de regresión lineal.
La data con la que se trabajará para este ejemplo está disponible para su descarga desde este enlace. Una vez descargado ese archivo, colóquelo en su directorio de trabajo de R, que usualmente será "Mis Documentos" en el caso de Windows. Para trabajar con este ejemplo, también debe tener la librería "estUNA" en su directorio de trabajo (consulte esta en si tiene dudas sobre cómo descargar estUNA y colocarla en su directorio de trabajo).
Sobre la data del problema del "Lending Club"
Identificador de variable | Descripción |
Ar | (Amount Requested) Monto solicitador por el prestatario para financiamiento. |
Af | (Amount Funded) Monto financiado. |
Ir | (Interest Rate) Tasa de Interés del financiamiento. Esta es la variable dependiente. |
Ld | (Loan Duration) Variable categórica correspondiente a la duración del préstamo (36 o 60 meses). |
Lp | (Loan Purpose) Variable categórica correspondiente al propósito del préstamo. |
DtIR | (Debt-to-income Ratio) Coeficiente de deuda sobre ingresos. |
St | (State) Código de dos letras correspondiente al estado de residencia del prestatario. |
Ho | (Home ownership) Tipo de propiedad sobre la casa: "NONE" es ninguna casa, "MORTGAGE" indica hipoteca sobre la casa, "OWN" indica que la casa es propia y "RENT" indica que la casa es alquilada. |
I | (Income) Ingreso mensual. |
Fi | (FICO) Puntuación FICO del solicitante. |
Ocl | (Open Credit Lines) Cantidad de líneas de crédito abiertas del solicitante. |
Rcb | (Rotating credit balance) Balance rotativo de credito. |
Inq | (Inquiries) Número de veces que algún comercio ha solicitado un reporte crediticio certificado. |
Ed | (Employment duration) Tiempo en el actual empleo. |
Análisis exploratorio de los datos
A continuación damos el script en R que realiza los distintos pasos del análisis exploratorio. Si va a experimentar con este script en su computadora, recuerde que debe tener el archivo de la librería estUNA y el archivo de data lending_club.Rda en su directorio de trabajo. Seguidamente iremos interpretando los resultados.
load("estUNA")Como primer paso del análisis exploratorio, se genera un resumen con las principales estadísticas del data frame. Esto lo hace la instrucción summary(loandata), tras lo cual se imprime lo siguiente:
load("lending_club.Rda")
attach(loandata)
options(width=60)
png("exploratorio%02d.png")
#Imprime un resúmen del data frame
summary(loandata)
#Matriz de correlación entre las variables cuantitativas
cor(loandata[,c("Ar","Af","Fi","I","Ocl","Rcb","Inq","Ir")])
#La primera gráfica es un histograma de Ir
graficar(Ir)
#A continuación unas graficas de dispersión
#Grafica la tasa de intereses (eje Y) versus:
graficar.dispersion(Ar,Ir,cex=0.2,pch=19)
#Monto solicitado
graficar.dispersion(Af,Ir,cex=0.2,pch=19)
#Monto financiado
graficar.dispersion(Fi,Ir,cex=0.2,pch=19)
#Puntuación FICO
graficar.dispersion(I,Ir,cex=0.2,pch=19)
#Ingreso mensual
graficar.dispersion(Ocl,Ir,cex=0.2,pch=19)
#Lin. credito abiertas
graficar.dispersion(DtIR,Ir,cex=0.2,pch=19)
#Deuda/Ingresos
graficar.dispersion(Rcb,Ir,cex=0.2,pch=19)
#Balance crédito rotativo
graficar.dispersion(Inq,Ir,cex=0.2,pch=19)
#Cantidad de indagaciones
#Diagramas de caja comparativos
#Grafica la relación entre la tasa de interés
#y las siguientes variables categóricas:
caja(Ir,Ho) #Propiedad de la vivienda
caja(Ir,Ed) #Tiempo en el empleo actual
caja(Ir,Ld) #Plazo de financiamiento (36 o 60 meses)
#Para las siguientes dos variables, la visualización
#más adecuada es una tabla.
#Estudia la variabilidad de las tasas de interés según:
#1) El propósito del prestamo (Lp)
lp_mat <- t(sapply(levels(Lp),
function(s)
c(sum(Lp==s), median(Ir[Lp==s]),
wilcox.test(Ir~Lp==s)\(\$\)p.value)
)
)
colnames(lp_mat) <- c("frec","mediana","p_valor")
lp_mat <- as.data.frame(lp_mat)
lp_mat <- lp_mat[order(lp_mat\(\$\)frec,decreasing=TRUE),]
lp_mat
#2) El estado de residencia del prestatario:
st_mat <- t(sapply(levels(St),
function(s)
c(sum(St==s), median(Ir[St==s]),
wilcox.test(Ir~St==s)\(\$\)p.value)
)
)
colnames(st_mat) <- c("frec","mediana","p_valor")
st_mat <- as.data.frame(st_mat)
st_mat <- st_mat[order(st_mat\(\$\)frec,decreasing=TRUE),]
st_mat
Ar Af Ir Ld
Min. : 1000 Min. : 200 Min. :0.0542 36:1944
1st Qu.: 6000 1st Qu.: 6000 1st Qu.:0.1016 60: 548
Median :10000 Median :10000 Median :0.1311
Mean :12431 Mean :12038 Mean :0.1308
3rd Qu.:17000 3rd Qu.:16000 3rd Qu.:0.1580
Max. :35000 Max. :35000 Max. :0.2489
Lp DtIR St
debt_consolidation:1306 Min. :0.0000 CA : 432
credit_card : 442 1st Qu.:0.0975 NY : 253
other : 197 Median :0.1533 TX : 174
home_improvement : 152 Mean :0.1540 FL : 169
major_purchase : 101 3rd Qu.:0.2068 IL : 101
small_business : 87 Max. :0.3491 GA : 97
(Other) : 207 (Other):1266
Ho I Fi
MORTGAGE:1146 Min. : 588.5 Min. :642.5
NONE : 0 1st Qu.: 3500.0 1st Qu.:682.5
OTHER : 5 Median : 5000.0 Median :702.5
OWN : 200 Mean : 5687.6 Mean :708.4
RENT :1141 3rd Qu.: 6800.0 3rd Qu.:727.5
Max. :102750.0 Max. :832.5
Ocl Rcb Inq
Min. : 2.00 Min. : 0 Min. :0.0000
1st Qu.: 7.00 1st Qu.: 5612 1st Qu.:0.0000
Median : 9.00 Median : 10978 Median :0.0000
Mean :10.07 Mean : 15263 Mean :0.9013
3rd Qu.:13.00 3rd Qu.: 18900 3rd Qu.:1.0000
Max. :38.00 Max. :270800 Max. :9.0000
Ed
10+ :653
< 1 :247
2 :244
3 :234
5 :201
4 :192
(Other):721
Ar Af Fi I
Ar 1.00000000 0.97022602 0.083040383 0.39109060
Af 0.97022602 1.00000000 0.073791988 0.37468574
Fi 0.08304038 0.07379199 1.000000000 0.12355539
I 0.39109060 0.37468574 0.123555388 1.00000000
Ocl 0.19680145 0.18779714 -0.090039520 0.17180076
Rcb 0.29277055 0.26116166 0.003217914 0.35936379
Inq -0.02721561 -0.06224654 -0.092828774 0.03398569
Ir 0.33141077 0.33627376 -0.709911785 0.01231114
DtIR 0.07985656 0.09177385 -0.217596139 -0.16376264
Ocl Rcb Inq Ir
Ar 0.19680145 0.292770550 -0.02721561 0.33141077
Af 0.18779714 0.261161657 -0.06224654 0.33627376
Fi -0.09003952 0.003217914 -0.09282877 -0.70991178
I 0.17180076 0.359363787 0.03398569 0.01231114
Ocl 1.00000000 0.290582979 0.10790657 0.09109025
Rcb 0.29058298 1.000000000 0.01285580 0.06042262
Inq 0.10790657 0.012855801 1.00000000 0.16846322
Ir 0.09109025 0.060422621 0.16846322 1.00000000
DtIR 0.37172725 0.188286897 0.01126195 0.17143913
DtIR
Ar 0.07985656
Af 0.09177385
Fi -0.21759614
I -0.16376264
Ocl 0.37172725
Rcb 0.18828690
Inq 0.01126195
Ir 0.17143913
DtIR 1.00000000
La puntuación FICO del solicitante está muy correlacionada con la tasa de interés del préstamo. Pero a su vez, como vimos en la primera parte de esta serie (The Lending Club - Parte I), muchas de las variables en este data frame son tomadas en cuenta para el cálculo de la calificación FICO. Entonces, por una parte esperaríamos cierta correlación entre esas variables y la calificación FICO. Si esas variables se incluyen en el modelo lineal, pudiésemos estar ante un problema de variables de confusión (confounder variables). Las variables de confusión son aquellas que están correlacionadas con la variable dependiente y con alguna o algunas de las otras variables independientes del modelo. El problema que generan las variables de confusión es que a veces, sus efectos sobre la variable dependiente pueden ser exagerados. También puede ocurrir lo que se llama un efecto supresor. Puede consultar más sobre estos temas en este blog. Por nuestra parte, algunos de estos conceptos saldrán a relucir a medida que iremos ensayando distintos modelos de regresión lineal.
A continuación podemos observar algunas gráficas. La primera (Fig. 1) es un histograma de las tasas de interés:
Seguimos con la parte más ilustrativa de nuestro análisis exploratorio, que son las gráficas de dispersión entre la tasa de interés y las otras variables cuantitativas (Fig. 2):
(a) Ar / Ir
|
(b) Fi / Ir
|
(a) Ir ~ Ho
|
(b) Ir ~ Ed
|
(c) Ir ~ Ld
|
frec mediana p_valor
CA 432 0.13110 0.69246237
NY 253 0.13110 0.82515314
TX 174 0.13110 0.30747046
FL 169 0.13110 0.88525055
IL 101 0.12530 0.22145716
GA 97 0.12180 0.27619025
PA 96 0.13045 0.23581778
NJ 92 0.12120 0.38675613
VA 78 0.12550 0.78497883
MA 73 0.12120 0.38183801
OH 71 0.12230 0.10542538
MD 68 0.13790 0.62463807
NC 64 0.12405 0.34075690
CO 61 0.13110 0.92712927
WA 58 0.13110 0.89902872
CT 50 0.13140 0.29789052
AZ 46 0.13110 0.86390489
MI 45 0.14090 0.01538049
MN 38 0.13545 0.34930242
: : : :
: : : :
frec mediana p_valor
debt_consolidation 1306 0.13490 6.704956e-11
credit_card 442 0.13110 9.769974e-01
other 197 0.13060 6.911076e-01
home_improvement 152 0.11130 2.162582e-06
major_purchase 101 0.11120 2.559098e-08
small_business 87 0.12840 6.169896e-01
car 50 0.10475 9.231269e-04
wedding 39 0.12210 2.223396e-01
medical 30 0.13110 8.066417e-02
moving 29 0.13110 6.110691e-01
vacation 21 0.12120 3.160609e-01
house 20 0.13085 8.177116e-01
educational 14 0.09755 4.628680e-02
renewable_energy 4 0.09130 1.336665e-01
Análisis exploratorio de datos - algunas conclusiones
Como citar esta entrada
Romero, J. (Marzo, 2013). The Lending Club - parte II. [Entrada de blog]. Recuperado desde https://unamatematicaseltigre.blogspot.com/2013/03/the-lending-club-parte-ii.html.
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
martes, 19 de marzo de 2013
Observaciones sobre el trabajo de estadística (regresión lineal) del semestre 2013-1
NO ES OBLIGATORIO EL USO DE R PARA LA REALIZACIÓN DE ESTE TRABAJO. POR RAZONES HARTO EXPLICADAS EN ESTA PÁGINA, YO RECOMIENDO EL USO DE R, PERO EL ESTUDIANTE PUEDE OPTAR POR USAR EXCEL, SAS, SPSS, MINITAB O CUALQUIER APLICACION ESTADÍSTICA (Excel es un programa de hoja de cálculo, no una aplicación para la estadística). LO QUE SE REQUIERE ES REALIZAR LAS ACTIVIDADES QUE SE PIDEN EN EL ENUNCIADO CORRECTAMENTE.
Modelo 1: Y = b0 + b1 X1 + b2 X2 + b3 X3 + b4 X4 + b6 X6 +b7 X7 + b8 X8 + b9 X9
Modelo 2: Y = b1 X1 + b2 X2 + b3 X3 + b4 X4 + b6 X6 + b7 X7 + b8 X8 + b9 X9
6.2. Explicar cual de los modelos anteriores consideraría para realizar el estudio.
6.3. Estudiar la posibilidad de colinealidad o multicolinealidad en el modelo
6.4. Partiendo del modelo obtenido en la pregunta 6.3, explicar todos los resultados
6.5. Utilizar el procedimiento de regresión paso a paso (eliminación hacia atrás) para
6.6. Considere una nueva variable,
X11=(X3+X4)/2.
Construir el siguiente modelo,
Y = b1 X1 + b2 X2 + b7 X7 + b8 X8 + b9 X9 + b11 X11
Realizar el procedimiento indicado en 6.5.
6.7. Explicar cual de los modelos obtenidos en 6.5 y 6.6 representa “mejor” la situación
6.8. Realizar un análisis de residuos para los modelos obtenidos en los puntos 6.5
6.9. Explicar los fundamentos teóricos que justifican o no, todos los pasos seguidos
- Un tutorial sobre como descargar e instalar R o utilizarlo a través de un servidor web: https://dl.dropbox.com/u/25445316/unamatematicaseltigre/conseguirR.html
- Un tutorial de introducción a la programación en R, cubriendo los aspectos básicos de este lenguaje de programación: https://dl.dropbox.com/u/25445316/unamatematicaseltigre/introduccionR.html
- Un tutorial sobre el uso de la librería estUNA (https://dl.dropbox.com/u/25445316/unamatematicaseltigre/estUNA.html). En este tutorial se trabaja con la data del semestre 2010-2 para ilustrar cómo dar cumplimiento a los distintos requerimientos de los trabajos prácticos de estadística para ese semestre. Debe buscar la parte de este tutorial que ejemplifica lo que usted desee realizar (la regresión lineal).
- La monografía sobre análisis de residuos antes mencionada.
- Una entrada de este blog ilustrando cómo realizar la regresión lineal mediante el procedimiento de regresión paso a paso (eliminación hacia atrás).
- En esta página hay otros ejemplos de cómo usar R que pueden buscar mediante palabras claves como: 746, R, estUNA, entre otras
- Una serie de entradas referentes al problema de determinar cuales factores inciden en la determinación de las tasas de interés de créditos personales: The Lending Club - parte 1, parte 2 y parte 3. En la parte 2 de estas entradas, se da un ejemplo de cómo detectar (y cuantificar) la colinealidad entre las variables. En la parte 3, se construyen y se evalúan varios modelos de regresión lineal.
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
miércoles, 13 de marzo de 2013
Trabajos de estadística para el semestre 2013-1
- 745 - Estadística General
- 746 - Estadística Aplicada
- 738/748 - Inferencia Estadística
- Data en Excel
- Normas para la elaboración del informe
- 1era Entrega: primera versión del informe final entre el 15/04/2013 y el 20/04/2013, en esta oportunidad el trabajo será revisado por el asesor y el participante debe registrar las observaciones pertinentes a fin de realizar las correcciones, pues el trabajo lo retiene el asesor hasta la entrega final con el objeto de verificar que las correcciones fueron realizadas.
- 2da Entrega: Versión final del trabajo entre el 20/05/2013 y el 25/05/2013
improrrogable. De no respetar las dos entregas en los lapsos correspondientes queda a discreción del asesor considerar reprobado el trabajo.
Cómo de costumbre, las entregas se pueden hacer enviando a mi correo el informe en Open Office, PDF o Word (ojo, versión 2003, no enviar en versión 2007 o posterior).
Les recomiendo (aunque no es obligatorio) el uso de R para la elaboración de este trabajo. La data para este semestre ya está incorporada en mi librería estUNA.
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
lunes, 5 de noviembre de 2012
Sobre las variables aleatorias continuas, ecuaciones de dibujitos y la moda.
Para las variables uniformes, la función de densidad es constante en un intervalo de valores. La función de densidad exponencial es para todo x>0. La función de densidad normal es algo más complicada que la función de densidad exponencial y no vale la pena dar su forma explícita aqui. Lo importante es familiarizarse con los tipos de gráficas de estas funciones de densidad:
Fig. 1a - variable uniforme |
Fig. 1b - variable exponencial |
Fig. 1c - variable normal |
En los cursos introductorios de teoría de probabilidad (asignaturas 737, 745 y 747 de la UNA), vemos algunas distribuciones continuas y cómo calcular probabilidades respecto a estas distribuciones. La finalidad de esto es reconocerlas como modelos matemáticos de algún fenómeno real y poder así inferir sobre la realidad en base a nuestro modelo matemático. Por ejemplo, al observar el histograma de frecuencias para la variable X2 (trabajo práctico 2012-1) en la figura 2,
Fig. 2 - histograma de X2
|
uno podría sospechar que la variable X2 (edades de 150 niños de una muestra) es uniformemente distribuida: las frecuencias de los intervalos de clase, indicadas por las alturas de las barras de la gráfica, son más o menos iguales. De hecho, tendría mucho sentido escoger una muestra de 150 niños de modo que todos los grupos de edades tuviesen igual representación (frecuencia). En los cursos de inferencia estadística (asignaturas 746 y 738/748 de la UNA), se estudian técnicas para comprobar si la distribución de frecuencias de una muestra es lo "suficientemente parecida" a alguna distribución de probabilidades específica. Estas técnicas se conocen como "contrastes de bondad de ajuste".
Para calcular probabilidades de tipo "calcúle la probabilidad de que una variable contínua X asuma valores entre a y b", necesitamos conocer lo que se llama la función de distribución de probabilidad (acumulada). La función de distribución de probabilidad, denotada por F(x) ("F mayúscula de X", a no confundir con f(x), que es la función de densidad) es básicamente la integral de la función de densidad. Sin embargo, como los que cursan las carreras de contaduría y administración, en cuyo pensum de estudio no figura el cáculo integral, en los formularios se dan directamente las fórmulas o las tablas que nos permiten trabajar con la función de distribución directamente. Por ejemplo, a continuación damos las fórmulas par las funciones de distribución de la variable uniforme y exponencial:
Función de distribución
uniforme
|
Función de distribución
exponencial
|
En efecto, podemos hacer una analogía entre "probabilidad" y "área bajo la curva de densidad" que nos permitirá fácilmente calcular probabilidades respecto a cualquier variable aleatoria contínua. Esto es algo así como el equivalente probabilístico de los diagramas de Venn en teoría de conjuntos. Siempre ha de recordarse que para cualquier función de densidad, el aŕea total bajo la curva en todo el rango de la variable es 1. La función de densidad nos indíca como se distribuye la probabilidad total de 1 a través de todo el rango de valores de la variable.
Explotando esta analogía, les propongo a continuación una técnica visual para facilitar el cálculo de probabilidades que he llamado "ecuaciones con dibujitos". Supóngase por ejemplo que queremos calcular P(X>4) para una variable X exponencialmente distribuida. Revisando la fórmula 55, notamos que solo nos permite calcular probabilidades de tipo P(X<x), y nosotros necesitamos que la desigualdad sea al contrario (P(X>4)). Sin embargo, podemos utilizar la fórmula 55 si nos damos cuenta que P(X<4) es el área bajo la curva exponencial desde 0 hasta 4. Teniendo en cuenta que P(X>4) es el área bajo la curva exponencial desde 4 hasta infiníto, y que ambas áreas suman a 1, tenemos la siguiente ecuación de dibujitos:
Esta ecuación de dibujitos se interpreta como sigue: "para calcular P(X>4), tenemos que restarle el área (sombreada) bajo la curva a la izquierda de 4 al área total bajo la curva exponencial, que es igual a uno". De este modo, la ecuación de dibujitos nos sugiere como calcular P(X>4) a partir del valor de P(X<4) que podemos calcular a partir de la fórmula de la función de distribución de probabilidad acumulada.
Proponemos otro ejemplo de cálculo de probabilidades referente a una distribución uniforme entre 10 y 20. Supóngase que esta vez estamos interesados en calcular P(12<X<16). Puesto que la fòrmula 49 de la función de distribución de probabilidad uniforme sólo nos permite calcular probabilidades de tipo P(X<x), o equivalentemente, areas bajo la curva de densidad uniforme ubicadas a la izquierda de la distribución, podemos plantear una ecuación de dibujitos que nos permita orientarnos en el cálculo:
Así, para este ejemplo, P(12<X<16)=P(X<16)-P(X<12)=0.6-0.2=0.4. En resúmen, podemos plantear cualquier cálculo de probabilidades respecto a variables contínuas como un cálculo con sumas y restas de áreas (sombreadas) bajo la curva.
Para las variables normálmente distribuidas no se dá explícitamente la fórmula de la función de distribución de probabilidad acumulada F(x), puesto que para el caso de la normal, la función de densidad f(x) no tiene primitiva (no es posible calcular su integral indefinida analíticamente). Por esta razón, el cálculo de probabilidades para la distribución normal involucra el uso de tablas, donde se encuentran tabulados los valores F(x) para distintos valores de x. El cálculo de probabilidades normales será abordado en una entrada futura en este blog. Como se verá, las ecuaciones de dibujitos son particularmente útiles en ese contexto también.
Mientras tanto, volvemos sobre el tema de la moda en el contexto de las variables aleatorias continuas. En los trabajos prácticos de la asignatura 745, muchos de ustedes utilizan la función MODA de Excel para calcular la moda de una muestra para datos no agrupados. Generalmente, esta función en Excel arroja "#NA" como respuesta, lo cual se interpreta como "no disponible". De ahí, muchos estudiantes infieren erroneamente que la variable en cuestión no tiene moda, o que la moda no existe para esta variable. Esto es desde luego un error, pues toda variable aleatoria tiene por lo menos un valor modal (en el caso de la uniforme, todos sus valores son modales). ¿Porqué Excel no puede calcular la moda para algunas variables?
Veamos la cuestión un poco más a fondo. La función MODA de Excel simplemente devuelve el valor que más se repite entre un conjunto de valores. Cuando ningún valor se repite, la función MODA devuelve "#NA". Esto no significa que la variable en cuestión no tenga moda, simplemente nos indica que ningún valor de la muestra se repite. El problema es que cási siempre, cuando trabajamos con poblaciones con distribuciones de probabilidad contínuas, ningún valor de la muestra se repite y si esto sucede, es debido a errores de medición o truncamiento decimal.
La razón por la cual ningún valor se repite en una muestra proveniente de una población con distribución continua tiene que ver con el hecho que para toda variable aleatoria continua, cualquier probabilidad puntual de tipo P(X=x) es necesariamente igual a cero. Para visualizar intuitivamente este hecho, planteamos el cálculo de una probabilidad puntual mediante una ecuación de dibujitos:
El ejemplo de arriba está referido al cálculo de P(X=100) para una variable aleatoria normal con media igual a 100. Como el resultado de la resta de las dos areas sombreadas es el área equivalente a la superficie de un segmento de recta - y puesto que los segmentos de recta tienen área nula (la recta es un área infinitamente delgada) - se puede ver que la probabilidad P(X=100) es necesariamente igual a cero ¡aún cuando paradójicamente, la media de la variable es igual a 100!
Para las variables aleatorias continuas, no se puede calcular la moda como "aquel valor que más se repite", puesto que todas las probabilidades puntuales son iguales a cero. Por lo tanto, la función MODA de Excel no puede calcular el valor modal para este tipo de variables ¿Qué hacer entonces?
Primeramente, para el caso de las variables continuas, la definición de la moda como el "valor con mayor frecuencia asociada" no es del todo correcta, o es correcta sólo en parte. Para estas variables, la moda es aquel valor con mayor densidad de probabilidad asociado y debemos tener presente que "densidad de probabilidad" no es lo mismo que "probabilidad". Para calcular la moda muestral en tales casos, sería necesario estimar esta función de densidad de probabilidad en base a la muestra (lo que se conoce como el kernel o núcleo de densidad) y determinar el punto para el cual esta densidad se hace máxima. Y esto, claramente, es algo que no hace el Excel. Por lo tanto, la alternativa sería usar un programa para estadísticas "de verdad".
En R, usando mi librería estUNA, esto es bastante fácil de hacer. Por ejemplo, si queremos calcular la moda de la variable X2 cuyo histograma es el de la figura 2 arriba, esto se haría mediante el comando resumen(X2), cuya salida devuelve toda clase de medidas estadísticas de la variable X2, incluyendo la moda de dicha variable, o utilizar el comando moda(X2), que devuelve sólamente la moda. Para esta variable en partícular, la moda es de 7,323183, lo cual se indica mediante la línea vertical roja en el histograma de la figura 2.
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.