Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
martes, 19 de noviembre de 2013
Estudio de estadística descriptiva en R /estUNA - video Tutorial
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
miércoles, 27 de marzo de 2013
The Lending Club - Parte II
Para comenzar a trabajar con este ejemplo
En la primera parte de esta serie de entradas, se expuso la información de contexto sobre el problema del Lending Club. En la siguiente parte, se hará el ejercicio de construcción de modelos de regresión lineal.
La data con la que se trabajará para este ejemplo está disponible para su descarga desde este enlace. Una vez descargado ese archivo, colóquelo en su directorio de trabajo de R, que usualmente será "Mis Documentos" en el caso de Windows. Para trabajar con este ejemplo, también debe tener la librería "estUNA" en su directorio de trabajo (consulte esta en si tiene dudas sobre cómo descargar estUNA y colocarla en su directorio de trabajo).
Sobre la data del problema del "Lending Club"
Identificador de variable | Descripción |
Ar | (Amount Requested) Monto solicitador por el prestatario para financiamiento. |
Af | (Amount Funded) Monto financiado. |
Ir | (Interest Rate) Tasa de Interés del financiamiento. Esta es la variable dependiente. |
Ld | (Loan Duration) Variable categórica correspondiente a la duración del préstamo (36 o 60 meses). |
Lp | (Loan Purpose) Variable categórica correspondiente al propósito del préstamo. |
DtIR | (Debt-to-income Ratio) Coeficiente de deuda sobre ingresos. |
St | (State) Código de dos letras correspondiente al estado de residencia del prestatario. |
Ho | (Home ownership) Tipo de propiedad sobre la casa: "NONE" es ninguna casa, "MORTGAGE" indica hipoteca sobre la casa, "OWN" indica que la casa es propia y "RENT" indica que la casa es alquilada. |
I | (Income) Ingreso mensual. |
Fi | (FICO) Puntuación FICO del solicitante. |
Ocl | (Open Credit Lines) Cantidad de líneas de crédito abiertas del solicitante. |
Rcb | (Rotating credit balance) Balance rotativo de credito. |
Inq | (Inquiries) Número de veces que algún comercio ha solicitado un reporte crediticio certificado. |
Ed | (Employment duration) Tiempo en el actual empleo. |
Análisis exploratorio de los datos
A continuación damos el script en R que realiza los distintos pasos del análisis exploratorio. Si va a experimentar con este script en su computadora, recuerde que debe tener el archivo de la librería estUNA y el archivo de data lending_club.Rda en su directorio de trabajo. Seguidamente iremos interpretando los resultados.
load("estUNA")Como primer paso del análisis exploratorio, se genera un resumen con las principales estadísticas del data frame. Esto lo hace la instrucción summary(loandata), tras lo cual se imprime lo siguiente:
load("lending_club.Rda")
attach(loandata)
options(width=60)
png("exploratorio%02d.png")
#Imprime un resúmen del data frame
summary(loandata)
#Matriz de correlación entre las variables cuantitativas
cor(loandata[,c("Ar","Af","Fi","I","Ocl","Rcb","Inq","Ir")])
#La primera gráfica es un histograma de Ir
graficar(Ir)
#A continuación unas graficas de dispersión
#Grafica la tasa de intereses (eje Y) versus:
graficar.dispersion(Ar,Ir,cex=0.2,pch=19)
#Monto solicitado
graficar.dispersion(Af,Ir,cex=0.2,pch=19)
#Monto financiado
graficar.dispersion(Fi,Ir,cex=0.2,pch=19)
#Puntuación FICO
graficar.dispersion(I,Ir,cex=0.2,pch=19)
#Ingreso mensual
graficar.dispersion(Ocl,Ir,cex=0.2,pch=19)
#Lin. credito abiertas
graficar.dispersion(DtIR,Ir,cex=0.2,pch=19)
#Deuda/Ingresos
graficar.dispersion(Rcb,Ir,cex=0.2,pch=19)
#Balance crédito rotativo
graficar.dispersion(Inq,Ir,cex=0.2,pch=19)
#Cantidad de indagaciones
#Diagramas de caja comparativos
#Grafica la relación entre la tasa de interés
#y las siguientes variables categóricas:
caja(Ir,Ho) #Propiedad de la vivienda
caja(Ir,Ed) #Tiempo en el empleo actual
caja(Ir,Ld) #Plazo de financiamiento (36 o 60 meses)
#Para las siguientes dos variables, la visualización
#más adecuada es una tabla.
#Estudia la variabilidad de las tasas de interés según:
#1) El propósito del prestamo (Lp)
lp_mat <- t(sapply(levels(Lp),
function(s)
c(sum(Lp==s), median(Ir[Lp==s]),
wilcox.test(Ir~Lp==s)\(\$\)p.value)
)
)
colnames(lp_mat) <- c("frec","mediana","p_valor")
lp_mat <- as.data.frame(lp_mat)
lp_mat <- lp_mat[order(lp_mat\(\$\)frec,decreasing=TRUE),]
lp_mat
#2) El estado de residencia del prestatario:
st_mat <- t(sapply(levels(St),
function(s)
c(sum(St==s), median(Ir[St==s]),
wilcox.test(Ir~St==s)\(\$\)p.value)
)
)
colnames(st_mat) <- c("frec","mediana","p_valor")
st_mat <- as.data.frame(st_mat)
st_mat <- st_mat[order(st_mat\(\$\)frec,decreasing=TRUE),]
st_mat
Ar Af Ir Ld
Min. : 1000 Min. : 200 Min. :0.0542 36:1944
1st Qu.: 6000 1st Qu.: 6000 1st Qu.:0.1016 60: 548
Median :10000 Median :10000 Median :0.1311
Mean :12431 Mean :12038 Mean :0.1308
3rd Qu.:17000 3rd Qu.:16000 3rd Qu.:0.1580
Max. :35000 Max. :35000 Max. :0.2489
Lp DtIR St
debt_consolidation:1306 Min. :0.0000 CA : 432
credit_card : 442 1st Qu.:0.0975 NY : 253
other : 197 Median :0.1533 TX : 174
home_improvement : 152 Mean :0.1540 FL : 169
major_purchase : 101 3rd Qu.:0.2068 IL : 101
small_business : 87 Max. :0.3491 GA : 97
(Other) : 207 (Other):1266
Ho I Fi
MORTGAGE:1146 Min. : 588.5 Min. :642.5
NONE : 0 1st Qu.: 3500.0 1st Qu.:682.5
OTHER : 5 Median : 5000.0 Median :702.5
OWN : 200 Mean : 5687.6 Mean :708.4
RENT :1141 3rd Qu.: 6800.0 3rd Qu.:727.5
Max. :102750.0 Max. :832.5
Ocl Rcb Inq
Min. : 2.00 Min. : 0 Min. :0.0000
1st Qu.: 7.00 1st Qu.: 5612 1st Qu.:0.0000
Median : 9.00 Median : 10978 Median :0.0000
Mean :10.07 Mean : 15263 Mean :0.9013
3rd Qu.:13.00 3rd Qu.: 18900 3rd Qu.:1.0000
Max. :38.00 Max. :270800 Max. :9.0000
Ed
10+ :653
< 1 :247
2 :244
3 :234
5 :201
4 :192
(Other):721
Ar Af Fi I
Ar 1.00000000 0.97022602 0.083040383 0.39109060
Af 0.97022602 1.00000000 0.073791988 0.37468574
Fi 0.08304038 0.07379199 1.000000000 0.12355539
I 0.39109060 0.37468574 0.123555388 1.00000000
Ocl 0.19680145 0.18779714 -0.090039520 0.17180076
Rcb 0.29277055 0.26116166 0.003217914 0.35936379
Inq -0.02721561 -0.06224654 -0.092828774 0.03398569
Ir 0.33141077 0.33627376 -0.709911785 0.01231114
DtIR 0.07985656 0.09177385 -0.217596139 -0.16376264
Ocl Rcb Inq Ir
Ar 0.19680145 0.292770550 -0.02721561 0.33141077
Af 0.18779714 0.261161657 -0.06224654 0.33627376
Fi -0.09003952 0.003217914 -0.09282877 -0.70991178
I 0.17180076 0.359363787 0.03398569 0.01231114
Ocl 1.00000000 0.290582979 0.10790657 0.09109025
Rcb 0.29058298 1.000000000 0.01285580 0.06042262
Inq 0.10790657 0.012855801 1.00000000 0.16846322
Ir 0.09109025 0.060422621 0.16846322 1.00000000
DtIR 0.37172725 0.188286897 0.01126195 0.17143913
DtIR
Ar 0.07985656
Af 0.09177385
Fi -0.21759614
I -0.16376264
Ocl 0.37172725
Rcb 0.18828690
Inq 0.01126195
Ir 0.17143913
DtIR 1.00000000
La puntuación FICO del solicitante está muy correlacionada con la tasa de interés del préstamo. Pero a su vez, como vimos en la primera parte de esta serie (The Lending Club - Parte I), muchas de las variables en este data frame son tomadas en cuenta para el cálculo de la calificación FICO. Entonces, por una parte esperaríamos cierta correlación entre esas variables y la calificación FICO. Si esas variables se incluyen en el modelo lineal, pudiésemos estar ante un problema de variables de confusión (confounder variables). Las variables de confusión son aquellas que están correlacionadas con la variable dependiente y con alguna o algunas de las otras variables independientes del modelo. El problema que generan las variables de confusión es que a veces, sus efectos sobre la variable dependiente pueden ser exagerados. También puede ocurrir lo que se llama un efecto supresor. Puede consultar más sobre estos temas en este blog. Por nuestra parte, algunos de estos conceptos saldrán a relucir a medida que iremos ensayando distintos modelos de regresión lineal.
A continuación podemos observar algunas gráficas. La primera (Fig. 1) es un histograma de las tasas de interés:
Seguimos con la parte más ilustrativa de nuestro análisis exploratorio, que son las gráficas de dispersión entre la tasa de interés y las otras variables cuantitativas (Fig. 2):
(a) Ar / Ir
|
(b) Fi / Ir
|
(a) Ir ~ Ho
|
(b) Ir ~ Ed
|
(c) Ir ~ Ld
|
frec mediana p_valor
CA 432 0.13110 0.69246237
NY 253 0.13110 0.82515314
TX 174 0.13110 0.30747046
FL 169 0.13110 0.88525055
IL 101 0.12530 0.22145716
GA 97 0.12180 0.27619025
PA 96 0.13045 0.23581778
NJ 92 0.12120 0.38675613
VA 78 0.12550 0.78497883
MA 73 0.12120 0.38183801
OH 71 0.12230 0.10542538
MD 68 0.13790 0.62463807
NC 64 0.12405 0.34075690
CO 61 0.13110 0.92712927
WA 58 0.13110 0.89902872
CT 50 0.13140 0.29789052
AZ 46 0.13110 0.86390489
MI 45 0.14090 0.01538049
MN 38 0.13545 0.34930242
: : : :
: : : :
frec mediana p_valor
debt_consolidation 1306 0.13490 6.704956e-11
credit_card 442 0.13110 9.769974e-01
other 197 0.13060 6.911076e-01
home_improvement 152 0.11130 2.162582e-06
major_purchase 101 0.11120 2.559098e-08
small_business 87 0.12840 6.169896e-01
car 50 0.10475 9.231269e-04
wedding 39 0.12210 2.223396e-01
medical 30 0.13110 8.066417e-02
moving 29 0.13110 6.110691e-01
vacation 21 0.12120 3.160609e-01
house 20 0.13085 8.177116e-01
educational 14 0.09755 4.628680e-02
renewable_energy 4 0.09130 1.336665e-01
Análisis exploratorio de datos - algunas conclusiones
Como citar esta entrada
Romero, J. (Marzo, 2013). The Lending Club - parte II. [Entrada de blog]. Recuperado desde https://unamatematicaseltigre.blogspot.com/2013/03/the-lending-club-parte-ii.html.
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
martes, 26 de marzo de 2013
The Lending Club - parte I
El Lending Club es un portal de internet que reúne a inversionistas y prestatarios. Según la información en su portal (http://www.lendingclub.com), los inversionistas obtienen mayores márgenes de rentabilidad que los que obtendrían a través de otros instrumentos de inversión más tradicionales, mientras que los prestatarios, que pueden obtener créditos personales de hasta $35000, terminan pagando tasas de intereses un poco más bajas que las de la banca convencional. Para optar a un crédito, los prestatarios deben reunir ciertos requisitos: una puntuación crediticia mínima de 660 puntos FICO, un coeficiente de deuda a ingresos máximo de 35%, por lo menos dos líneas crediticias activas, entre otros. La información de cada solicitud de crédito se evalúa y se "publica" el préstamo en el portal a determinada tasa de interés fijo y a un plazo determinado para captar inversionistas. Y por supuesto, el Lending Club cobra una comisión en intereses por cada préstamo tramitado.
Es menester explicar algunos términos que se emplean en el contexto crediticio estadounidense, como por ejemplo la puntuación FICO. Básicamente, la puntuación FICO representa la calificación crediticia de un individuo. Es un número en el rango de 300 a 850, donde los valores más altos representan mejores historiales crediticios. La puntuación FICO influye de manera determinante sobre la decisión de otorgar o negar préstamos y sobre las tasas de interés de esos prestamos. Puede leer más sobre esto en ¿Qué es el puntaje de crédito FICO?. Otro factor que influye sobre el otorgamiento de créditos son los denominados inquiries o indagaciones, que son la cantidad de veces que algún comercio ha solicitado una copia certificada del reporte crediticio de un individuo que es emitido por alguna de las tres agencias que otorgan la calificación FICO en Estados Unidos. Por último, es preciso destacar que los créditos del Lending Club se otorgan sin garantía hipotecaria.
Desde la página web del Lending Club se puede descargar la data referente a miles de solicitudes de crédito que se han tramitado por este portal. Cada solicitud contiene data sobre el historial crediticio del solicitante, alguna data personal y financiera (como por ejemplo los ingresos mensuales, tiempo en el empleo actual, etc.), el monto solicitado y el propósito del préstamo y finalmente, la tasa de interés fija del crédito aprobado.
Supongamos ahora que Ud. está creando un portal similar al Lending Club y desea saber lo siguiente:
¿Cuales son los mecanismos que usa el Lending Club para fijar las tasas de interés de un crédito? ¿Cuales otros factores, aparte de la calificación FICO, influyen sobre este cálculo y cómo?
El problema anterior fue planteado como trabajo práctico para un curso on-line que acabo de culminar, llamado "Data Analysis", facilitado por el Profesor Jeff Leek de la Universidad John Hopkins-Bloomberg. Originalmente, para esta asignación había que aplicar un proceso preparatorio de la data (conocido como data munging) para poder tener una data con la cual se pueda trabajar. En la vida real, es necesario preparar los datos antes de poderlos procesar en R o cualquier aplicación estadística, pues los datos en su forma original (en una página web o un informe en pdf) muchas veces no están aptos para ser procesados estadísticamente. En esta oportunidad, yo les facilitaré los datos en una forma directamente utilizable en R (como un archivo con extensión .Rda), pues mi intención en esta serie de entradas sobre el problema del Lending Club es ilustrar cómo
- Realizar un análisis exploratorio de datos para descubrir las posibles asociaciones entre las variables. Esto se hará en la segunda parte de esta entrada
- Construir algunos modelos de regresión lineal, evaluarlos y compararlos entre sí.
- Detectar algunos problemas que surgen en la regresión lineal: variables de confusión, multicolinealidad, asociaciones no lineales entre las variables, heteroscedasticidad de los residuos, entre otros. Estos dos últimos se abordarán en la tercera y última parte de esta serie de entradas.
Espero que esta serie de entradas les sea de utilidad a los cursantes de las asignaturas 746, 738 y 748, quienes deben realizar un trabajo práctico sobre regresión lineal. En las próximas entradas desarrollaré los puntos mencionados arriba. Utilizaré para ello el lenguaje R y como de costumbre, podrán ver las instrucciones en R utilizadas y la interpretación de los resultados que estas arrojan y de esta forma reproducir los análisis que se harán.
Romero, J. (Marzo, 2013). The Lending Club - parte I. [Entrada de blog]. Recuperado desde http://unamatematicaseltigre.blogspot.com/2013/03/the-lending-club-parte-i.html.
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.