Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
lunes, 4 de noviembre de 2013
Video tutorial sobre cómo instalar R
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
jueves, 3 de octubre de 2013
Trabajos de Estadística para el 2013-2
- 745 - Estadística General
- 746 - Estadística Aplicada
- 738/748 - Inferencia Estadística
- Data en formato CSV
- Normas para la elaboración del informe
- 1era Entrega: primera versión del informe final entre el 09/11/2013 y el 16/11/2013, en esta oportunidad el trabajo será revisado por el asesor y el participante debe registrar las observaciones pertinentes a fin de realizar las correcciones, pues el trabajo lo retiene el asesor hasta la entrega final con el objeto de verificar que las correcciones fueron realizadas.
- 2da Entrega: Versión final del trabajo entre el 11/01/2014 y el 18/01/2014 improrrogable. De no respetar las dos entregas en los lapsos correspondientes queda a discreción del asesor considerar reprobado el trabajo.
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
lunes, 9 de septiembre de 2013
Modelado con Parabolas y Catenarias
\[
y=a\cdot\frac{e^{\tfrac{x}{a}}+e^{-\tfrac{x}{a}}}{2}
\]
Les dejo a continuación el script en R para realizar el ajuste de la curva en una fotografía a una función cuadrática. Primeramente, se hace uso de una librería llamada png (que hay que instalar mediante el comando install.packages) para colocar la foto como imagen de fondo. Mediante la función locator, obtenemos un data frame con las coordenadas x/y de los n puntos que seleccionamos sobre la imagen (tratando de que estos puntos caigan exactamente sobre la curva). Por último, se ajusta el modelo cuadrático y~1+x+x^2 a estos puntos mediante una regresión lineal y se gráfica la curva parabólica obtenida con estos coeficientes.
#Ajuste de los cables de suspensión del Puente de Angostura
#sobre el Río Orinoco a una parabola
#Autor: Prof. José Romero
#Fecha: 09/09/13
library(png)
ima <- readPNG("angostura.png")
plot.new()
plot.window(c(-211,211),c(-156,156))
lim <- par()
rasterImage(ima, lim\(\$\)usr[1], lim\(\$\)usr[3],
lim\(\$\)usr[2], lim\(\$\)usr[4])
axis(1)
axis(2)
grid()
#selecciona 9 puntos sobre el cable suspendido del puente
datapoints <- locator(n=9,type="p")
points(datapoints,col="red")
#ajusta a una función cuadrática
cuadraticmodel <- lm(y~1+x+I(x^2),data=datapoints) coefs <- as.numeric(coef(cuadraticmodel))
a2 <- coefs[3]
a1 <- coefs[2]
a0 <- coefs[1]
parabola <- function(x) return(a2*x^2 + a1*x + a0)
curve(parabola,from=-200,to=200,col="red",add=TRUE)
Referencias
- Ivorra, C. La Catenaria. Disponible en: http://www.uv.es/~ivorra/Libros/Catenaria.pdf.
- Jiménez, A. (2006) La Curva Catenaria. Disponible en: http://www.xatakaciencia.com/matematicas/la-curva-catenaria.
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
sábado, 13 de julio de 2013
Anuncio de charla sobre Python
Se anuncia una charla titulada
"Hazlo tu mism@ en Python"
Para mayores detalles abra el enlace en el título.
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
miércoles, 1 de mayo de 2013
Cómo evitarse calculos tediosos en un exámen sobre regresión lineal
Unos cálculos tediosos
El menú principal de STAT en la calculadora CASIO fx-85ES
- Type
Para indicar el tipo de análisis estadístico a realizar entre las siguientes posibilidades. Las opciones más comúnmente utilizadas son la 1 (estadísticas de una variable) y la 2 (regresión lineal simple sin transformación de variables), resaltadas en rojo. Las opciones 3 a 8 se corresponden a regresión lineal con transformación de variables.
- 1-VAR
- A+BX
- _+cX²
- ln X
- e^X
- A.B^X
- A.X^B
- 1/X
- Data
Esta opción permite acceder a la ventana de edición de datos, en la cual se tienen dos columnas para las variables X e Y respectivamente. Un cursor, que se puede mover mediante las teclas de flechas (ubicadas en una sola gran tecla circular en la parte superior de la calculadora), indica la celda a editar. Al principio, debe insertar los valores en las celdas presionando la tecla igual =⃣ tras ingresar el número.│ X │ Y │
1│ 5.1│ 7.2│
2│ 6.5│ 8.3│
3│ 7.8│ 11.7│
4│ 8.2│ 16.1│
- Edit
Presumo que mediante esta opción se puede insertar o borrar celdas en la tabla de datos, pero nunca la he usado. - Sum
Opciones para las siguientes sumas:- ∑x²
- ∑x
- ∑y²
- ∑y
- ∑xy
- ∑x³
- ∑x²y
- ∑x⁴
- Var
Medias muestrales y desviaciones estándar para las variables X e Y.- n Número de renglones de los datos.
- x̄ Media muestral de X
- xσn Desv. estándar de X (con numerador n)
- xσn-1 Desv. estándar de X (con numerador n-1)
- ȳ Media muestral de Y
- yσn Desv. estándar de Y (con numerador n)
- yσn-1 Desv. estándar de Y (con numerador n-1)
- MinMax
Permite obtener los valores máximos y mínimos para x e Y, según la data tabulada. No se utiliza en los ejercicios de regresión lineal simple.
-
Reg
Este sub-menu da acceso a algunos parámetros importantes en la regresión lineal:- A Estimación del coeficiente A en el modelo Y=A+BX.
- B Estimación del coeficiente B en el modelo Y=A+BX.
- r Estimación del coeficiente de correlación múltiple.
- x̂ Predicción para X según un valor de Y dado.
- ŷ Predicción para Y según un valor de X dado.
Para obtener el coeficiente de determinación r² se debe elevar esta cantidad al cuadrado.
Ejemplo de regresión lineal simple
1│ 4582.9│ 3669.88│
2│ 5539.8│ 3473.95│
3│ 2950.4│ 2295.1│
4│ 2243.1│ 4675,56│
5│ 7747.1│ 6125.96│
6│ 3140.6│ 5031.66│
7│ 2086.2│ 3367.45│
8│ 8846.2│ 6519.45│
Para el cálculo de B: [SHIFT] + 1⃣ + 7⃣ + 2⃣ + = 0.3969300352
La ecuación de la recta es por lo tanto Y=2552.3121 + 0.3969X (con 4 decimales de presición). Existe una pequeña discrepancia entre estos resultados y los que aparecen en el modelo de respuestas de la segunda parcial del 2010-2. Ello se debe a que la data se ha almacenado en la calculadora con sólo 1 decimal de precisión. No es un error importante.
Para el siguiente aparte, se requiere hacer inferencia sobre el coeficiente de regresión B. Concretamente, se requiere comprobar la siguiente hipótesis:
\[\begin{align*} H_0\quad &:\quad B=0\\ H_a\quad&:\quad B\neq 0 \end{align*}\]
Para este constraste, necesitamos calcular el estadístico T-Student para el coeficiente B dado en la fórmula 140 del fórmulario UNA, el cual viene dado por:
\[T=\frac{\hat{\beta}-\beta_0}{S_{\hat{\beta}}}\]
\(\hat{\beta}\) ya lo hemos calculado- es el valor del coeficiente B calculado arriba, el cual es igual a 0,3969. \(\beta_0\) es el valor del coeficiente poblacional según la hipótesis nula, de modo que \(\beta_0=0\). Resta por calcular la desviación estándar muestral del coeficiente \(\hat{\beta}\), representada por \(S_{\hat{\beta}}\). Para ello es preciso utilizar las expresiones disponibles en el sub-menú Sum de las funciones estadísticas que son las sumas ∑x, ∑x², ∑y , ∑y² y ∑xy. Las fórmulas aparecen en el formulario antes mencionado (fórmulas 125-141) y la secuencia de cálculos en la calculadora es la siguiente:
\(SC_Y=\sum{Y^2}-\frac{\left(\sum{Y}\right)^2}{n}=\) 14833131.2
\(SC_{XY}=\sum{XY}-\frac{\left(\sum{X}\right)\left(\sum{Y}\right)}{n}=\) 18071838.95
\(SC_X=\sum{X^2}-\frac{\left(\sum{X}\right)^2}{n} =\)45529028.66
\(SCE=SC_Y-\frac{(SC_{XY})^2}{SC_X} =\) 7659875.529
\(CME=\frac{SCE}{n-2} =\) 1276645.921
\(S_e=\sqrt{CME} =\) 1129.88757
\(S_{\beta_1}=\frac{S_e}{\sqrt{SC_X}} =\) 0.1674522697
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
lunes, 29 de abril de 2013
A propósito del paro nacional de universidades de esta semana
Lechería, 24 de Abril de 2013A todos y todas, que como yo tienen la tarea de dirigir Centros Locales en tiempos de crisis!!! y a los hombres y mujeres en rol académico, administrativo y de servicio que hacen vida en los Centros y comparten las vivencias!!A propósito de la comunicación del día martes 23, suscrita por el Dr. José Ramón Arandía, Director de Operaciones, quien goza de mi respeto y estima, me permito compartir estos párrafos:1.- Lo que hago hoy… es porque no quiero seguir como estamos para el resto de mi vida, y más allá de ese umbral, la de todos aquellos que me sobrevivan!2.- Me sumo al paro (y todo el personal del Centro se ha sumado), no obstante, aunque parezca contradictorio, se hace acto de presencia (Coordinador, Administrador, Jefe de Evaluación y Profesores de Matemática que elaboran pruebas) en algunos momentos para recibir valijas, preparar la evaluación que se aplica viernes y sábado, e informar a los estudiantes que se acercan en esos momentos.3.- Me sumo a los paros convocados por los gremios porque ya basta de hablar a las paredes!! No nos escuchan, nos irrespetan y nos tratan como ciudadanos de segunda categoría. Nuestro salario, que de por si no se corresponde con credenciales y tareas que se desempeñan, se diluye frente al indetenible proceso inflacionario, y se hace más precario cuando es cancelado mediante nóminas que reflejan lo que ganábamos en 2008, y se debe esperar el complemento cuando a bien lo disponga el Gobierno Central para elaborar lo que conocemos como “paralelas”; las Normas de Homologación son letra muerta y los últimos aumentos se han hecho por vía ejecutiva, pero observando el banquete en que se ha convertido el presupuesto de la nación, donde los invitados son los países que reciben “donaciones”. ¡Esto es un irrespeto y es inconstitucional! No obstante, lo hemos tolerado de manera pacífica.¡ Si alguien tiene conocimiento de estrategias diferentes al paro cuando se llega a este extremo, que lo informe! Se le agradecerá!4.- El Seguro Federal que nos “ampara”, según tengo entendido fue impuesto por el Gobierno, tiene una cobertura de Bs. 20.000,00 y un excedente de Bs. 30.000,00 (no es cuento, me lo informaron esta semana en las oficinas del seguro en Lechería) y para completar, tiene convenios con pocas instituciones, las mas modestas, al menos en Anzoátegui; esto traduce una demostración más del concepto que se tiene del trabajador universitario, porque realmente, estos montos nos empujaran a buscar salud en instituciones públicas cargadas de carencias, pidiendo a Dios que nos cuide. De las medicinas, ni se diga: Las farmacias solo facturan hasta Bs. 3.000.00 al año, y el resto, comprar y esperar reembolsos. Un panorama nada halagador!5.- Cada día cuando llego a mi casa por las noches, me maravillo y doy gracias a Dios porque el Centro Local Anzoátegui funcionó, a pesar de las limitaciones. Me sumo a los paros no solo porque aspiro un salario justo, sino también una asignación presupuestaria que permita a la universidad desarrollar el trabajo con dignidad, sin tener que requerir de instituciones que no están ganadas a dar, precisamente porque se cosechan los frutos de esas dos mitades en que se ha convertido el país, donde unos son pueblo y otros oligarcas, burgueses, apátridas. Estamos perdiendo la capacidad de ser cada vez más ciudadanos, se debe reforzar esta condición para visualizarnos desde nuestras diferentes posiciones construyendo país, en perfecta armonía y cooperación.
6.-Asumí la Coordinación (E) del Centro Local Anzoátegui en Noviembre de 2011, por un tiempo prudencial, y durante todo estos meses, la voluntad de querer hacer y el profesionalismos de miembros del personal académico, administrativo y de servicio han posibilitado el desarrollo de los procesos y la atención a los estudiantes, tanto en la Sede ubicada en Lechería, como en las Unidades de Apoyo El Tigre y Anaco.A) Si bien sentimos el apoyo del Nivel Central, en este año y meses, este se ha materializado fundamentalmente, en la contratación de profesores para áreas que estaban sin atención, en el pago de la renta de la sede, el servicio de vigilancia, recientemente la empresa para la limpieza, y la reparación de unas fotocopiadoras, y suministro de tóner.B) Otras necesidades como reparaciones menores (cerraduras, llaves de lavamanos, herrajes para tanques de inodoros, llaves para puertas, mano de obra para reparar equipos de AA, compra de capacitadores, transformadores para AA, bombillos, etc.) y material de oficina (papel, tinta para impresoras, cinta adhesiva para embalaje, clip, ligas, cintas adhesivas, etc.), es producto de colaboración del personal, alumnos del Curso Introductorio, alumnos que egresan, y algunos proyectos que se desarrollan con estudiantes de Trabajos Prácticos.C) Hacemos selección del papel de Trabajos Prácticos para reciclar, fotocopiar. Tenemos un solo enfriador para los botellones de agua, y estos son donados por el esposo de una profesora. El papel sanitario -muy escaso en estos tiempos - ya es un hábito llevarlo de la casa. El mobiliario y los equipos de computación, además de escasos, acusan el paso del tiempo.D) La dotación de material bibliográfico para los estudiantes, nunca es suficiente, siempre estamos en mora, a pesar de que el cronograma de evaluación no considera ésta deficiencia.E) Los planteamientos que se hacen a Nivel Central, generalmente, las respuestas no son oportunas y casi nunca positivas. Cuando se propone personal para cargos vacantes, los procesos se hacen tan largos (meses, año), que casi se pierde el aliento preguntando el nivel del recorrido.F) Si bien ocupamos un espacio físico en un Centro Comercial, mi apreciación personal es que estamos en “un rancho” dentro de ese Centro: los pisos, en grandes áreas están recubiertos por lo que alguna vez fue alfombra (nidos de ácaros y cuantos “bichitos” mas que no conozco) manchada, desgastada y húmeda en sectores de la Biblioteca, ventanas que no se pueden abrir, equipos de sanitarios (pocetas y lavamanos) que evidencian los años en uso por su color y mal funcionamiento, 16 equipos de AA que se paran con frecuencia, bien sea por los altos y bajas de la energía eléctrica, porque no se ha hecho mantenimiento en mucho tiempo, porque su “corazón” está “añejo”, y casi todos los días requiere de algún “medicamento”. Algunas puertas con “gato hidráulico” funcionan a medias.7.- En la Sede no se tiene servicio de CANTV, porque ésta empresa del Sector Público, se niega a conectar el servicio alegando que la UNA tiene deudas pendientes. ¿Saben en la CANTV que la UNA también es institución pública?. ¿Será parte del cerco? No se. La Dirección de Operaciones asignó un Bam Digitel para la conexión a la Internet, pero, además de no ser muy efectivo, necesita ser recargado mensualmente con Bs. 200,00 que debemos sacar del bolsillo y después esperar el reintegro, empatando un mes con el otro porque Nivel Central no tiene recursos. Desde hace unos meses esa conexión se desarrolla con un Bam de Movilnet (conexión ilimitada) propiedad de la Coordinadora, dados los problemas (limitada acción, recargas) surgidos con el Digitel; los teléfonos celulares del personal son vías para la comunicación con los usuarios, y el de la Coordinadora equivale a “0800-estudiantes”. No obstante, todos los procesos fluyen, se cumple con los requerimientos de Nivel Central, los estudiantes son atendidos. El trabajo se hace pero, no han preguntado ¿Cómo lo hicieron? ¿Cómo lo hacen?.
Por todo esto, y quizás más, pero no quiero abrumarlos con tanta historia, ¡me sumo al paro! ¡Es hora de que tengamos presupuesto justo que también llegue al Nivel Local, sin más limitaciones que las establecidas en la Norma, y que tengamos sueldo digno, en tiempo real, acorde con la función y credenciales de cada uno!
Edith Ochoa de Lee – Centro Local Anzoátegui
domingo, 28 de abril de 2013
Actualización de página tutorial de estUNA
- Para comenzar a trabajar con la librería estUNA - enlace.
- Estadística descriptiva para datos univariantes no agrupados (Objetivos 1 y 2 de la 745) - enlace.
- Estadística descriptiva para datos univariantes agrupados (Objetivos 1 y 2 de la 745) - enlace.
- Gráficas de dispersión y gráficas de caja comparativas - enlace.
- Regresión lineal - enlace.
- Contrastes de bondad de ajuste chi-cuadrado - enlace.
- Tests de independencia chi-cuadrado - enlace.
- Cómo enviar la salida gráfica a archivos - enlace.
Si necesitan alguna explicación sobre otros aspectos de la librería o tienen algún comentario sobre la página tutorial, pueden enviarme un correo a jlaurentum@gmail.com o dejar un mensaje en el buzón a la derecha de esta página.
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
jueves, 4 de abril de 2013
MOOC - "Learning from Data" - Caltech
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
martes, 2 de abril de 2013
Taller - trabajos de las asignaturas de estadística
Elaboración de los trabajos prácticos de las asignaturas 745, 746 y 738/748.
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
lunes, 1 de abril de 2013
The Lending Club - parte III
En esta última entrada de la serie, procedemos a construir y analizar distintos modelos de regresión para descubrir cómo se determina la tasa de interés de los prestamos que se tramitan a través del Lending Club En entradas anteriores, dimos la información de contexto del problema bajo estudio (ver la primera parte) y luego realizamos un análisis exploratorio de datos (ver la segunda parte).
Primer modelo de regresión
load("estUNA")
load("lending_club.Rda")
attach(loandata)
options(width=60)
png("regresion%02d.png")
- Ar (Monto Requerido).
- Fi (calificación FICO).
- Ld (Duración del prestamo)
- Ocl (Líneas de crédito abiertas)
- Inq0 (Variable indicadora según sea el número de indagaciones igual a 0).
- Lp_dc (Variable indicadora según sea el propósito del préstamo la consolidación de deudas).
Las últimas dos variables indicadoras, Inq0 y Lp_dc, no están definidas en loandata- hay que definirlas. Seguidamente se define el modelo de regresión como modelo1a y se imprime un resumen:
Lp_dc <- Lp=="debt_consolidation"
Inq0 <- Inq==0
modelo1a <- regresion.lineal(Ir~1+Ar+Fi+Ld+Inq0+Ocl+Lp_dc)
resumen(modelo1a)
--------------------------------------------------------------
Resumen de regresion lineal
MODELO : modelo1a
Marco de datos : variables globales
Formula : Ir ~ 1 + Ar + Fi + Ld + Inq0 + Ocl + Lp_dc
Estimacion de los coeficientes poblacionales
Estimacion Error Est. Estadistico T
[Intercepto] 7.382562e-01 8.548541e-03 86.360488
Ar 1.481033e-06 5.975320e-08 24.785830
Fi -8.772580e-04 1.189671e-05 -73.739512
Ld60 3.201605e-02 1.081372e-03 29.606863
Inq0TRUE -1.079905e-02 8.222849e-04 -13.132985
Ocl -5.018680e-04 9.328141e-05 -5.380150
Lp_dcTRUE -2.028007e-03 8.385869e-04 -2.418362
p-valor
[Intercepto] < 2.22e-16
Ar < 2.22e-16
Fi < 2.22e-16
Ld60 < 2.22e-16
Inq0TRUE < 2.22e-16
Ocl 8.138e-08
Lp_dcTRUE 0.015662
Prueba F global
Valor F : 1342.558 gl. num: 6 gl. den : 2485
p-valor : < 2.22e-16
Coeficientes de determinacion
R^2 : 0.7642392 R^2 ajustado : 0.76367
Residuos
Minimo : -0.094555
Mediana : -0.002316511
Maximo : 0.09745238
Desv. estandar residual: 0.02032266
--------------------------------------------------------------
modelo1b <- regresion.lineal(Ir~1+Fi+Ld+Inq0+Ocl+Lp_dc)
resumen(modelo1b)
---------------------------------------------------------
Resumen de regresion lineal
MODELO : modelo1b
Marco de datos : variables globales
Formula : Ir ~ 1 + Fi + Ld + Inq0 + Ocl + Lp_dc
Estimacion de los coeficientes poblacionales
Estimacion Error Est. Estadistico T
: : : :
: : : :
Lp_dcTRUE 1.717800e-03 9.210058e-04 1.8651343
:
:
Coeficientes de determinacion
R^2 : 0.7059548 R^2 ajustado : 0.7053634
:
:
Desv. estandar residual: 0.02269156
modelo1c <- regresion.lineal(Ir~1+Ar+Fi+Ld+Inq0+Ocl)
resumen(modelo1c)
graficar(modelo1c)
--------------------------------------------------------------
Resumen de regresion lineal
MODELO : modelo1c
Marco de datos : variables globales
Formula : Ir ~ 1 + Ar + Fi + Ld + Inq0 + Ocl
Estimacion de los coeficientes poblacionales
Estimacion Error Est. Estadistico T
[Intercepto] 7.349896e-01 8.449383e-03 86.987369
Ar 1.454991e-06 5.883215e-08 24.731215
Fi -8.735828e-04 1.181075e-05 -73.965030
Ld60 3.206793e-02 1.082213e-03 29.631794
Inq0TRUE -1.078765e-02 8.230728e-04 -13.106558
Ocl -5.111106e-04 9.329393e-05 -5.478498
p-valor
[Intercepto] < 2.22e-16
Ar < 2.22e-16
Fi < 2.22e-16
Ld60 < 2.22e-16
Inq0TRUE < 2.22e-16
Ocl 4.7207e-08
Prueba F global
Valor F : 1606.766 gl. num: 5 gl. den : 2486
p-valor : < 2.22e-16
Coeficientes de determinacion
R^2 : 0.7636844 R^2 ajustado : 0.7632091
Residuos
Minimo : -0.09370228
Mediana : -0.002240513
Maximo : 0.09816036
Desv. estandar residual: 0.02034247
--------------------------------------------------------------
Segundo modelo de regresión
modelo2 <- regresion.lineal(Ir~1+Ar+Fi+I(Fi^2)+Ld+Inq0+Ocl+I(Ocl^2))
resumen(modelo2)
graficar(modelo2)
--------------------------------------------------------------
Resumen de regresion lineal
MODELO : modelo2
Marco de datos : variables globales
Formula : Ir ~ 1 + Ar + Fi + I(Fi^2) + Ld + Inq0 + Ocl + I(Ocl^2)
Estimacion de los coeficientes poblacionales
Estimacion Error Est. Estadistico T
[Intercepto] 3.553545e+00 1.275557e-01 27.85877
Ar 1.558942e-06 5.216556e-08 29.88451
Fi -8.637778e-03 3.535800e-04 -24.42949
Fi^2 5.366278e-06 2.444955e-07 21.94837
Ld60 3.218830e-02 9.567038e-04 33.64500
Inq0TRUE -1.043817e-02 7.277374e-04 -14.34332
Ocl -4.370420e-03 2.763538e-04 -15.81458
Ocl^2 1.597878e-04 1.087364e-05 14.69497
p-valor
[Intercepto] < 2.22e-16
Ar < 2.22e-16
Fi < 2.22e-16
Fi^2 < 2.22e-16
Ld60 < 2.22e-16
Inq0TRUE < 2.22e-16
Ocl < 2.22e-16
Ocl^2 < 2.22e-16
Prueba F global
Valor F : 1568.202 gl. num: 7 gl. den : 2484
p-valor : < 2.22e-16
Coeficientes de determinacion
R^2 : 0.8154726 R^2 ajustado : 0.8149526
Residuos
Minimo : -0.09329256
Mediana : -0.001115824
Maximo : 0.1044033
Desv. estandar residual: 0.01798302
--------------------------------------------------------------
modelo3 <- regresion.lineal(Ir~-1+Ar+Fi+I(Fi^2)+
Ld+Inq0+Ocl+I(Ocl^2))
:
:
:
Coeficientes de determinacion
R^2 : 0.9828925 R^2 ajustado : 0.9828374
Residuos
Minimo : -0.09329256
Mediana : -0.001115824
Maximo : 0.1044033
Desv. estandar residual: 0.01798302
Conclusiones
Como citar esta entrada
Romero, J. (Marzo, 2013). The Lending Club - parte III. [Entrada de blog]. Recuperado desde https://unamatematicaseltigre.blogspot.com/2013/04/the-lending-club-parte-iii.html.
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.
miércoles, 27 de marzo de 2013
The Lending Club - Parte II
Para comenzar a trabajar con este ejemplo
En la primera parte de esta serie de entradas, se expuso la información de contexto sobre el problema del Lending Club. En la siguiente parte, se hará el ejercicio de construcción de modelos de regresión lineal.
La data con la que se trabajará para este ejemplo está disponible para su descarga desde este enlace. Una vez descargado ese archivo, colóquelo en su directorio de trabajo de R, que usualmente será "Mis Documentos" en el caso de Windows. Para trabajar con este ejemplo, también debe tener la librería "estUNA" en su directorio de trabajo (consulte esta en si tiene dudas sobre cómo descargar estUNA y colocarla en su directorio de trabajo).
Sobre la data del problema del "Lending Club"
Identificador de variable | Descripción |
Ar | (Amount Requested) Monto solicitador por el prestatario para financiamiento. |
Af | (Amount Funded) Monto financiado. |
Ir | (Interest Rate) Tasa de Interés del financiamiento. Esta es la variable dependiente. |
Ld | (Loan Duration) Variable categórica correspondiente a la duración del préstamo (36 o 60 meses). |
Lp | (Loan Purpose) Variable categórica correspondiente al propósito del préstamo. |
DtIR | (Debt-to-income Ratio) Coeficiente de deuda sobre ingresos. |
St | (State) Código de dos letras correspondiente al estado de residencia del prestatario. |
Ho | (Home ownership) Tipo de propiedad sobre la casa: "NONE" es ninguna casa, "MORTGAGE" indica hipoteca sobre la casa, "OWN" indica que la casa es propia y "RENT" indica que la casa es alquilada. |
I | (Income) Ingreso mensual. |
Fi | (FICO) Puntuación FICO del solicitante. |
Ocl | (Open Credit Lines) Cantidad de líneas de crédito abiertas del solicitante. |
Rcb | (Rotating credit balance) Balance rotativo de credito. |
Inq | (Inquiries) Número de veces que algún comercio ha solicitado un reporte crediticio certificado. |
Ed | (Employment duration) Tiempo en el actual empleo. |
Análisis exploratorio de los datos
A continuación damos el script en R que realiza los distintos pasos del análisis exploratorio. Si va a experimentar con este script en su computadora, recuerde que debe tener el archivo de la librería estUNA y el archivo de data lending_club.Rda en su directorio de trabajo. Seguidamente iremos interpretando los resultados.
load("estUNA")Como primer paso del análisis exploratorio, se genera un resumen con las principales estadísticas del data frame. Esto lo hace la instrucción summary(loandata), tras lo cual se imprime lo siguiente:
load("lending_club.Rda")
attach(loandata)
options(width=60)
png("exploratorio%02d.png")
#Imprime un resúmen del data frame
summary(loandata)
#Matriz de correlación entre las variables cuantitativas
cor(loandata[,c("Ar","Af","Fi","I","Ocl","Rcb","Inq","Ir")])
#La primera gráfica es un histograma de Ir
graficar(Ir)
#A continuación unas graficas de dispersión
#Grafica la tasa de intereses (eje Y) versus:
graficar.dispersion(Ar,Ir,cex=0.2,pch=19)
#Monto solicitado
graficar.dispersion(Af,Ir,cex=0.2,pch=19)
#Monto financiado
graficar.dispersion(Fi,Ir,cex=0.2,pch=19)
#Puntuación FICO
graficar.dispersion(I,Ir,cex=0.2,pch=19)
#Ingreso mensual
graficar.dispersion(Ocl,Ir,cex=0.2,pch=19)
#Lin. credito abiertas
graficar.dispersion(DtIR,Ir,cex=0.2,pch=19)
#Deuda/Ingresos
graficar.dispersion(Rcb,Ir,cex=0.2,pch=19)
#Balance crédito rotativo
graficar.dispersion(Inq,Ir,cex=0.2,pch=19)
#Cantidad de indagaciones
#Diagramas de caja comparativos
#Grafica la relación entre la tasa de interés
#y las siguientes variables categóricas:
caja(Ir,Ho) #Propiedad de la vivienda
caja(Ir,Ed) #Tiempo en el empleo actual
caja(Ir,Ld) #Plazo de financiamiento (36 o 60 meses)
#Para las siguientes dos variables, la visualización
#más adecuada es una tabla.
#Estudia la variabilidad de las tasas de interés según:
#1) El propósito del prestamo (Lp)
lp_mat <- t(sapply(levels(Lp),
function(s)
c(sum(Lp==s), median(Ir[Lp==s]),
wilcox.test(Ir~Lp==s)\(\$\)p.value)
)
)
colnames(lp_mat) <- c("frec","mediana","p_valor")
lp_mat <- as.data.frame(lp_mat)
lp_mat <- lp_mat[order(lp_mat\(\$\)frec,decreasing=TRUE),]
lp_mat
#2) El estado de residencia del prestatario:
st_mat <- t(sapply(levels(St),
function(s)
c(sum(St==s), median(Ir[St==s]),
wilcox.test(Ir~St==s)\(\$\)p.value)
)
)
colnames(st_mat) <- c("frec","mediana","p_valor")
st_mat <- as.data.frame(st_mat)
st_mat <- st_mat[order(st_mat\(\$\)frec,decreasing=TRUE),]
st_mat
Ar Af Ir Ld
Min. : 1000 Min. : 200 Min. :0.0542 36:1944
1st Qu.: 6000 1st Qu.: 6000 1st Qu.:0.1016 60: 548
Median :10000 Median :10000 Median :0.1311
Mean :12431 Mean :12038 Mean :0.1308
3rd Qu.:17000 3rd Qu.:16000 3rd Qu.:0.1580
Max. :35000 Max. :35000 Max. :0.2489
Lp DtIR St
debt_consolidation:1306 Min. :0.0000 CA : 432
credit_card : 442 1st Qu.:0.0975 NY : 253
other : 197 Median :0.1533 TX : 174
home_improvement : 152 Mean :0.1540 FL : 169
major_purchase : 101 3rd Qu.:0.2068 IL : 101
small_business : 87 Max. :0.3491 GA : 97
(Other) : 207 (Other):1266
Ho I Fi
MORTGAGE:1146 Min. : 588.5 Min. :642.5
NONE : 0 1st Qu.: 3500.0 1st Qu.:682.5
OTHER : 5 Median : 5000.0 Median :702.5
OWN : 200 Mean : 5687.6 Mean :708.4
RENT :1141 3rd Qu.: 6800.0 3rd Qu.:727.5
Max. :102750.0 Max. :832.5
Ocl Rcb Inq
Min. : 2.00 Min. : 0 Min. :0.0000
1st Qu.: 7.00 1st Qu.: 5612 1st Qu.:0.0000
Median : 9.00 Median : 10978 Median :0.0000
Mean :10.07 Mean : 15263 Mean :0.9013
3rd Qu.:13.00 3rd Qu.: 18900 3rd Qu.:1.0000
Max. :38.00 Max. :270800 Max. :9.0000
Ed
10+ :653
< 1 :247
2 :244
3 :234
5 :201
4 :192
(Other):721
Ar Af Fi I
Ar 1.00000000 0.97022602 0.083040383 0.39109060
Af 0.97022602 1.00000000 0.073791988 0.37468574
Fi 0.08304038 0.07379199 1.000000000 0.12355539
I 0.39109060 0.37468574 0.123555388 1.00000000
Ocl 0.19680145 0.18779714 -0.090039520 0.17180076
Rcb 0.29277055 0.26116166 0.003217914 0.35936379
Inq -0.02721561 -0.06224654 -0.092828774 0.03398569
Ir 0.33141077 0.33627376 -0.709911785 0.01231114
DtIR 0.07985656 0.09177385 -0.217596139 -0.16376264
Ocl Rcb Inq Ir
Ar 0.19680145 0.292770550 -0.02721561 0.33141077
Af 0.18779714 0.261161657 -0.06224654 0.33627376
Fi -0.09003952 0.003217914 -0.09282877 -0.70991178
I 0.17180076 0.359363787 0.03398569 0.01231114
Ocl 1.00000000 0.290582979 0.10790657 0.09109025
Rcb 0.29058298 1.000000000 0.01285580 0.06042262
Inq 0.10790657 0.012855801 1.00000000 0.16846322
Ir 0.09109025 0.060422621 0.16846322 1.00000000
DtIR 0.37172725 0.188286897 0.01126195 0.17143913
DtIR
Ar 0.07985656
Af 0.09177385
Fi -0.21759614
I -0.16376264
Ocl 0.37172725
Rcb 0.18828690
Inq 0.01126195
Ir 0.17143913
DtIR 1.00000000
La puntuación FICO del solicitante está muy correlacionada con la tasa de interés del préstamo. Pero a su vez, como vimos en la primera parte de esta serie (The Lending Club - Parte I), muchas de las variables en este data frame son tomadas en cuenta para el cálculo de la calificación FICO. Entonces, por una parte esperaríamos cierta correlación entre esas variables y la calificación FICO. Si esas variables se incluyen en el modelo lineal, pudiésemos estar ante un problema de variables de confusión (confounder variables). Las variables de confusión son aquellas que están correlacionadas con la variable dependiente y con alguna o algunas de las otras variables independientes del modelo. El problema que generan las variables de confusión es que a veces, sus efectos sobre la variable dependiente pueden ser exagerados. También puede ocurrir lo que se llama un efecto supresor. Puede consultar más sobre estos temas en este blog. Por nuestra parte, algunos de estos conceptos saldrán a relucir a medida que iremos ensayando distintos modelos de regresión lineal.
A continuación podemos observar algunas gráficas. La primera (Fig. 1) es un histograma de las tasas de interés:
Seguimos con la parte más ilustrativa de nuestro análisis exploratorio, que son las gráficas de dispersión entre la tasa de interés y las otras variables cuantitativas (Fig. 2):
(a) Ar / Ir
|
(b) Fi / Ir
|
(a) Ir ~ Ho
|
(b) Ir ~ Ed
|
(c) Ir ~ Ld
|
frec mediana p_valor
CA 432 0.13110 0.69246237
NY 253 0.13110 0.82515314
TX 174 0.13110 0.30747046
FL 169 0.13110 0.88525055
IL 101 0.12530 0.22145716
GA 97 0.12180 0.27619025
PA 96 0.13045 0.23581778
NJ 92 0.12120 0.38675613
VA 78 0.12550 0.78497883
MA 73 0.12120 0.38183801
OH 71 0.12230 0.10542538
MD 68 0.13790 0.62463807
NC 64 0.12405 0.34075690
CO 61 0.13110 0.92712927
WA 58 0.13110 0.89902872
CT 50 0.13140 0.29789052
AZ 46 0.13110 0.86390489
MI 45 0.14090 0.01538049
MN 38 0.13545 0.34930242
: : : :
: : : :
frec mediana p_valor
debt_consolidation 1306 0.13490 6.704956e-11
credit_card 442 0.13110 9.769974e-01
other 197 0.13060 6.911076e-01
home_improvement 152 0.11130 2.162582e-06
major_purchase 101 0.11120 2.559098e-08
small_business 87 0.12840 6.169896e-01
car 50 0.10475 9.231269e-04
wedding 39 0.12210 2.223396e-01
medical 30 0.13110 8.066417e-02
moving 29 0.13110 6.110691e-01
vacation 21 0.12120 3.160609e-01
house 20 0.13085 8.177116e-01
educational 14 0.09755 4.628680e-02
renewable_energy 4 0.09130 1.336665e-01
Análisis exploratorio de datos - algunas conclusiones
Como citar esta entrada
Romero, J. (Marzo, 2013). The Lending Club - parte II. [Entrada de blog]. Recuperado desde https://unamatematicaseltigre.blogspot.com/2013/03/the-lending-club-parte-ii.html.
Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.