Mostrando entradas con la etiqueta teoría de la probabilidad. Mostrar todas las entradas
Mostrando entradas con la etiqueta teoría de la probabilidad. Mostrar todas las entradas

jueves, 21 de marzo de 2013

Teoría de Conjuntos - Parte II

Habiendo definido los conceptos de membresía, igualdad entre conjuntos e inclusión, podemos definir algunas operaciones importantes entre conjuntos, como la unión y la intersección:

Definición – (Unión)
Sea \(A\) y \(B\) dos conjuntos.  La unión de \(A\) y \(B\) es el conjunto que contiene elementos de \(A\) o de \(B\):
\[ A \cup B = \{x \in \Omega | x\in A\quad o\quad x\in B\} \]
Definición – (Intersección)
Sea \(A\) y \(B\) dos conjuntos. La intersección de \(A\) y \(B\) es el conjunto que contiene elementos pertenecientes a \(A\) y a \(B\), simultáneamente:
\[ A \cap B = \{x\in \Omega| x\in A\quad y\quad x\in B\}\]
Es importante resaltar que la unión y la intersección de conjuntos son operaciones binarias: uno toma dos conjuntos, los une o los interfecta, y el resultado es un tercer conjunto. El concepto de operación binaria no debería serle extraño- la suma y la multiplicación que usted conoce desde la primaria son operaciones binarias. Como ocurre con la suma y la multiplicación, para las cuales sabemos que existen dos elementos especiales que son los elementos neutros respecto a estas dos operaciones (el 0 y el 1), la unión y la intersección tienen cada una su respectivo elemento neutro.En efecto, para cualquier subconjunto \(X\) del conjunto universal \(\Omega\), se tiene:

\[X \cap \Omega = X \qquad y \qquad X\cup\emptyset=X\]
Por otro lado, también se cumple que para cualquier conjunto \(X\) (subconjunto del conjunto universal):
\[X \cap \emptyset = \emptyset\qquad y \qquad X\cup\Omega =X \]
Existe otra operación binaria importante sobre conjuntos que es la diferencia:

Definición – (Diferencia)

Sea \(A\) y \(B\) dos conjuntos. La diferencia de \(A\) y \(B\) es el conjunto de aquellos elementos que pertenecen a \(A\) pero no pertenecen a \(B\):

\[A - B = \{x\in\Omega|x\in A\quad y\quad x\notin B\}\]

Cuando tomamos la diferencia de el conjunto universal \(\Omega\) respecto a un conjunto \(X\subset\Omega\) cualquiera, definimos una operación unaria (de un solo argumento) llamada complemento:

Definición - (Complemento)
Sea \(X\subset\Omega\) un subconjunto cualquiera del conjunto universal. El complemento de \(X\) se denota por \(\overline{X}\) y se define como:
\[\overline{X}=\Omega-X=\{x\in\Omega|x\notin\Omega\}\]
En palabras- el complemento de un conjunto es el conjunto de todos aquellos elementos que no pertenecen a él.

Otro concepto importante de la teoría de conjuntos es el concepto de función de conjunto. Una función de conjunto es una función cuyo argumento (variable de entrada) es un conjunto.  Las funciones de conjuntos generalmente asocian conjuntos con números reales. Por ejemplo, una función de conjunto importante es la función cardinalidad, que se denota por \(|\,\cdot\,|\). Cuando trabajamos con conjuntos finitos, la cardinalidad de un conjunto es simplemente la cantidad de elementos que contiene ese conjunto. Por ejemplo:

  • \(A=\{a,b,c\}\) y \(|A|=3\)
  • \(B=\{-1,0,1,-19,23\}\) y \(|B|=5\)
  • \(C=\{x\in\mathbb{R}|x^2+2x+1=0\}\) y \(|C|=1\)
  • \(D=\{x\in \text{mamíferos}| \text{x no tiene sangre}\}\) y \(|D|=0\)
Otra función de conjuntos importante es la función de probabilidad. De hecho, la teoría de la probabilidad define los eventos como subconjuntos del espacio muestral (este último equivale al conjunto universal). Para cualquier evento, su probabilidad asociada es un número real entre 0 y 1, es decir, en el intervalo [0,1].


Cómo trabajar con conjuntos en lenguaje R

La instalación base de R no define un tipo de datos (o clase de objetos) para los conjuntos. Sin embargo, existen funciones en R que realizan operaciones de unión, intersección, diferencia de conjuntos y verificación de membresía para vectores. Si desea experimentar con las herramientas que se dan a continuación, recuerde que puede usar R a través de un RWeb server (en una página web), como los que se dan en los enlaces a continuación:


Las funciones de conjunto en R son union, intersect, setdiff, setequal, is.element:
  • union(x,y) da como resultado un vector que representa la unión de dos conjuntos dados como vectores (x e y).
  • intersect(x,y) da como resultado un vector que representa la intersección de dos conjuntos dados como vectores (x e y).
  • setdiff(x,y) es la diferencia entre dos conjuntos, representada matemáticamente por \(X-Y\).
  • setequal(x,y) verifica si dos conjuntos (representados por los vectores x e y), son iguales.
  • is.element(x,y) es equivalente a x%in%y, y verifica si el elemento x pertenece al conjunto y.
A continuación damos unos ejemplos en código (que usted puede copiar y pegar en la consola o en la ventana de código del RWeb server), donde las variables A y B representarán conjuntos de personas:
A <- c("jose","isabela","jose","pedro",
       "juan","susana","maria")
B <- c("maria","miguel","ruth","pedro","gloria")
"pedro"%in%A
"ruth"%in%A
union(A,B)
intersect(A,B)
setdiff(B,A)
Después de ingresar el script anterior en la cónsola o en la ventana de código del RWeb server, observe los resultados de las últimas 4 instrucciones. "pedro"%in%A verifica si "pedro" pertenece al conjunto A. Como en efecto "pedro" pertenece al conjunto A, esta instrucción devuelve TRUE (verdadero). De manera análoga, "ruth"%in%A devuelve FALSE (falso), porque "ruth" no pertenece al conjunto A.

Observe que algunas de las representaciones vectoriales de los conjuntos A y B incluyen a un mismo elemento más de una vez en el conjunto respectivo.  Tal es el caso de "jose" en el vector que define al conjunto A (aparece dos veces).  Matemáticamente, figurar varias veces en un conjunto equivale a figurar en ese conjunto, pues un elemento cualquiera, o está o no está en un conjunto.  De alguna manera, el interprete R (o mejor dicho, la implementación de las funciones de conjunto en R) distinguen estas situaciones.  Así por ejemplo, cuando realizamos la operación de unión de los conjuntos A y B, esta devuelve lo siguiente:
[1] "jose"    "isabela" "pedro"   "juan"    "susana"
[6] "maria"   "miguel"  "ruth"    "gloria"
En el resultado anterior, puede observar que tras unir los conjuntos A y B, cada persona se denota una sola vez. La operación de intersección devuelve el conjunto conformado por todos aquellos elementos comunes a A y a B, de modo que el resultado de la instrucción intersect(A,B) es:
[1] "pedro" "maria"
De forma análoga, la diferencia \(B-A\), que es el conjunto de todos los elementos de B que no están en A, es el resultado de la instrucción setdiff(B,A):
[1] "miguel" "ruth"   "gloria"

Referencias Bibliográficas

  • LIPSCHUTZ, S. (1991). Teoría de Conjuntos y Temas Afínes. Serie Schaum. McGraw-Hill. Caracas.
  • MONAGAS, O., ORELLANA, M. y RIVAS, A. (1994). Algebra I – Tomo I. Caracas: Universidad Nacional Abierta.
  • PREPARATA, F. y YEH, R. (1973). Introduction to Discrete Structures. Reading, Massachussets: Addison-Wesley Publishing Co.
  • R Development Core Team (2008). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0.

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.

lunes, 4 de febrero de 2013

Un problema de probabilidades

Considere el siguiente problema de probabilidades:
Se tienen 3 bolas verdes y 3 bolas rojas. Cada una de los 6 esferas se parte en dos mitades. Con las 12 mitades así obtenidas se vuelven a formar 6 bolas reagrupando las mitades al azar en parejas. ¿Cuál es la probabilidad de obtener nuevamente 3 bolas verdes y 3 bolas rojas?
Para poder empezar, necesitamos entender bien el experimento aleatorio. La parte de dividir cada una de las 6 esferas (3 rojas y 3 verdes) en dos mitades es bastante clara. Tendríamos así 12 mitades- 6 mitades rojas y 6 mitades verdes. La siguiente parte referente a "reagrupar las mitades al azar en parejas" podría no estar tan clara, sin embargo. Esta frase engloba el experimento aleatorio en sí. Entender en qué consiste es fundamental para poder calcular la probabilidad requerida.

Imaginemos que tomamos las 12 mitades, las metemos en una urna, revolvemos bien y comenzamos a extraer (sin reposición a la urna) las 12 mitades al azar, una por una. Las 6 primeras mitades las colocamos en una fila una al lado de la otra. Extraemos las otras 6 mitades de la urna y las colocamos en otra fila debajo de las 6 mitades de la fila de arriba. Tendríamos así un arreglo de dos filas y seis columnas, como por ejemplo el que sigue a continuación:

V V R R V V
R R R V R V

Cada columna en esta tabla indica los colores de las mitades que conforman las 6 pelotas que volvimos a armar. En el caso de ejemplo de arriba, solo hubiésemos obtenido 2 pelotas de un solo color (las mitades del mismo color), las cuales indicamos resaltando las columnas respectivas:
V V R R V V
R R R V R V

Obtener nuevamente las 3 bolas verdes y las 3 bolas rojas equivale a verificar si 3 de las columnas en esta tabla son verdes y si las otras 3 columnas son rojas. Quizás convendría realizar una simulación para darnos una idea de la frecuencia con la que ocurre esto. En cada ciclo de la simulación, tomamos un vector de 12 elementos, 6 de los cuales son "rojos" y los otros 6 "verdes". Luego permutamos los 12 elementos al azar, lo cual es el equivalente computacional de "revolver las 12 mitades en la urna". Seguidamente, consideramos las 2 mitades de ese vector (una mitad son los primeros 6 elementos y la otra los últimos 6 elementos) para verificar si cada uno de los 6 elementos de los dos vectores son iguales uno a uno. El script en R se muestra a continuación:

#Se tienen:
#3 bolas verdes y 3 bolas rojas.
#Se parte cada esfera en dos mitades.
#Se vuelven a juntar las mitades
#en parejas aleatoriamente.
#¿Cuál es la probabilidad de juntar nuevamente
#3 palos pelotas y 3 pelotas rojas?
M <- c(rep("V",6),rep("R",6))
N <- 1000000  #se repite el experimento un millon de veces
muestra <- replicate(N,{
  revuelto <- sample(M,size=12,replace=FALSE)
  r1 <- revuelto[1:6]
  r2 <- revuelto[7:12]
  if (all(r1==r2)) 1 else 0
  }
)
( mean(muestra) )  #la proporción de veces que ocurre
                   #el evento es una aproximación de su
                   #probabilidad

Este script arroja como resultado la siguiente aproximación de la probabilidad requerida. Claro, como se trata de un experimento aleatorio, la aproximación será distinta cada vez que ejecutemos el script. Sin embargo, con un millón de repeticiones, la variabilidad del resultado es muy poca (consultar sobre la Ley de los Grandes Números).

  [1] 0.021427

Según el resultado de la simulación, la probabilidad de obtener 3 pelotas verdes y 3 pelotas rojas nuevamente es de aproximadamente un 2%. No obstante, "aproximadamente" no es lo mismo que "exacto". Intentaremos seguidamente calcular la probabilidad exacta, pero ya sabemos su valor aproximado.

Primeramente, la cantidad de formas posibles de permutar 12 objetos, 6 de los cuales son de un tipo y 6 de otro, es igual a 12C6 (las combinaciones posibles de 6 objetos escogidos entre 12). Esto es debido a que asignamos cada una de las 6 mitades rojas a cualquiera de las 12 celdas y debemos tomar en cuenta que como las 6 mitades rojas son indistintas entre sí, debemos dividir entre 6! - el número de permutaciones de 6 objetos. La cantidad total de posibles resultados del experimento aleatorio es, pues, igual a 12C6.

Para que formemos nuevamente las 3 pelotas rojas y las 3 pelotas verdes (en lo sucesivo el evento A), es preciso que, considerando la primera fila de 6 mitades, esta contenga exactamente 3 mitades rojas y 3 mitades verdes. Existen 6C3 posibles configuraciones, tomando en cuenta que las 3 mitades de un mismo color son indistintas entre sí. Una vez fijada la configuración de la fila de arriba, la fila de abajo debe tener exactamente la misma configuración que la fila de arriba. Por lo tanto, según la fórmula de la probabilidad de un evento como en cociente entre el número total de casos favorables al evento entre el número total posible de casos equiprobables del experimento aleatorio, tenemos que:

P ( A ) = A Ω = 6 3 12 6 = 0,02164502

Puede corroborar que este resultado concuerda con aquél obtenido por la simulación.

Referencias Bibliográficas


Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.

miércoles, 30 de enero de 2013

Una pregunta de probabilidades

Si responde a esta pregunta de forma aleatoria, ¿cuál es la probabilidad de acertar la repuesta correcta?
  1. 0%
  2. 25%
  3. 25%
  4. 50%
Su respuesta en los comentarios...

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.

lunes, 12 de noviembre de 2012

El Teorema del Límite Central - U.N.A. dramatización

Profesor - El Teorema del Límite Central establece que la suma de toda secuencia de variables aleatorias independientes e idénticamente distribuidas con media y varianza finitas es asintóticamente normal.

Los estudiantes se miran los unos a otros con cara de no entender nada. Típico en una clase de probabilidad y estadística.

Profesor - ¿Todos entendieron? ¿Alguien tiene preguntas?

Se escucha un cri-cri como el de una serenata nocturna de grillos. Aparte de eso, un silencio ensordecedor. Después de cinco minutos de incómodo silencio, un estudiante levanta la mano...

Profesor - ¿Cual es tu pregunta, Miguel?

Miguel - Profesor, ¿puede traducir eso al castellano?

El profesor respira profundo...

Profesor - Ok. Imagínense que tenemos una secuencia de variables aleatorias, todas con la misma distribución e independientes entre sí. Por ejemplo, una muestra de tamaño n podría constituir tal secuencia: todos los elementos de la muestra, los Xi, tienen la misma distribución de probabilidad porque son muestras de la misma población. Además, si la muestra es aleatoria, se garantiza que todas las variables aleatorias de la secuencia son estocásticamente independientes...

La clase - ¿esto- qué?

Profesor - estocásticamente independientes, es decir - probabilísticamente independientes. Esto se garantiza porque en una muestra aleatoria, ninguna observación condiciona las otras. En otras palabras, las variables aleatorias que constituyen la muestra son estocásticamente independientes. ¿Me siguen?

La clase asiente con un movimiento de cabeza afirmativo.
 

Profesor - Seguimos. Con una secuencia de variables aleatorias como la que he descrito, podemos definir una nueva variable aleatoria como la suma de todas ellas. Por ejemplo, la media muestral

\[\overline{X}=\sum_{i=1}^n X_i\]
es esencialmente una suma de las variables aleatorias \(X_i\) que constituyen la muestra. Pues bien, el Teorema del Límite Central afirma que \(\overline{X}\) es una variable aleatoria distribuida normalmente, siempre y cuando \(n\)- el tamaño de la muestra - sea lo "suficientemente" grande. Mientras más grande sea \(n\), más se parece la distribución de \(\overline{X}\) a una distribución normal. Sin importar cuál sea la distribución de probabilidad de la población de origen, es decir, de cada uno de los \(X_i\).
El profesor hace una pausa para dejar que la idea de lo que acaba de afirmar decante lentamente en la cabeza de los estudiantes. Algunos de entre ellos asumen una expresión reflexiva, como sumidos en sus propios pensamientos...

Profesor - Vamos a explicar mediante un ejemplo. Supongamos que extraemos una muestra de una población exponencialmente distribuida, cuya curva de densidad, por cierto, es como esta:
distribucion-exponencial
Pueden observar que la curva de densidad exponencial no se parece en nada a la curva de densidad normal, que tiene una forma acampanada y es simétrica en torno a la "cima" de la campana.
curva normal
A nadie se le ocurriría, de buenas a primeras, que si yo tomo una muestra aleatoria de 100 observaciones (Xi) de una población exponencialmente distribuida y las promedio, los valores de estos promedios, conforme varía la muestra aleatoria, se distribuyen normalmente. Y sin embargo, esto es justamente lo que afirma el Teorema del Límite Central.

Algunos estudiantes parecen sorprendidos.
 
Profesor - Se pueden imaginar lo útil que es este teorema. Por ejemplo, si quiero hacer inferencia sobre la media de una población, utilizaría la media muestral para estimar dicho parámetro. Me sería de mucha utilidad saber que la media muestral, si la muestra es de tamaño suficientemente grande, es normalmente distribuida. Este hecho es independiente del tipo de distribución de la población de origen.
El profesor mira alrededor y se complace al ver que la clase ha comenzado a comprender su "traducción" al castellano.

Profesor - Por supuesto, este teorema, como todo teorema, tiene su demostración matemática. Pero no se preocupen, no los voy a hacer padecer con una demostración matemática en clase. Vamos en cambio a ilustrar cómo funciona este teorema mediante una simulación por computadora.

En una simulación, tomamos una muestra de \(n\) números aleatorios y los promediamos. Repetimos este proceso muchísimas veces (quizás cien mil veces), registrando el promedio observado cada vez. Como resultado, tendríamos a su vez una muestra muy grande de promedios muestrales, lo cual nos permitiría ver, mediante un histograma por ejemplo, cuál es la distribución de ese promedio. Según el Teorema del Límite Central, la distribución del promedio debería ser normal si \(n<\) es lo suficientemente grande.

En la siguiente animación, podrán ver la distribución del promedio muestral a medida que el tamaño de la muestra varía de \(n=1\) hasta \(n=100\). Para \(n=1\), el histograma del promedio es como el de una distribución exponencial y no se parece en nada a la forma acampanada de la normal. Sin embargo, a medida que \(n\) aumenta, la distribución del promedio se va haciendo rápidamente más "normal".
Teorema Central del Límite


Profesor - La simulación, más precisamente, el archivo .GIF animado que vieron, fue hecha en lenguaje R mediante el siguiente script. A los que les dé curiosidad esto, pueden tomar este script y correrlo en su computadora. Pueden inclusive considerar otras distribuciones en vez de la exponencial. El resultado siempre será el mismo- el promedio muestral se distribuye normalmente para valores de n lo suficientemente grandes. Para efectos prácticos, pueden considerar el promedio muestral como normalmente distribuido a partir de n=30.
#abre el dispositivo grafico para crear archivos PNG
png("cl%03d.png")
#El tamaño de la muestra en cada iteración de la
#simulación es 100000
N <- 100000
#define el tamaño de la muestra para el cálculo de la media
#muestral
secuencia <- c(1,(1:20)*5)
for (i in secuencia) {
  #genera N muestras de la media muestral por simulación,
  #todas provenientes de una población exponencial
  x <- replicate(N,mean(rexp(i,rate=0.5)))
  #grafica la curva de densidad normal
  w <- 2/sqrt(i)*3
  curve(dnorm(x,mean=2,sd=2/sqrt(i)),from=2-w, to=2+w,
      col="slateblue", ylab="f(x)")
  title(main=list(paste("n=",i),col="darkgreen",cex=4))
  legend(x=2+w*0.3,y=dnorm(2,mean=2,sd=2/sqrt(i))*1.05,
      legend=c("densidad normal","núcleo de densidad"),
      fill=c("slateblue","darkred"),cex=1.05)
  #grafica la curva del nucleo de densidad
  nd <- density(x)
  lines(nd$x,nd$y,col="darkred")
  #grafica el histograma
  hist(x,freq=FALSE,add=TRUE)
}
graphics.off()
#listo.
#Ahora convierte los archivos .PNG en un .GIF animado.
#(Nota: requiere los programas de ImageMagick)
system("convert -delay 30 *.png cl.gif")
Algunos estudiantes prenden sus laptops y comienzan a copiar el script en la pizarra para probar la simulación ellos mismos.
Profesor - Antes de que se entusiasmen demasiado corriendo este script de simulación, quisiera hacerles un comentario final como nota curiosa. He dicho varias veces que el promedio muestral, o más generalmente, la suma de una secuencia de variables aleatorias, es normalmente distribuida a medida que n se hace mayor, sin importar como está distribuida la población de origen. Esto no es del todo cierto, pero no se los quise decir antes para no confundirlos. Por ejemplo, consideren esta gráfica de una función de densidad:
Cauchy

Profesor - Se parece a la gráfica de la función de densidad normal, ¿no? Pues esta gráfica, de apariencia inocente y acampanada, se corresponde a la función de densidad de una distribución conocida como la distribución de Cauchy. Para esta distribución diabólica, el Teorema del Límite Central falla. ¿Saben porqué?

El profesor hace una pausa, para crear un efecto dramático de suspenso en clase.

Profesor - La distribución de Cauchy no tiene esperanza finita ni varianza finita. Ambas, esperanza y varianza, son infinitas. Al principio de clase, cuando enuncie el Teorema del Límite Central, dije que la distribución de la suma de una secuencia de variables aleatorias independientes y equidistribuidas era asintóticamente normal si la población de origen era de esperanza y varianza finitas. Con la distribución de Cauchy, ese no es el caso. La moraleja es que siempre deben leer la letra pequeña de los teoremas con cuidado y la otra moraleja es que no todo lo que es acampanado es normal.

Fin de la lección. Plaudit amici, comedia finit est.

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.

lunes, 5 de noviembre de 2012

Sobre las variables aleatorias continuas, ecuaciones de dibujitos y la moda.

En esta entrada quiero abordar el cálculo de probabilidades para variables aleatorias continuas. Las variables aleatorias continuas son aquellas que asumen todos los valores posibles en algún segmento o porción de la recta real. Para efectos prácticos, sabemos que estamos en presencia de una variable aleatoria contínua cuando los valores u observaciones de dicha variable contienen cifras decimales. Esto último es una regla generalmente válida pero no universal. Por ejemplo, para el trabajo práctico del semestre 2012-1, la variable X7 (Índice de Actividad Física) tiene como posibles valores 1, 1.2, 1.4, 1.6 y 1.8, pero no es una variable continua (aunque sus valores contienen decimales). De hecho, esta variable X7 es una variable ordinal - sus valores se corresponden a grados de actividad física (desde sedentaria hasta muy alta) en una escala ordinal. Además, las 150 observaciones de esta variable asumen algunos de estos 5 posibles valores y no aquellos con otros decimales, como 1.27465, por dar un ejemplo

Aclarando un poco lo anterior, las variables continuas generalmente se corresponden a los tipos de escala "proporcional" o de "intervalo", para las cuales es posible establecer comparaciones de proporción como "la edad de x es el doble de la edad de y", o "el salario mensual de y es una cuarta parte del salario mensual de z". Este tipo de comparaciones no se puede hacer con las variables ordinales ni mucho menos con las variables nominales o categóricas. Por ejemplo, con respecto a la variable X7, no podemos afirmar que una persona con un índice de actividad física de 1.2 (actividad física ligera, hace deporte 1 a 3 veces por semana) tiene un 20% más de actividad física que una persona con índice 1 (sedentaria). Por ser comparables en términos de proporción, estas variables se pueden promediar. De modo que las variables contínuas tienen la media, la mediana y por supuesto la moda como medidas de tendencia central. Volveremos sobre este punto a lo largo de esta entrada. Por ahora vamos a analizar cómo se calculan probabilidades para este tipo de variables. 

En primer lugar, las variables aleatorias continuas tienen algo que se conoce como función de densidad. Es importante acotar que, a diferencia de las variables aleatorias discretas en donde calculabamos probabilidades puntuales mediante la función de probabilidad puntual, para variables continuas la función de desidad no nos permite calcular probabilidades directamente.  Sin embargo, la función de densidad nos caracteriza la distribución de frecuencias de una variable y a partir de ella se deriva la función de distribución de probabilidad acumulada, con la cual sí podemos calcular probabilidades.

 Para las variables uniformes, la función de densidad es constante en un intervalo de valores. La función de densidad exponencial es f( x ) = 1 β e x β para todo x>0. La función de densidad normal es algo más complicada que la función de densidad exponencial y no vale la pena dar su forma explícita aqui. Lo importante es familiarizarse con los tipos de gráficas de estas funciones de densidad:


Fig. 1a - variable uniforme

Fig. 1b - variable exponencial

Fig. 1c - variable normal

Comentando un poco las figuras de arriba, podemos notar que la distribución uniforme distribuye la probabilidad de manera equitativa a través de todo su rango. Por tal razón, el valor esperado de esta variable se ubica en todo el centro del intervalo (5,10), para el ejemplo de la figura 1a (ver la entrada en este blog: "¿Cómo se calcula un valor esperado?"). En la uniforme, que es una distribución simétrica, la media y la mediana coinciden (son iguales a 7.5 para el ejemplo de la figura 1a). Como la función de densidad es uniforme, todos los valores entre 5 y 10 son modales. Por razones de simétría, podemos asumir el valor de 7.5 como el valor modal "más representativo". La distribución exponencial no es simétrica- podemos ver que la mayor densidad de probabilidad está acumulada hacia la izquierda (ver figura 1b). La moda, o el valor con mayor densidad de probabilidad asociado, es el 0 (puede observar que ese es el punto donde la densidad es mayor). La normal es otra distribución simétrica, caracterizada por su típica forma acampanada (ver figura 1c). Para la normal, media, moda y mediana coinciden justo en "el punto de la campana más alto". Nótese que TODA variable aleatoria contínua tiene moda, o por lo menos, un valor modal.

En los cursos introductorios de teoría de probabilidad (asignaturas 737, 745 y 747 de la UNA), vemos algunas distribuciones continuas y cómo calcular probabilidades respecto a estas distribuciones.  La finalidad de esto es reconocerlas como modelos matemáticos de algún fenómeno real y poder así inferir sobre la realidad en base a nuestro modelo matemático.  Por ejemplo, al observar el histograma de frecuencias para la variable X2 (trabajo práctico 2012-1) en la figura 2,


Fig. 2 - histograma de X2

uno podría sospechar que la variable X2 (edades de 150 niños de una muestra) es uniformemente distribuida: las frecuencias de los intervalos de clase, indicadas por las alturas de las barras de la gráfica, son más o menos iguales.  De hecho, tendría mucho sentido escoger una muestra de 150 niños de modo que todos los grupos de edades tuviesen igual representación (frecuencia).  En los cursos de inferencia estadística (asignaturas 746 y 738/748 de la UNA), se estudian técnicas para comprobar si la distribución de frecuencias de una muestra es lo "suficientemente parecida" a alguna distribución de probabilidades específica.  Estas técnicas se conocen como "contrastes de bondad de ajuste".

Para calcular probabilidades de tipo "calcúle la probabilidad de que una variable contínua X asuma valores entre a y b", necesitamos conocer lo que se llama la función de distribución de probabilidad (acumulada).  La función de distribución de probabilidad, denotada por F(x) ("F mayúscula de X", a no confundir con f(x), que es la función de densidad) es básicamente la integral de la función de densidad. Sin embargo, como los que cursan las carreras de contaduría y administración, en cuyo pensum de estudio no figura el cáculo integral, en los formularios se dan directamente las fórmulas o las tablas que nos permiten trabajar con la función de distribución directamente.  Por ejemplo, a continuación damos las fórmulas par las funciones de distribución de la variable uniforme y exponencial:

Función de distribución
uniforme

F ( x ) = P ( X x ) = 0 x < a ( x a ) ( b a ) a x b 1 x > b
    
Función de distribución
 exponencial 


F ( x ) = P ( X x ) = 1 e x β


Estas fórmulas de arriba figuran en el formulario de la UNA como las fórmulas 49 y 55.  Por ejemplo, si queremos calcular P(X<4), para una variable X exponencialmente distribuida con parámetro β=2, enchufariamos el 4 y el 2 como valores para x y β, respectivamente, en la fórmula de arriba, obteniendo así P(X<4)=0,8646.  Obsérvese que en la gráfica debajo de la fórmula donde se sombrea toda el área bajo la curva de la exponencial desde x=0 hasta x=4, el área sombreada se corresponde al 86% del área total bajo toda la curva, que siempre será 1 para cualquier variable aleatoria.

En efecto, podemos hacer una analogía entre "probabilidad" y "área bajo la curva de densidad" que nos permitirá fácilmente calcular probabilidades respecto a cualquier variable aleatoria contínua.  Esto es algo así como el equivalente probabilístico de los diagramas de Venn en teoría de conjuntos.  Siempre ha de recordarse que para cualquier función de densidad, el aŕea total bajo la curva en todo el rango de la variable es 1.  La función de densidad nos indíca como se distribuye la probabilidad total de 1 a través de todo el rango de valores de la variable.

Explotando esta analogía, les propongo a continuación una técnica visual para facilitar el cálculo de probabilidades que he llamado "ecuaciones con dibujitos".  Supóngase por ejemplo que queremos calcular P(X>4) para una variable X exponencialmente distribuida.  Revisando la fórmula 55, notamos que solo nos permite calcular probabilidades de tipo P(X<x), y nosotros necesitamos que la desigualdad sea al contrario (P(X>4)).  Sin embargo, podemos utilizar la fórmula 55 si nos damos cuenta que P(X<4) es el área bajo la curva exponencial desde 0 hasta 4.  Teniendo en cuenta que P(X>4) es el área bajo la curva exponencial desde 4 hasta infiníto, y que ambas áreas suman a 1, tenemos la siguiente ecuación de dibujitos:

Esta ecuación de dibujitos se interpreta como sigue: "para calcular P(X>4), tenemos que restarle el área (sombreada) bajo la curva a la izquierda de 4 al área total bajo la curva exponencial, que es igual a uno".  De este modo, la ecuación de dibujitos nos sugiere como calcular P(X>4) a partir del valor de P(X<4) que podemos calcular a partir de la fórmula de la función de distribución de probabilidad acumulada.

Proponemos otro ejemplo de cálculo de probabilidades referente a una distribución uniforme entre 10 y 20.  Supóngase que esta vez estamos interesados en calcular P(12<X<16). Puesto que la fòrmula 49 de la función de distribución de probabilidad uniforme sólo nos permite calcular probabilidades de tipo P(X<x), o equivalentemente, areas bajo la curva de densidad uniforme ubicadas a la izquierda de la distribución, podemos plantear una ecuación de dibujitos que nos permita orientarnos en el cálculo:

Así, para este ejemplo, P(12<X<16)=P(X<16)-P(X<12)=0.6-0.2=0.4.  En resúmen, podemos plantear cualquier cálculo de probabilidades respecto a variables contínuas como un cálculo con sumas y restas de áreas (sombreadas) bajo la curva.

Para las variables normálmente distribuidas no se dá explícitamente la fórmula de la función de distribución de probabilidad acumulada F(x), puesto que para el caso de la normal, la función de densidad f(x) no tiene primitiva (no es posible calcular su integral indefinida analíticamente).  Por esta razón, el cálculo de probabilidades para la distribución normal involucra el uso de tablas, donde se encuentran tabulados los valores F(x) para distintos valores de x.  El cálculo de probabilidades normales será abordado en una entrada futura en este blog.  Como se verá, las ecuaciones de dibujitos son particularmente útiles en ese contexto también.

Mientras tanto, volvemos sobre el tema de la moda en el contexto de las variables aleatorias continuas.  En los trabajos prácticos de la asignatura 745, muchos de ustedes utilizan la función MODA de Excel para calcular la moda de una muestra para datos no agrupados.  Generalmente, esta función en Excel arroja "#NA" como respuesta, lo cual se interpreta como "no disponible".  De ahí, muchos estudiantes infieren erroneamente que la variable en cuestión no tiene moda, o que la moda no existe para esta variable.  Esto es desde luego un error, pues toda variable aleatoria tiene por lo menos un valor modal (en el caso de la uniforme, todos sus valores son modales).  ¿Porqué Excel no puede calcular la moda para algunas variables?

Veamos la cuestión un poco más a fondo.  La función MODA de Excel simplemente devuelve el valor que más se repite entre un conjunto de valores.  Cuando ningún valor se repite, la función MODA devuelve "#NA".  Esto no significa que la variable en cuestión no tenga moda, simplemente nos indica que ningún valor de la muestra se repite.  El problema es que cási siempre, cuando trabajamos con poblaciones con distribuciones de probabilidad contínuas, ningún valor de la muestra se repite y si esto sucede, es debido a errores de medición o truncamiento decimal.

La razón por la cual ningún valor se repite en una muestra proveniente de una población con distribución continua tiene que ver con el hecho que para toda variable aleatoria continua, cualquier probabilidad puntual de tipo P(X=x) es necesariamente igual a cero.  Para visualizar intuitivamente este hecho, planteamos el cálculo de una probabilidad puntual mediante una ecuación de dibujitos:


El ejemplo de arriba está referido al cálculo de P(X=100) para una variable aleatoria normal con media igual a 100.  Como el resultado de la resta de las dos areas sombreadas es el área equivalente a la superficie de un segmento de recta - y puesto que los segmentos de recta tienen área nula (la recta es un área infinitamente delgada) - se puede ver que la probabilidad P(X=100) es necesariamente igual a cero ¡aún cuando paradójicamente, la media de la variable es igual a 100!

Para las variables aleatorias continuas, no se puede calcular la moda como "aquel valor que más se repite", puesto que todas las probabilidades puntuales son iguales a cero. Por lo tanto, la función MODA de Excel no puede calcular el valor modal para este tipo de variables ¿Qué hacer entonces?

Primeramente, para el caso de las variables continuas, la definición de la moda como el "valor con mayor frecuencia asociada" no es del todo correcta, o es correcta sólo en parte.  Para estas variables, la moda es aquel valor con mayor densidad de probabilidad asociado y debemos tener presente que "densidad de probabilidad" no es lo mismo que "probabilidad".  Para calcular la moda muestral en tales casos, sería necesario estimar esta función de densidad de probabilidad en base a la muestra (lo que se conoce como el kernel o núcleo de densidad) y determinar el punto para el cual esta densidad se hace máxima.  Y esto, claramente, es algo que no hace el Excel.  Por lo tanto, la alternativa sería usar un programa para estadísticas "de verdad".

En R, usando mi librería estUNA, esto es bastante fácil de hacer.  Por ejemplo, si queremos calcular la moda de la variable X2 cuyo histograma es el de la figura 2 arriba, esto se haría mediante el comando resumen(X2), cuya salida devuelve toda clase de medidas estadísticas de la variable X2, incluyendo la moda de dicha variable, o utilizar el comando moda(X2), que devuelve sólamente la moda.  Para esta variable en partícular, la moda es de 7,323183, lo cual se indica mediante la línea vertical roja en el histograma de la figura 2.

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.

jueves, 18 de octubre de 2012

¿Qué es un valor esperado y cómo se calcula?

En este post abordaré el tema del valor esperado, tal como se evalúa en el objetivo 5 de Estadística General (745). Para poner las cosas en perspectiva, presentamos un enunciado del objetivo 5 que apareció en la segunda parcial del 2009-2:
Una compañía de servicios para oficinas ha recolectado la siguiente información:
Solicitudes de reparación Frecuencia absoluta de observación (días)
5 276
9 59
13 30
25 36
31 38
52 21
El gerente desea saber, el ingreso esperado de la compañía por día si continua el modelo observado en el pasado y todas las solicitudes de servicio se contestan (a una tarifa de 200 Bs. por llamada).
Como es característico de las preguntas de este objetivo, al final se quiere que el estudiante calcule un valor esperado. A veces se pide además calcular la desviación estándar, para lo cual primero se debe calcular la varianza, la cual al fin del día, es un tipo de valor esperado también. Si no sabe o no entiende el concepto de valor esperado, es imposible que apruebe el objetivo 5 de esta asignatura, pues el objetivo 5 trata específicamente de lo siguiente:
Calcular el valor esperado y la varianza de una variable aleatoria dada su distribución de probabilidades, y aplicarlo a la toma de decisiones.

Vamos a comenzar entonces por aclarar de una vez qué es un valor esperado. Imagínese que graficamos la información tabulada en el enunciado de modo que los valores en la columna debajo de las "Solicitudes de reparación" se colocan como puntos sobre el eje X y para cada uno de esos puntos graficamos una barra cuya altura se corresponde al respectivo valor en la columna de "Frecuencia absoluta de observación (días). Tendríamos lo que se denomina una gráfica de barras, que es parecido a un histograma de frecuencias (ver Fig. 1).

Fig. 1 - Un diagrama de barras

diagrama de barras
Imagínese ahora que sobre una barra rígida horizontal como la barra negra de la Fig. 1, las barras verticales sobre cada punto x tienen un peso proporcional a su altura. ¿Cual sería el "centro de gravedad" de la barra horizontal? En otras palabras, ¿donde tendríamos que colocar el punto de apoyo para que la barra quede equilibrada (Ver Fig. 2)? Este "punto de equilibrio" se corresponde al valor esperado de una variable, el cual es el equivalente probabilístico de lo que en física se conoce como "momento de primer orden". Por ser el valor esperado el análogo probabilístico de "centro de gravedad", decimos que el valor esperado es una medida de tendencia central.

Fig. 2 - El "punto de equilibrio" de un diagrama de barras
valor esperado (animación)
Por ser el "momento de primer orden" y el "valor esperado" conceptos tan similares, sus fórmulas son muy parecidas. Para calcular matemáticamente un valor esperado (de una variable discreta), usamos la siguiente fórmula:
\[E(X)=\sum_{i=1}^n x_i\cdot p(x_i)\]

que aparece en el Formulario de Probabilidades y Estadística de la UNA como la fórmula N° 27. Esta fórmula plantea que para calcular el valor esperado de una variable, debemos sumar los productos de los posibles valores de la variable por sus respectivas probabilidades. Esto implica que para calcular el valor esperado de una variable, necesitamos conocer primero cual es su distribución de probabilidad. Este punto es muy importante y en todas las preguntas de este objetivo se da, de una forma u otra, explícita o implícitamente, la distribución de probabilidad de la variable aleatoria cuyo valor esperado debemos calcular.

Para este problema, tenemos que calcular la utilidad esperada, la cual es función de la cantidad de solicitudes de reparación recibidas diariamente (X). Si por cada llamada (solicitud) recibida tenemos un ingreso de 200 Bs., la utilidad (U) sería:

\[U=200\cdot X\]

Por propiedades conocidas del valor esperado, el valor esperado de la utilidad sería igual a 200 por el valor esperado de la variable X, por lo cual el problema se reduce a calcular el valor esperado del número de solicitudes de servicio recibidas diariamente. Para esto necesitamos conocer su distribución de probabilidad, la cual no se está dando directamente...

Observando la tabla de frecuencias dadas en el enunciado, observamos que a para cada valor de la variable X, tenemos una frecuencia correspondiente en "días"- esto significa que se ha registrado diariamente la cantidad de solicitudes de reparación recibidas y, por ejemplo, en 276 días se recibieron 5 solicitudes de servicio (para cada día). ¿Cuanto tiempo duró el periodo de observación? Para ello debemos sumar todos los valores de la columna "Frecuencias de Observación", obteniendo así una cifra total de 460 días (verifique el cálculo).

Es preciso hacer una tabla en la cual colocaremos los posibles valores de la variable X junto a las respectivas probabilidades, que se obtienen dividiendo cada cifra en la columna de frecuencias observadas entre 460.Para aplicar la fórmula del valor esperado, colocamos en una tercera columna todos los productos de los valores de X multiplicados por sus respectivas probabilidades, aunque Usted puede obviar este paso si realiza los cálculos directamente en su calculadora:

x
p(x)
x⋅p(x)
5 276/460 3
9 59/460 1,1543
13 30/460 0,8478
25 36/460 1,9565
31 38/460 2,5609
52 21/460 2,3739
Totales: E(X)=11,8935

El valor esperado de la variable X es 11,8935- esto implica que se reciben, en promedio, 11,8935 solicitudes por día (observe que 11,8935 se corresponde al punto de la barra negra bajo el cual se coloca el punto de apoyo en la Fig. 2). Quizás se esté preguntando si tiene sentido que el valor esperado contenga cifras decimales. Aclaremos de una vez que la interpretación correcta del valor esperado es que este es un promedio y no la cantidad de solicitudes que nosotros esperamos recibir en un día cualquiera. Claramente, no podemos recibir 11,8935 solicitudes en un día (ni siquiera 11, pues 11 no es un valor posible para la variable X). Lo que implica este resultado es que si obervásemos por varios días la cantidad de solicitudes de reparación, el promedio sería un valor muy cercano a 11,8935. En este contexto, vale aclarar que las probabilidades p(x) fueron estimadas a partir de una muestra de 460 días, lo cual estríctamente hablando, es un problema de inferencia estadística (inferir las probabilidades teóricas u otras caracteristicas poblacionales en base a una muestra). Sin embargo, si en el futuro la variable X se comporta como en el pasado y se mantienen igual todas las condiciones que inciden sobre su comportamiento, sería bastante razonable esta estimación. En definitiva, tendriamos una utilidad esperada de 200⋅11,8935=2378,7 Bs.

A veces, para las preguntas de este objetivo, se pide calcular también la desviación estandar, para lo cual habría que calcular primero la varianza, pues la desviación estándar se obtiene tomando la raíz cuadrada de la varianza. La varianza es un valor esperado tambíen- es el valor esperado de las desviaciones cuadráticas de una variable respecto a su media (μ o también E(X)):

\[V(X)=E\left[(X-\mu)^2\right]\]

Podríamos colocar en una cuarta columna los términos \((X-\mu)^2\) que figuran en la fórmula de la varianza, pero optaremos por utilizar una propiedad según la cual la varianza se puede escribir como:

\[V(X)=E(X^2)- \mu^2\]


Los términos \(x_i^2 \cdot p(x_i)\) son más fáciles de calcular y el valor de \(\mu=E(X)\) ya lo hemos calculado. Por lo tanto, nuestra tabla quedaría así:

\(x\) \(p(x)\) \(x\cdot p(x)\) \(x^2 \cdot p(x)\)
5 276/460 3 15
9 59/460 1,1543 10,3891
13 30/460 0,8478 11,0217
25 36/460 1,9565 48,913
31 38/460 2,0659 79,387
52 21/460 2,3739 123,4434
Totales: \(E(X)=11,8935\)\(E(X^2)=288,1542\)

Aplicando la formula de la varianza dada arriba, tendriamos:

\[V(X)=E(X^2)-\mu^2=288,1542-11,8935^2=146,6988\]

Tomando la raiz cuadrada de este resultado obtendríamos la desviación estándar.

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.

domingo, 17 de junio de 2012

Consulta 737 / 747 - Objetivo 1

Por correo electrónico, una estudiante me preguntó lo siguiente:

Profesor encontré un ejercicio que dice lo siguiente:
Se disponen de 5 bolas rojas y 5 bolas negras en 8 cajas numeradas. ¿Cuantas maneras hay de hacerlo?

Mi pregunta es debe desarrollar tomando en cuenta que todas las cajas deben estar llenas? ¿O se puede trabajar por casos?

Mi respuesta:

Vamos a aclarar el problema un poco. Se tienen 5 pelotas negras y 5 pelotas rojas que se van a colocar en 8 cajas numeradas y hay que calcular de cuantas formas de pueden colocar las 10 pelotas (de 2 colores distintos) en las 8 cajas numeradas. Las pelotas negras/rojas son indistintas entre sí mientras que las cajas si son distintas entre sí porque están numeradas. La otra suposición importante es que aparentemente no hay restricciones con respecto a la capacidad de cada caja- por ejemplo, ¡una sola caja pudiese contener las 10 pelotas!

Creo que está claro que primero debemos de calcular de cuantas maneras se puede ubicar 5 pelotas de un color e indistintas entre sí en 8 cajas. Si esta cantidad es x, el número total de formas de distribuir las 10 pelotas (5 pelotas rojas y 5 pelotas negras) en 8 cajas numeradas sería x^2, según el principio de multiplicación.

Primeramente, podríamos distribuir las 5 pelotas en una sola caja y dejar las demás cajas vacías. ¿De cuantas maneras podríamos hacer esto? Pensemos ... Como tenemos 8 opciones, hay 8 formas de colocar un grupo de 5 pelotas en 8 cajas.

Seguidamente, podríamos tener un grupo de 4 pelotas y otro grupo de 1 pelota. Primero debemos de ubicar las 4 pelotas en una caja (8 opciones). Luego tenemos 7 cajas vacías para ubicar la quinta pelota (7 opciones). Por lo tanto hay 8x7=56 maneras de ubicar dos grupos de pelotas (de 4 y 1 pelota) en 8 cajas.


Pero también podríamos tener un grupo de 3 pelotas y otro grupo de 2 pelotas, con lo cual tendríamos también 8x7=56 maneras de distribuir esos dos grupos en 8 cajas numeradas. En total, hay 56+56=112 maneras de distribuir dos grupos de pelotas (de distintos tamaños) en 8 cajas numeradas. Nótese que en ambos casos, el número total de pelotas es 5 hay dos formas de separar esas 5 pelotas en 2 grupos de modo que las cantidades de pelotas en cada grupo sumen a 5.

¿Y si tuviésemos 3 grupos de pelotas? Hay dos formas de dividir 5 pelotas en 3 grupos: 2+2+1=5, 3+1+1=5. En cada caso, tenemos que ubicar el primer grupo de pelotas en una de las 8 cajas, luego el segundo grupo de pelotas en una de las 7 cajas remanentes y finalmente el tercer grupo de pelotas se puede ubicar en alguna de las 6 cajas que quedan. Por lo tanto, hay 3x8x7x6=1008 formas de distribuir 3 grupos de pelotas en 8 cajas numeradas. ¡Un momento! ¿Acaso poner un grupo de 2 pelotas en la caja N° 5 y otro grupo de 2 pelotas en la caja N° 4 no es lo mismo que poner un grupo de 2 pelotas en la caja N° 4 y el otro grupo de 2 pelotas en la caja N° 5? Tanto en el caso 2+2+1 como en el caso 3+1+1, hay dos grupos de igual tamaño. Por lo tanto, hay que dividir 1008 entre 2 (por que hay 2!=2 maneras de permutar 2 objetos) y en consecuencia, hay 504 formas de ubicar 3 grupos de pelotas en cajas numeradas.

En el caso de dividir las 5 pelotas en 4 grupos, tendríamos 1 sola manera de hacerlo: 2+1+1+1=5. En este caso, ubicamos el primer grupo de 2 pelotas en cualquiera de las 8 cajas, el segundo grupo de una pelota en una de las 7 cajas, etc. En total, son 8x7x6x5=1680 las formas de ubicar estos 4 grupos en 8 cajas pero debemos tomar en cuenta que hay 3 grupos de igual tamaño que se pueden permutar de 3!=6 maneras y por lo tanto, hay que dividir 1680 entre 6: 280.

Por último, también hay 1 sola manera de dividir las 5 pelotas en 5 grupos: 1+1+1+1+1=5.  Hay 8!/(3!x5!)=56 formas de ubicar 5 pelotas en 8 cajas de modo que a lo sumo haya una sola pelota en cada caja.

En total, hay 8+112+504+280+56=960 maneras de distribuir 5 pelotas de un color en 8 cajas numeradas.  Por lo tanto, x=960 y la respuesta definitiva al problema es x^2=921600.

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.