martes, 26 de enero de 2010

Aleatoriedad 2: La revancha

Metas:

1.- Introducción (Tipos de Distribuciones).

Se distinguen dos tipos de distribuciones:
Distribuciones Discretas (D.D.).
Distribuciones Continuas (D.C.).

La diferencia entre ambas se debe al tipo de V.A. que manejan.

Una variable se dice que es aleatoria, si los posibles valores que puede tomar son determinados por el azar. En otras palabras se sabe qué valores puede tomar la variable pero no se tiene certeza de su ocurrencia, sólo se sabe que puede ocurrir con una cierta probabilidad.

Las variables aleatorias se clasifican:
Discretas: aquellas que resultan de "contar" el número de casos en los que el evento de interés ocurre.
Continuas: aquellas que resultan del producto de "medir" el evento de interés.

Como el lector podra intuir, las D.D. son aquellas en las que tenemos V.A. discretas, mientras que las D.C. son en las que tenemos V.A. continuas.


Entre las D.C. algunas de ellas son:

Distribución uniforme: La distribución uniforme continua es una familia de distribuciones de probabilidad para variables aleatorias continuas, tales que cada miembro de la familia, todos los intervalos de igual longitud en la distribución en su rango son igualmente probables. El dominio está definido por dos parámetros, a y b.
Distribución normal: También conocida como distribución de Gauss, es una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales.
La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de un determinado parámetro. Esta curva se conoce como campana de Gauss.





Distribución χ² (de Pearson) es una distribución de probabilidad continua con un parámetro k.



Entre las D.D. algunas de ellas son:

Distribución binomial: es una distribución de probabilidad discreta que mide el número de éxitos en una secuencia de n ensayos independientes de Bernoulli con una probabilidad fija p de ocurrencia del éxito entre los ensayos.

Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es, sólo son posibles dos resultados. A uno de estos se denomina éxito y tiene una probabilidad de ocurrencia p y al otro, fracaso, con una probabilidad q = 1 - p. En la distribución binomial el anterior experimento se repite n veces, de forma independiente, y se trata de calcular la probabilidad de un determinado número de éxitos. Para n = 1, la binomial se convierte, de hecho, en una distribución de Bernoulli.

Distribución de Poisson: es una distribución de probabilidad discreta. Expresa la probabilidad de un número k de eventos ocurriendo en un tiempo fijo si estos eventos ocurren con una frecuencia media conocida y son independientes del tiempo discurrido desde el último evento.


2.- Algoritmos generadores de números aleatorios con cierta distribución.

Método de la transformada inversa: Es un método para la generación de números aleatorios de cualquier distribución de probabilidad continua cuando se conoce la inversa de su función de distribución. Este método es aplicable en general, pero puede resultar muy complicado (a veces imposible) obtener una expresión analítica de la inversa para algunas distribuciones de probabilidad.
El método se utiliza para simular valores de las distribuciones exponencial, Cauchy, triangular, de Pareto y Weibull.

El método de la transformada inversa se basa en el siguiente teorema:

Teorema de inversión. Sea X una variable aleatoria con función de distribución de probabilidad F, continua e invertible, y sea F^(-1) su función inversa. Entonces, la variable aleatoria U = F(X) tiene distribución uniforme en (0;1). Como consecuencia, si U es una variable aleatoria uniforme en (0;1) entonces la variable aleatoria X = F^(-1)*(U) satisface la distribución F.

El método de la transformada inversa funciona de la siguiente manera:

1. Se genera un número aleatorio a partir de la distribución uniforme estandard; se lo llama u.
2. Se calcula el valor x tal que F(x) = u; y se lo llama xelegido.
3. Se toma xelegido como el número aleatorio extraído de la distribución caracterizada por F.


Método de Box-Muller: El método de Box-Muller es un método de generación de pares de números aleatorios independientes con distribución normal "estándar", a partir de una fuente de números aleatorios uniformemente distribuidos.

Dado que U1 y U2 son V.A. independientes que están uniformemente distribuidas en el intervalo (0,1], tenemos que:

y

Son V.A. independientes con una distribución normal con desviación estandard 1.


También podemos aprovechar el Teorema del limite central, para aproximar una distrubución normal, por ejemplo, si consideramos el lanzamiento de un dado, podemos ver que sigue una distribución uniforme discreta, mientras que si lanzamos 2 dados y consideramos la suma de ambos dados como nuestro resultado vemos que:
La grafica de dicho experimento tiene una forma parecida a la normal, si aumentamos el número de dados el parecido aumenta, y entre mas dados el orden de los resultados se incrementan.


3.- Analisis de datos, pruebas de normalidad (selección de Distribución).

Las pruebas de normalidad de aplican a conjuntos de datos para conocer si se comportan como una distribución normal, entre ellos estan:

  • Prueba de Kolmogórov-Smirnov
  • Test de Lilliefors
  • Test de Anderson–Darling
  • Test de Ryan–Joiner
  • Test de Shapiro–Wilk
  • Normal probability plot (rankit plot)
  • Test de Jarque–Bera
  • Test omnibús de Spiegelhalter


4.- Casos de aplicación (ejemplos reales)...(explicación... ¿por qué?)

Medida de errores:
La normalidad es la asunción central de la teoría matemática de errores. De forma similar en el ajuste de modelos estadístico, un indicador de la bondad del ajuste es que el error residual (así es como se llaman los errores en esta circunstancia) sea independiente y normalmente distribuido. La asunción es que cualquier desviación de la normalidad necesita ser explicada. En ese sentido, en ambos, ajuste de modelos y teoría de errores, la normalidad es la única observación que no necesita ser explicada, sino que es esperada. No obstante, si los datos originales no están normalmente distribuidos (por ejemplo, si siguen una distribución de Cauchy, entonces los residuos tampoco estarán normalmente distribuidos. Este hecho es ignorado habitualmente en la práctica.

Las medidas repetidas de la misma cantidad se espera que cedan el paso a resultados que están agrupados entorno a un valor particular. Si todas las fuentes principales de errores se han tomado en cuenta, se asume que el error que queda debe ser el resultado de un gran número de muy pequeños y aditivos efectos y, por consiguiente, normal. Las desviaciones de la normalidad se interpretan como indicaciones de errores sistemáticos que no han sido tomados en cuenta. Puede debatirse si esta asunción es válida.

Una famosa observación atribuida a Gabriel Lippmann dice:
Todo el mundo cree en la ley normal de los errores: los matemáticos, porque piensan que es un hecho experimental; y los experimentadores, porque suponen que es un teorema matemático

Distribuciones en tests de inteligencia:
A veces, la dificultad y número de preguntas en un test de inteligencia se selecciona de modo que proporcionen resultados normalmente distribuidos. Más aún, las puntuaciones "en crudo" se convierten a valores que marcan el cociente intelectual ajustándolas a la distribución normal. En cualquier caso se trata de un resultado causado deliberadamente por la construcción del test o de una interpretación de las puntuaciones que sugiere normalidad para la mayoría de la población. Sin embargo, la cuestión acerca de si la inteligencia en sí está normalmente distribuida es más complicada porque se trata de una variable latente y, por consiguiente, no puede observarse directamente.

El Teorema del Límite Central:
El Teorema del límite central establece que bajo ciertas condiciones (como pueden ser independencia e idénticamente distribuidas con varianza finita), la suma de un gran número de variables aleatorias se distribuye aproximadamente como una normal.

La importancia práctica del Teorema del límite central es que la función de distribución de la normal puede usarse como aproximación de algunas otras funciones de distribución. Por ejemplo:

  • Una distribución binomial de parámetros n y p es aproximadamente normal para grandes valores de n, y p no demasiado cercano a 1 ó 0 (algunos libros recomiendan usar esta aproximación sólo si np y n(1 − p) son ambos, al menos, 5; en este caso se debería aplicar una corrección de continuidad). La normal aproximada tiene parámetros μ = np, σ2 = np(1 − p).
  • Una distribución de Poisson con parámetro λ es aproximadamente normal para grandes valores de λ. La distribución normal aproximada tiene parámetros μ = σ^(2) = λ

jueves, 21 de enero de 2010

Aleatoriedad 911

Aqui debío haber estado esa clase ~_~U