Distribución de datos del análisis de datos.
La distribución de probabilidad se utiliza para expresar las reglas de probabilidad de valores de variables aleatorias. Según los diferentes tipos de variables aleatorias, la distribución de probabilidad toma diferentes formas de expresión, divididas principalmente en distribución de probabilidad de variable discreta y distribución de probabilidad de variable continua. .
Distribución discreta: distribución binomial, distribución multinomial, distribución de Bernoulli, distribución de Poisson.
Distribución continua: distribución uniforme, distribución normal, distribución exponencial, distribución gamma, distribución sesgada, distribución beta, distribución de Weibull, distribución chi-cuadrado, distribución F.
Variable aleatoria continua: si la función de distribución F(X) de la variable aleatoria x) se llama función de densidad de probabilidad de x, y el valor integral es la expectativa matemática de X
1. Distribución discreta
(1) Distribución de Bernoulli
La distribución de Bernoulli tiene solo dos resultados posibles, 1-éxito y 0-fracaso. Una variable aleatoria Las probabilidades de éxito y fracaso. no son necesariamente iguales.
El valor esperado de la variable aleatoria X de la distribución de Bernoulli es: E(X)=1 p 0 (1-p)=p
La varianza es: V(X )= E(X?)–[E(X)]? =p–p?
(2) Distribución binomial
Si se realizan n veces de pruebas de Bernoulli, el resultado de cada vez Solo hay dos resultados: 0 y 1. Si n = 1, obviamente es la distribución de Bernoulli. Cada prueba de la distribución binomial es independiente. El resultado del lanzamiento anterior no puede determinar ni afectar el resultado del lanzamiento actual. Un experimento con solo dos resultados posibles y repetidos n veces se llama binomial. Los parámetros de la distribución binomial son n y p, donde n es el número total de ensayos y p es la probabilidad de éxito en cada ensayo. La probabilidad de que n eventos repetidos independientes ocurran k veces es:
(3) Distribución multinomial
La distribución multinomial es una generalización y expansión de la distribución binomial. En cada n experimentos independientes, Solo se genera uno de los k resultados a la vez, y cada resultado tiene una cierta probabilidad. La distribución multinomial proporciona la probabilidad de varias combinaciones del número de éxitos en el caso de múltiples estados de salida.
Por ejemplo, lanza un dado n veces. Este dado tiene 6 salidas posibles, y la probabilidad de 1 punto es p1 y la probabilidad de 2 puntos es p2. La distribución multinomial da los resultados en n intentos. , el dado aparece x1 veces a la 1 en punto, x2 veces a las 2 en punto, x3 veces a las 3 en punto,..., x6 veces a las 6 en punto. La fórmula de probabilidad de esta combinación de resultados es:
(4) Distribución de Poisson
Una gran cantidad de eventos tienen una frecuencia fija. Características: Se puede estimar el número total de estos eventos, pero no se puede conocer la hora y el lugar específicos en que ocurrieron. Se sabe que nacen un promedio de 3 bebés cada hora. ¿Cuántos bebés nacerán en la próxima hora?
La distribución de Poisson es un proceso de conteo, generalmente utilizado para simular el número de ocurrencias de un evento no continuo en un tiempo continuo.
Características principales:
1. Cualquier evento exitoso no puede afectar a otros eventos exitosos (los incrementos de N (t s) -N (t) son independientes entre sí
<); p> 2. La probabilidad de éxito después de un intervalo de tiempo corto debe ser igual a la probabilidad de éxito después de un intervalo de tiempo largo3. Cuando el intervalo de tiempo tiende a ser infinitesimal, la probabilidad de éxito dentro de un intervalo de tiempo; se acerca a cero ;
La distribución de Poisson describe la frecuencia específica de ocurrencia de eventos dentro de un cierto período de tiempo.
La fórmula de la función de distribución de probabilidad de la distribución de Poisson es la siguiente:
2. Distribución continua
(1) Distribución uniforme
La probabilidad de ocurrencia de todos los n resultados posibles de una distribución uniforme es igual La función de densidad de probabilidad de una variable distribuida uniformemente > (2) Distribución normal
Características de la distribución normal: 1. La media, la mediana y la moda. de la distribución son consistentes 2. La curva de distribución tiene forma de campana, alrededor de la línea x=μ Simetría 3. El área total bajo la curva es 1. El producto de dos distribuciones normales sigue siendo una distribución normal; La suma de dos variables aleatorias independientes que obedecen a una distribución normal obedece a una distribución normal.
Si la variable aleatoria El rango de valores reales posibles de la variable aleatoria X (regla 3sigma).
(3) Distribución exponencial
La distribución exponencial es el intervalo de tiempo entre eventos independientes. Por ejemplo, el intervalo de tiempo entre el nacimiento de un bebé, el intervalo de tiempo entre llamadas telefónicas, el intervalo de tiempo entre ventas de leche en polvo y el intervalo de tiempo entre visitas al sitio web
(4) Distribución gamma
La distribución gamma es un número independiente y La distribución de la suma de variables distribuidas exponencialmente con la misma distribución, es decir, el tiempo desde el principio hasta el enésimo evento.
(5) ***distribución previa de yugo
***yugo es una distribución de probabilidad previa que selecciona una función como función de verosimilitud, de modo que la función de distribución posterior y la anterior La forma de la función de distribución es consistente (la distribución Beta es la distribución de probabilidad previa del yugo de la distribución binomial, mientras que la distribución de Dirichlet (distribución de Dirichlet) es la distribución de probabilidad previa del yugo de la distribución polinómica).
Regla de Bayes: distribución posterior = función de probabilidad * distribución de probabilidad anterior
(6) Distribución Beta
La distribución Beta (Distribución Beta) es una función de densidad que es una distribución previa de yugo de las distribuciones binomial y de Bernoulli y tiene aplicaciones importantes en el aprendizaje automático y la estadística matemática. En teoría de la probabilidad, la distribución Beta, también llamada distribución B, se refiere a un conjunto de distribuciones de probabilidad continuas definidas en el intervalo (0, 1). Cuando se desconoce la probabilidad de que ocurra un evento específico, la distribución beta puede dar la probabilidad de que ocurran todas las probabilidades.
Por ejemplo, α=0,99, β=0,5, la distribución beta B (α, β) es como se muestra a continuación:
(7) Distribución chi-cuadrado
Tres, la relación entre distribuciones
(1) La relación entre la distribución de Bernoulli y la distribución binomial:
1. La distribución de Bernoulli es un caso especial de una sola prueba de distribución binomial. es decir, una prueba de distribución binomial única;
2. Cada prueba de distribución binomial y distribución de Bernoulli tiene solo dos resultados posibles;
3. Distribución binomial Cada prueba es independiente entre sí , y cada ensayo puede considerarse como una distribución de Bernoulli.
(2) La relación entre la distribución de Poisson y la distribución binomial:
Bajo las siguientes condiciones, la distribución de Poisson es la forma límite de la distribución binomial:
1. El número de ensayos es muy grande o se acerca al infinito, es decir, n→∞;
2. La probabilidad de éxito en cada ensayo es la misma y se acerca a cero, es decir, p→0 ; p>
3. np=λ es un valor finito.
(3) La relación entre la distribución normal y la distribución binomial la relación entre la distribución normal y la distribución de Poisson:
Bajo las siguientes condiciones, la distribución normal es una forma; de la distribución binomial Una forma límite:
1. El número de ensayos es muy grande o se acerca al infinito, es decir, n→∞
2. Ni p ni q son infinitesimales;
Cuando Cuando el parámetro λ→∞, la distribución normal es la forma límite de la distribución de Poisson.
(4) La relación entre la distribución exponencial y la distribución de Poisson:
Si el intervalo de tiempo de eventos aleatorios obedece a la distribución exponencial con parámetro λ, entonces el número total de eventos que ocurren dentro del período de tiempo t Obedece la distribución de Poisson y el parámetro correspondiente es λt.