LAS DISTRIBUCIONES NORMALES

Introducción.

Se conocen como tales, la distribución de Gauss, curva de errores o propiamente nornal, que se abreviará en adelante como DN, y la logarítmico normal DLN, que en cierto modo es equivalente a la anterior en el sentido de que el logaritmo de la variable, sigue una DN.

De momento no se comentará la DN ya que ha estado suficientemente estudiada y a la que se han encontrado numerosas aplicaciones en estadística tales como control de fabricación, encuestas etc.

La DLN, también conocida como de Galton –Mac Alister o Gibrat, también ha estado estudiada y muy discutida (Aichinson-Brown: The lognormal distribution with special references to its uses in economics. Cambridge University Press 1976) aunque en el presente estudio se tratará de plantear algunas modificaciones en su tratamiento. Además, analizando ambas, se llega a un nuevo tipo de distribuciones, que se podrían llamar Distribuciones Normales Cónicas, por estar basadas en las tres cónicas: elipse, parábola e hipérbola y que implican a ambas DN y DLN.

La DLN

En primer lugar, se va a modificar la presentación de la DLN. En su descripción, se encuentra normalmente la siguiente expresión:

(1)

La función de distribución es:

De aquí se deduce que la mediana de la DLN es M’ = ya que si ERF(0) =0

D(x) =1/2 es la mediana y por tanto ln x-M =0 ln x=M x=e^M

Derivando la expresión de la DLN e igualando a cero se deduce la moda:

o bien sustituyendo por su valor:

La media de la distribución es :

El exponente de P(x) puede ponerse en la forma:

Haciendo el cambio de variable se tiene x=zM₀ dx =dz M₀

Y sustituyendo en (1) con el exponente anterior quedará:

(2)

En esta expresión para z=1 x=M₀ y por lo tanto P(x) está referido a la moda, tomando ésta como unidad de medida.

Para z=1 resulta

Como se verá, esta forma de expresión tiene ventajas sobre la clásica.

En primer lugar, como ln z=-ln 1/z y ln² = (-ln 1/z)² la densidad de probabilidad de valores recíprocos referidos a la moda son iguales. Es decir P(0,5, M₀) = P(2, M₀).

Esto da una manera de comprobar si una curva de distribución es DLN. Se busca la abcisa de la moda, sea x₀; se toman dos puntos de la curva con la misma ordenada y se comprueba si las abcisas cumplen x₁/x₀= x₀/ x₁. En este caso la distribución puede ser LN. Como que

se tiene

Los momentos referidos a M₀ se expresan por:

La función de densidad de probabilidad relativa.

La expresión (2) puede escribirse en la forma:

y por lo tanto

(3)

P_r (z) es un nuevo concepto: la densidad de probabilidad relativa de la DLN, que abreviaremos como DLNR, o sea distribución lognormal relativa, en la cual la densidad de probabilidad de la variable está referida a la densidad de probabilidad de la moda, tomando el valor de ésta como unidad de medida de la variable.

Entonces como

De ello resulta que es más fácil trabajar con la DLNR referida a la moda que en la forma en que se presenta normalmente. Basta calcular o estimar la función acumulativa de Pr(z) y multiplicar por el valor de Pmax(z) para hallar los valores de P(y).

Si se dispone de valores estadísticos, a veces es fácil estimar el valor de la moda y calculando la media, se pueden determinar los parámetros s y M.

En la figura que se acompaña figuran ambas representaciones. Puesto que s no es propiamente un parámetro de la DLN (lo es de la DN de ln z) es conveniente usar la inversa de s a=1/s, parámetro que denominaremos concentración.

El concepto de distribución relativa, también es aplicable a la DN, siendo en este caso M₀ =0 (4) que llamaremos DNR siendo en este caso

Este concepto en realidad puede aplicarse a cualquier tipo de distribución.

Tangente desde el origen.

En una DLNR vamos a calcular la tangente a la curva desde el oorigen de coordenadas.

La pendiente de la tangente en un punto de la curva Pr(x) (habiendo cambiado la designación de la variable z por x) es, derivando:

y si tiene que pasar por el origen debe cumplirse

P’r(x)=Pr(x)/x y sustituyendo queda

O sea -ln x =s² y ln x = -s² y pero este valor es el inverso de la mediana. Ello facilita el hallar la mediana cuando se tiene la curva de distribución relativa. Lo mismo es aplicable a la curva de la función de distribución, tal como se ha representado en la figura anterior. También se concluye que la moda es la media geométrica entre la mediana y la abcisa del punto por donde pasa la tangente desde el origen. Ello también puede ser útil para comprobar si una distribución es LN.

Puntos de inflexión.

Derivando dos veces respecto a x e igualando a cero, se encuentra para los puntos de inflexión de la curva:

Consecuencias de las DNR y DLNR. Distribuciones normales elípticas.

En (4), con variable x, haciendo y = Pr(x) y tomando logaritmos se tiene:

que es la ecuación de una parábola de parámetro s² :

Si la DLNR relativa puede generarse a partir de una parábola, se puede suponer que existen distribuciones generadas por una elipse, pues la parábola es el límite de una elipse cuando sus ejes 2a mayor y 2b menor (paralalo al eje x en el presente caso) crecen infinitamente, manteniéndose constante la relación b²/a. De todos modos designaremos por c al semieje a para no confundirlo con la concentración a mencionada antes.

La ecuación de la elipse equivalente a la la parábola precedente es:

y por tanto

y de aquí

Del doble signo de la raiz se toma el positivo porque para x=0 debe ser y=Prmax=1.

Esto limita la elipse generatriz a la mitad superior. Más adelante se comenta la mitad

inferior. Este nuevo concepto de distribución se designa como Distribución normal elíptica, DNE. En la figura se presentan una DNR y su parábola junto a una DNE y su elipse.

Las DNE están limitadas por los valores de x = ±b y realmente parece que deberían ser en la práctica más reales que la DN, que admite valores teóricos en el infinito, cuando en el mundo real esto no puede darse. El error en las medidas, origen de la DN, no puede ser ¥ porque los dispositivos de medida son finitos. Esta opinión concuerda con una manifestada en la web relativa a la DN de http://mathworld.wolfram.com que dice lo que sigue:

“Because they occur so frequently, there is an unfortunate tendency to invoke normal distributions in situations where they may not be applicable. As Lippmann stated, "Everybody believes in the exponential law of errors: the experimenters, because they think it can be proved by mathematics; and the mathematicians, because they believe it has been established by observation" (Whittaker and Robinson 1967, p. 179).

Si se trazan las curvas de dos DN una normal y la otra elíptica de parámetros c=5 b=1 para la DNE y s =0,5 para la DN se ve que la forma de las curvas es casi exacta. Para valores de c más altos ambas coinciden.

A=1.03 Pmax=0,97

Mediante ordenador se puede realizar la integración de las curvas. Para los gráficos e integración se ha usado el software GeoGebra.

Como todos los elementos de la distribución debe estar comprendidos entre –b y +b, se tiene:

En la figura anterior se ha determinado la Pmax de la DNE de este modo.

Haciendo x/b=sen w, es posible simplificar la expresión de la DNE del siguiente modo:

Dx=b cos w Pr(x) dx = Pr(w) dw=

Distribución lognormal elíptica.

La misma conclusión puede hacerse en relación a la DLN, pues en este caso

ln y =-ln² x/2s² . La elipse equivalente será, haciendo 2s² = b²:

y por tanto

En el caso de la DLNE los límites de la variable x, siendo la moda =1 son e^by e^-b.

Esta distribución también tiene la propieda antes indicada de que P(1/x) = P(x).

La misma opinión expresada anteriormente para las DNE se puede indicar para las LNE: son las distribuciones reales pues en el mundo real no hay variables que permitan el valor infinito como sucede con la DLN. La integración debe hacerse entre los límites e^±^b para hallar Pmax(x) = 1 /A.

Con la introducción de logaritmos de probabilidad como anteriormente se ha hecho, es posible filosofar sobre entropía, información y probabilidad.

Si el logaritmo de una probabilidad se relaciona con la entropía y la entropía negativa es información, los logaritmos de la probabilidad relativa ( o la total) indican la cantida de información que produce el conocer un valor de la variable de la distribución en cuestión. Y la mayor información la facillitan los valores menos probables, que tienen el logaritmo negativo mayor, es decir el de mayor entropía negativa.

Distribuciones hiperbólicas.

Del mismo modo que se han definido las distribuciones elípticas, se encuentra una expresión para distribuciones hiperbólicas:

Esta distribución se extiende como la DN desde -µ a +µ.

El problema es que la integración de Pr(x) para hallar la Pmax(x) tampoco es inmediata, aunque puede realizarse entre valores de la variable suficientemente altos.

Como sucede con la DNE, para valores de concentración suficientemente altos ambas distribuciones coinciden prácticamente, como se puede comprobar con las tablas y gráfico que siguen.

llll

En el cuadro que se acompaña, se comparan los valores de Pmax de los tre tipos de distribuciones cónicas, así como los valores acumulado de la función de distribución desde 0 (mediana) hasta x. Finalmente se compara la diferencia en porcentaje. Como puede observarse, la diferencia entre la DN y la DNH es mínima, por lo que cabe preguntarse cual de ellas es más real.

		COMPARACION ENTRE LAS TRE DISTRIBUCIONES NORMALES

	Distribución Normal		DN Hiperbólica		DN elíptica		Diferencia en D(x) en%
x	P(x)	D(x)0-x	P'(x)	D'(x)0-x	P''(x)	D''(x)0-x	D'-D	D''-D

0	0.79788	0	0.79789	0	0.7822	0	0	0
0.1	0.78209	0.07926	0.77967	0.07918	0.7713	0.07786	-0.008	-0.14
0.2	0.73654	0.15542	0.72794	0.15481	0.73917	0.15355	-0.061	-0.187
0.3	0.66645	0.22575	0.65064	0.22391	0.68755	0.22504	-0.184	-0.071
0.4	0.57938	0.28814	0.55838	0.28444	0.61915	0.29050	-0.37	0.236
0.5	0.48394	0.34134	0.46176	0.33544	0.53753	0.34843	-0.59	0.709
0.6	0.38837	0.38493	0.36941	0.37694	0.4468	0.3977	-0.799	1.277
0.7	0.29945	0.41924	0.28702	0.40966	0.35132	0.43763	-0.958	1.839
0.8	0.22184	0.4452	0.21739	0.43477	0.25522	0.46795	-1.043	2.275
0.9	0.1579	0.46407	0.16105	0.45358	0.16119	0.48875	-1.049	2.468
1	0.10798	0.47725	0.11706	0.46739	0.04757	0.5	-0.986	2.275
1.2	0.04479	0.4918	0.05901	0.48442			-0.738
1.4	0.01583	0.49744	0.02832	0.49281			-0.463
1.5	0.00886	0.49865	0.01934	0.49517			-0.348
2	0.00027	0.49997	0.0026	0.49938			-0.059
2.5	0	0.5	0.00031	0.49993			-0.007
3	0	0.5	0.00004	0.49999			-0.001


	D(X) = Integral des de 0 a x siendo x=0 la mediana

Distribuciones Centrípetas y Centriífugas.

Analizando las expresiones de las distribuciones elípticas, es lógico preguntarse qué sucede con la mitad inferior de la elipse resultante de la fórmula de dichas curvas, ya que sólamemte se ha usado la mitad de dichas curvas. ¿Puede haber distribuciones elípticas con límites ± b con mayor densidad de probabilidad en los bordes que en el centro?

En estas circunstancias, la ecuación de las funciones de dendidad serían:

¿Existen este tipo de distribuciones? Es posible que si, pero por no conocerse ni el concepto ni la posibilidad de expresarlas, hasta ahora nadie las ha tomado en consideración.