Entropía (información)

En el ámbito de la teoría de la información la entropía, también llamada entropía de la información y entropía de Shannon (en honor a Claude E. Shannon), mide la incertidumbre de una fuente de información.

La entropía también se puede considerar como la cantidad de información promedio que contienen los símbolos usados. Los símbolos con menor probabilidad son los que aportan mayor información; por ejemplo, si se considera como sistema de símbolos a las palabras en un texto, palabras frecuentes como «que», «el», «a» aportan poca información, mientras que palabras menos frecuentes como «corren», «niño», «perro» aportan más información. Si de un texto dado borramos un «que», seguramente no afectará a la comprensión y se sobreentenderá, no siendo así si borramos la palabra «niño» del mismo texto original. Cuando todos los símbolos son igualmente probables (distribución de probabilidad plana), todos aportan información relevante y la entropía es máxima.

El concepto entropía es usado en termodinámica, mecánica estadística y teoría de la información. En todos los casos la entropía se concibe como una «medida del desorden» o la «peculiaridad de ciertas combinaciones». La entropía puede ser considerada como una medida de la incertidumbre y de la información necesaria para, en cualquier proceso, poder acotar, reducir o eliminar la incertidumbre. Resulta que el concepto de información y el de entropía están básicamente relacionados entre sí, aunque se necesitaron años de desarrollo de la mecánica estadística y de la teoría de la información antes de que esto fuera percibido.

La entropía de la teoría de la información está estrechamente relacionada con la entropía termodinámica. En la termodinámica se estudia un sistema de partículas cuyos estados X (usualmente posición y velocidad) tienen una cierta distribución de probabilidad, pudiendo ocupar varios microestados posibles (equivalentes a los símbolos en la teoría de la información). La entropía termodinámica es igual a la entropía de la teoría de la información de esa distribución (medida usando el logaritmo neperiano) multiplicada por la constante de Boltzmann k, la cual permite pasar de nats (unidad semejante al bit) a J/K. Cuando todos los microestados son igualmente probables, la entropía termodinámica toma la forma k log(N). En un sistema aislado, la interacción entre las partículas tiende a aumentar su dispersión, afectando sus posiciones y sus velocidades, lo que causa que la entropía de la distribución aumente con el tiempo hasta llegar a un cierto máximo (cuando el mismo sistema es lo más homogéneo y desorganizado posible); lo que es denominado segunda ley de la termodinámica. La diferencia entre la cantidad de entropía que tiene un sistema y el máximo que puede llegar a tener se denomina neguentropía, y representa la cantidad de organización interna que tiene el sistema. A partir de esta última se puede definir la energía libre de Gibbs, que indica la energía que puede liberar el sistema al aumentar la entropía hasta su máximo y puede ser transformada en trabajo (energía mecánica útil) usando una máquina ideal de Carnot. Cuando un sistema recibe un flujo de calor, las velocidades de las partículas aumentan, lo que dispersa la distribución y hace aumentar así la entropía. Así, el flujo de calor produce un flujo de entropía en la misma dirección.

El concepto básico de entropía en teoría de la información tiene mucho que ver con la incertidumbre que existe en cualquier experimento o señal aleatoria. Es también la cantidad de «ruido» o «desorden» que contiene o libera un sistema. De esta forma, podremos hablar de la cantidad de información que lleva una señal.

Como ejemplo, consideremos algún texto escrito en español, codificado como una cadena de letras, espacios y signos de puntuación (nuestra señal será una cadena de caracteres). Ya que, estadísticamente, algunos caracteres no son muy comunes (por ejemplo, «w»), mientras otros sí lo son (como la «a»), la cadena de caracteres no será tan "aleatoria" como podría llegar a ser. Obviamente, no podemos predecir con exactitud cuál será el siguiente carácter en la cadena, y eso la haría aparentemente aleatoria. Pero es la entropía la encargada de medir precisamente esa aleatoriedad, y fue presentada por Shannon en su artículo de 1948, A Mathematical Theory of Communication ("Una teoría matemática de la comunicación", en inglés).

Shannon ofrece una definición de entropía que satisface las siguientes afirmaciones:

Ejemplos de máxima entropía: Suponiendo que estamos a la espera de un texto, por ejemplo un cable con un mensaje. En dicho cable solo se reciben las letras en minúscula de la a hasta la z, entonces si el mensaje que nos llega es "qalmnbphijcdgketrsfuvxyzwño" el cual posee una longitud de 27 caracteres, se puede decir que este mensaje llega a nosotros con la máxima entropía (o desorden posible); ya que es poco probable que se pueda pronosticar la entrada de caracteres, pues estos no se repiten ni están ordenados en una forma predecible.

Supongamos que un evento (variable aleatoria) tiene un grado de indeterminación inicial igual a ${displaystyle k}$ (i.e. existen ${displaystyle k}$ estados posibles) y supongamos todos los estados equiprobables. Entonces la probabilidad de que se dé una de esas combinaciones será ${displaystyle p=1/k}$ . Luego podemos representar la expresión ${displaystyle c_{i}}$ como:^[a]

${displaystyle c_{i}=log _{2}(k)=log _{2}[1/(1/k)]=log _{2}(1/p)=underbrace {log _{2}(1)} _{=0}-log _{2}(p)=-log _{2}(p)}$

Si ahora cada uno de los ${displaystyle k}$ estados tiene una probabilidad ${displaystyle p_{i}}$ , entonces la entropía vendrá dada por la suma ponderada de la cantidad de información:^[1]^[b]

${displaystyle H=-p_{1}log _{2}(p_{1})-p_{2}log _{2}(p_{2})-....-p_{k}log _{2}(p_{k})=-sum _{i=1}^{k}p_{i}log _{2}(p_{i})}$

Por lo tanto, la entropía de un mensaje ${displaystyle X}$ , denotado por ${displaystyle H(X)}$ , es el valor medio ponderado de la cantidad de información de los diversos estados del mensaje:

${displaystyle H(X)=-sum _{i}p(x_{i})log _{2}p(x_{i})=sum _{i}p(x_{i})log _{2}(1/p(x_{i}))}$

que representa una medida de la incertidumbre media acerca de una variable aleatoria y por tanto de la cantidad de información.

La entropía puede verse como caso especial de la información mutua. La información mutua de dos variables aleatorias, denotado por I(X;Y), es una cantidad que mide la dependencia mutua de las dos variables; es decir, mide la reducción de la incertidumbre (entropía) de una variable aleatoria, X, debido al conocimiento del valor de otra variable aleatoria, Y.^[2] De la definición podemos concluir que, si X e Y son iguales, entonces I(X;Y)=H(X).

La entropía tiene las siguientes propiedades:

Un codificador óptimo es aquel que utiliza el mínimo número de bits para codificar un mensaje. Un codificador óptimo usará códigos cortos para codificar mensajes frecuentes y dejará los códigos de mayor longitud para aquellos mensajes que sean menos frecuentes. De esta forma se optimiza el rendimiento del canal o zona de almacenamiento y el sistema es eficiente en términos del número de bits para representar el mensaje.

Por ejemplo, el código Morse se aprovecha de este principio para optimizar el número de caracteres a transmitir a partir del estudio de las letras más frecuentes del alfabeto inglés. Aunque el código Morse no es un codificador óptimo, asigna a las letras más frecuente códigos más cortos. Otro ejemplo sería el algoritmo de Huffman de codificación que sirve para compactar información.^[3] Este método se basa en el codificador óptimo. Para ello lo primero que hace es recorrer toda la información para encontrar la frecuencia de los caracteres y luego a partir de esta información busca el codificador óptimo por medio de árboles binarios. Algunas técnicas de compresión como LZW o deflación no usan probabilidades de los símbolos aislados, sino que usan las probabilidades conjuntas de pequeñas secuencias de símbolos para codificar el mensaje, por lo que pueden lograr un nivel de compresión mayor.

Podemos construir un codificador óptimo basándonos en la entropía de una variable aleatoria de información X. En efecto, la entropía nos da el número medio de bits (si usamos logaritmos de base 2) necesarios para codificar el mensaje a través de un codificador óptimo y por tanto nos determina el límite máximo al que se puede comprimir un mensaje usando un enfoque símbolo a símbolo sin ninguna pérdida de información (demostrado analíticamente por Shannon), el límite de compresión (en bits) es igual a la entropía multiplicada por el largo del mensaje. Reescribiendo la ecuación de cálculo de la entropía llegamos a que:

Por lo tanto, la información (que se encuentra definida en bits, dado que la base del logaritmo es 2) que aporta un determinado valor o símbolo ${displaystyle x_{i},!}$ de una variable aleatoria discreta ${displaystyle X,!}$ se define como:

${displaystyle I(x_{i})=log _{2}{frac {1}{p(x_{i})}}=-log _{2}{p(x_{i})}}$

Esta expresión representa el número necesario de bits para codificar el mensaje x en el codificador óptimo y por tanto la entropía también se puede considerar como una medida de la información promedio contenida en cada símbolo del mensaje.

Supongamos que el número de estados de un mensaje es igual a 3 M₁, M₂ y M₃ donde la probabilidad de M₁ es 50 %, la de M₂ 25 % y la de M₃ 25 %.

Por tanto, en el codificador óptimo para transmitir M₁ hará falta un bit y para M₂ y M₃ será necesario contar con dos bits. Por ejemplo, podríamos codificar M₁ con "0", M₂ con "10" y M₃ con "11". Usando este convenio para codificar el mensaje M₁M₂M₁M₁M₃M₁M₂M₃ usaríamos "010001101011" y por tanto 12 bits. El valor de la entropía sería:

Por tanto, el codificador óptimo necesita de media 1,5 bits para codificar cualquier valor de X.

Supongamos que en vez de tener una única variable aleatoria X, existe otra variable Y dependientes entre sí, es decir el conocimiento de una (por ejemplo, Y) entrega información sobre la otra (por ejemplo, X). Desde el punto de vista de la entropía de la información podemos decir que la información de Y disminuirá la incertidumbre de X. Por tanto, podemos decir que la entropía de X será condicional a Y, y por tanto:

${displaystyle H(X,Y)=-sum _{x,y}p(x,y)log _{2}p(x,y)}$

Como por el teorema de Bayes tenemos que p(x,y)=p(y)p(x|y) donde p(x|y) es la probabilidad de que se dé un estado de X conocida Y, podemos decir:

${displaystyle H(X|Y)=-sum _{y}p(y)sum _{x}p(x|y)log _{2}p(x|y)}$

El concepto de entropía condicional es muy interesante en el campo del criptoanálisis. Proporciona una herramienta para evaluar el grado de seguridad de los sistemas. Por ejemplo, para un sistema de cifrado hay dos entropías condicionales interesantes:^[4] Supongamos

Entonces:

Supongamos una variable X con cuatro estados: ${displaystyle x_{1},x_{2},x_{3},x_{4}}$ todos equiprobables y por tanto ${displaystyle p(x_{i})=1/4}$ . Existe además otra variable Y con tres estados; ${displaystyle y_{1},y_{2},y_{3}}$ con probabilidades ${displaystyle p(y_{1})=1/2}$ y ${displaystyle p(y_{2})=p(y_{3})=1/4}$ . Se conocen, además, las siguientes dependencias:

Aplicando las fórmulas tenemos:

En este caso el conocimiento de la dependencia de X respecto Y reduce la entropía de X de 2 a 1,5.

^[5]Un proceso estocástico ${displaystyle {X_{i}}}$ es una secuencia indexada de variables aleatorias. En general, puede haber dependencias entre las variables aleatorias. Para estudiar la probabilidad de cierto conjunto de valores se suele adoptar el siguiente convenio:

Sea ${displaystyle {X_{i}}_{i=1,..n}}$ un proceso estocástico de n variables aleatorias, y sea ${displaystyle A^{n}}$ el conjunto de la posibles combinaciones de valores de ${displaystyle {X_{i}}_{i=1,..n}}$ . Se define la entropía del proceso estocástico, también llamada entropía del n-grama y denotado por ${displaystyle H_{n}}$ , como:

^[5]La ratio de entropía de una secuencia de n variables aleatorias (proceso estocástico) caracteriza la tasa de crecimiento de la entropía de la secuencia con el crecimiento de n.

La ratio de entropía de un proceso estocástico ${displaystyle {X_{i}}}$ viene definida por la ecuación:

${displaystyle H(X)=lim _{n o infty }{dfrac {1}{n}}H(X_{1},...,X_{n})}$

siempre que dicho límite exista.

Algunas veces resulta conveniente usar otras medidas de información distintas a la definición de Shannon. Entre ellas, para un conjunto de probabilidades ${displaystyle p_{i}}$ dado, se pueen definir las siguientes:

Para todos estos tipos de entropía se verifica que:

${displaystyle Lgeq 0}$ ; ${displaystyle R_{q}geq 0}$ ; ${displaystyle T_{q}geq 0}$ para todo ${displaystyle qgeq 0}$

${displaystyle H_{e}geq L}$ ocurriendo igualdad solo en caso de que ${displaystyle H_{e}=0}$

${displaystyle lim _{q o 1}R_{q}=lim _{q o 1}T_{q}=H_{e}}$

Escribe un comentario o lo que quieras sobre Entropía (información) (directo, no tienes que registrarte)

Comentarios
(de más nuevos a más antiguos)

Aún no hay comentarios, ¡deja el primero!