Informationsmaße

Thermodynamikvorlesung von Prof. Dr. E. Schöll, PhD

Der Artikel Informationsmaße basiert auf der Vorlesungsmitschrift von Franz- Josef Schmitt des 1.Kapitels (Abschnitt 2) der Thermodynamikvorlesung von Prof. Dr. E. Schöll, PhD.

|}}

{{#set:Urheber=Prof. Dr. E. Schöll, PhD|Inhaltstyp=Script|Kapitel=1|Abschnitt=2}} Kategorie:Thermodynamik __SHOWFACTBOX__

Die Informationstheorie ( Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten !

Definition:

Ein Maß $μ$

auf einer Algebra A´ ist eine Abbildung $μ : A \overset{´}{} \to [0, \infty]$

mit den Eigenschaften

$\begin{aligned} μ (0) = 0 \\ μ (⋃_{i = 1}^{\infty} A_{i}) = \sum_{i = 1}^{\infty} μ (A_{i}) \end{aligned}$

für disjunkte Ereignisse Ai, also

$A_{i} \cap A_{j} = A_{i} δ_{i j}$

Nebenbemerkung: Eine $σ$

- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele

$\begin{aligned} A_{i} \in A \overset{´}{}, i = 1, . . . ., \infty \\ \Rightarrow ⋃_{i = 1}^{\infty} A_{i} \in A \overset{´}{} \end{aligned}$

Also: Die Vereinigung der Ereignisse ist Element der Algebra !

Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra !

Beispiel eines Maßes: Wahrscheinlichkeit P

Speziell:

$P (A) \leq 1$

Idee des Informationsmaßes:

Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´

Frage: Welche von 2 Verteilungen enthält mehr Information , bzw. Kenntnis darüber, welches Ereignis eintreten wird ?

Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis !

Beispiel:

Zonk- Problem:

Hauptgewinn ist hinter einer von 3 Türen versteckt !

$A, B, C \in A \overset{´}{}$

Verteilung: Alle drei Türen zu je 1/3:

$P^{(1)} = δ (x - 1) + δ (x - 2) + δ (x - 3)$

Als Gleichverteilung -> minimale Kenntnis

Verteilung:

$P^{(2)} = δ (x - 2)$

scharfe Verteilung -> maximale Kenntnis / Sicherheit

Bitzahl:

Ausgangspunkt: diskrete Ereignisalgebra:

$A \overset{´}{} = {A_{i}}_{i \in I}$

Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??

Länge der Nachricht = Maß für die fehlende Kenntnis des Beobachters

Beispiel:

Auswahl eines Ereignisses aus

$A \overset{´}{} = {A_{1}, A_{2}, . . ., A_{N}}$

falls der Beobachter keine Vorkenntnis hat .

$1) A \overset{´}{} = {A_{1}, A_{2}}$

einafche Alternative

= kleinste Informationseinheit

= 1 bit ( binary digit)

Nachricht: 0 oder 1

A´ sei menge mit $2^{n}$
Elementen:

n Alternativentscheidungen notwendig:

z.B. 0011 -> insgesamt n Stellen in Binärdarstellung nötig !

Länge der Nachricht:

$n = \log_{2} N$

( nötige Bitzahl)

Informationsmaß der Nachricht:

Bitzahl !

Also: $b (N) = \log_{2} N$

falls keine Vorkenntnis vorhanden ist !

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen $P_{i}$

Falls der Beobachter die $P_{i}$

kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl $b (P_{i})$

.

Postulate für die Konstruktion von $b (P_{i})$

:

$b (P)$
sei eine universelle Funktion, hängt von A also nur über P(A) ab !
Seien ${A_{i}}$
und ${A_{j} \overset{´}{}}$
2 verschiedene ( disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt:

Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt:

b ist additiv, also:

$b (P \overset{´}{} \overset{´}{}) = b (P) + b (P \overset{´}{})$

wobei nach Definition der Unkorreliertheit ( stochastische Unabhängigkeit) gilt:

$P \overset{´}{} \overset{´}{} (A_{i} A_{j} \overset{´}{}) = P (A_{i}) P \overset{´}{} (A_{j} \overset{´}{})$

dabei ist

$A_{i} A_{j} \overset{´}{}$

das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel ${A_{i} A_{j} \overset{´}{}}$

.

3) b(P)=0 für P=1, also für das sichere Ereignis

$\begin{aligned} b (P) = \log_{2} N \\ f \ddot{u} r P = \frac{1}{N} \end{aligned}$

also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt !

4) $b (P)$

ist stetig und wohldefiniert für $0 \leq P \leq 1$

Wegen der Additivität macht es Sinn:

$b (P) = f (\log P)$

zu definieren. Es muss f noch bestimmt werden !

Wegen 1) und 2) folgt:

$\begin{aligned} f (\log P \overset{´}{} \overset{´}{}) = f (\log P + \log P \overset{´}{}) =! = f (\log P) + f (\log P \overset{´}{}) \\ \Rightarrow f (\log P) = a * \log P \end{aligned}$

Also: die Funktion sollte linear in log P sein !

Bemerkung:

Für 2 unkorrelierte Systeme ist die Länge der Nachricht = Informationsmaß bei maximaler Unbestimmtheit additiv.

Dies motiviert Postulat 2)

Aus 3) folgt:

$\begin{aligned} f (\log P \overset{´}{} \overset{´}{}) = f (\log P + \log P \overset{´}{}) =! = f (\log P) + f (\log P \overset{´}{}) \\ \Rightarrow f (\log P) = a * \log P \\ b (P) = a \log (P) = - a \log N =! = \log_{2} N \\ f \ddot{u} r P = \frac{1}{N} \\ \Rightarrow a = - 1 \\ \log = \log_{2} \end{aligned}$

Konvention:

Einheit für ein bit:

$\ln 2 = \frac{\ln P}{\log_{2} P}$

"bin"

$b (P_{i}) = - \ln P_{i}$

Informationsmaß für die Nachricht, dass Ai eingetreten ist,

falls

$P_{i} = P (A_{i})$

bekannt ist !

Informationsmaß einer Wahrscheinlichkeitsverteilung ${P_{i}}$

Übermittlung vieler Nachrichten:

$A_{i}$

tritt mit relativer Häufigkeit $P_{i}$

auf !

mittlere benötigte ( = da fehlende !) Information pro Ereignis:

$b (P_{i}) = - \ln P_{i}$

somit:

$⟨ b (P_{i}) ⟩ = - \sum_{i}^{} P_{i} \ln P_{i}$

Definition: Shannon- Information einer Verteilung ${P_{i}}$

$\begin{aligned} I (P) = \sum_{i = 1}^{N} P_{i} \ln P_{i} \\ P = (P_{1} . . . P_{N}) \end{aligned}$

I ist Funktional der Verteilung

b ist Funktion von Pi b(Pi)

Es gilt stets $I (P) \leq 0$

Maximum: $I (P) = 0$

für $p_{i} = δ_{i j}$

Also maximal für scharfe Verteilung mit sicherem Ereignis $A_{j}$

Minimum: Variation der $P_{i}$

um $δ P_{i}$

unter der Nebenbedingung

$\sum_{i}^{} δ P_{i} = 0$

wegen Normierung:

$\sum_{i}^{} P_{i} = 1$

Somit:

$δ I (P) = \sum_{i = 1}^{N} (\ln P_{i} + 1) δ P_{i} = 0$

Addition der Nebenbedingung $\sum_{i}^{} δ P_{i} = 0$

mit dem Lagrange- Multiplikator $λ$

$\sum_{i = 1}^{N} (\ln P_{i} + 1 + λ) δ P_{i} = 0$

unabhängige Variation $δ P_{i} \Rightarrow \forall i \Rightarrow \ln P_{i} = - (1 + λ) = c o n s t .$

Normierung $\sum_{i}^{} P_{i} = 1 = N P_{i} \Rightarrow P_{i} = \frac{1}{N}$

, also Gleichverteilung

Übung: Man vergleiche I(P) für verschiedene Verteilungen

Kontinuierliche Ereignismenge

$x \in R^{d}, ρ (x)$

Zelleneinteilung des $R^{d}$
in Zellen i mit Volumen
$Δ^{d} x$

Wahrscheinlichkeit für ein Ereignis in Zelle i:

$\begin{aligned} P_{i} = ρ (x^{i}) Δ^{d} x \\ I (P) = \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (Δ^{d} x ρ (x^{i})) = \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (ρ (x^{i})) + \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (Δ^{d} x) \\ \sum_{i}^{} Δ^{d} x ρ (x^{i}) = 1 \\ \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (Δ^{d} x) = c o n s t . \end{aligned}$

für eine feste Zellengröße.

Damit kann dieser Term weggelassen werden und wir gewinnen:

$\begin{aligned} I (P) = \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (ρ (x^{i})) \\ Δ^{d} x \to 0 \\ I (ρ) = \int_{}^{} d^{d} x ρ \ln ρ \end{aligned}$

Bemerkungen

Shannon- Informationsmaß misst die Kenntnis bezüglich der Frage: Welches Ereignis tritt ein ?

keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis

( Laplacsches Prinzip vom unzureichenden Grund)

2) Definition : Statistisches Informationsmaß des NICHTWISSENS: ( der fehlenden Information):

$S (ρ) = - k \int_{}^{} d^{d} x ρ \ln ρ$