Informationsmaße: Difference between revisions

Revision as of 18:30, 27 September 2010

Thermodynamikvorlesung von Prof. Dr. E. Schöll, PhD

Der Artikel Informationsmaße basiert auf der Vorlesungsmitschrift von Franz- Josef Schmitt des 1.Kapitels (Abschnitt 2) der Thermodynamikvorlesung von Prof. Dr. E. Schöll, PhD.

|}}

{{#set:Urheber=Prof. Dr. E. Schöll, PhD|Inhaltstyp=Script|Kapitel=1|Abschnitt=2}} Kategorie:Thermodynamik __SHOWFACTBOX__

Die Informationstheorie (Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten!

Definition:

Ein Maß $μ$

auf einer Algebra A´ ist eine Abbildung $μ : A \overset{´}{} \to [0, \infty]$

mit den Eigenschaften

\begin{aligned} μ (0) = 0 \\ μ (⋃_{i = 1}^{\infty} A_{i}) = \sum_{i = 1}^{\infty} μ (A_{i}) \end{aligned}

für disjunkte Ereignisse Ai, also

A_{i} \cap A_{j} = A_{i} δ_{i j}

Nebenbemerkung: Eine $σ$

- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele

\begin{aligned} A_{i} \in A \overset{´}{}, i = 1, . . . ., \infty \\ \Rightarrow ⋃_{i = 1}^{\infty} A_{i} \in A \overset{´}{} \end{aligned}

Also: Die Vereinigung der Ereignisse ist Element der Algebra!

Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra!

Beispiel eines Maßes: Wahrscheinlichkeit P

Speziell:

P (A) \leq 1

Idee des Informationsmaßes:

Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´

Frage: Welche von 2 Verteilungen enthält mehr Information, bzw. Kenntnis darüber, welches Ereignis eintreten wird ?

Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis!

Beispiel:

Zonk- Problem:

Hauptgewinn ist hinter einer von 3 Türen versteckt!

A, B, C \in A \overset{´}{}

Verteilung: Alle drei Türen zu je 1/3:

P^{(1)} = δ (x - 1) + δ (x - 2) + δ (x - 3)

Als Gleichverteilung → minimale Kenntnis

Verteilung:

P^{(2)} = δ (x - 2)

scharfe Verteilung → maximale Kenntnis / Sicherheit

Bitzahl:

Ausgangspunkt: diskrete Ereignisalgebra:

A \overset{´}{} = {A_{i}}_{i \in I}

Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??

Länge der Nachricht = Maß für die fehlende Kenntnis des Beobachters

Beispiel:

Auswahl eines Ereignisses aus

A \overset{´}{} = {A_{1}, A_{2}, . . ., A_{N}}

falls der Beobachter keine Vorkenntnis hat.

1) A \overset{´}{} = {A_{1}, A_{2}}

einafche Alternative

= kleinste Informationseinheit

= 1 bit (binary digit)

Nachricht: 0 oder 1

A´ sei menge mit $2^{n}$
Elementen:

n Alternativentscheidungen notwendig:

z.B. 0011 → insgesamt n Stellen in Binärdarstellung nötig!

Länge der Nachricht:

n = \log_{2} N

(nötige Bitzahl)

Informationsmaß der Nachricht:

Bitzahl!

Also: $b (N) = \log_{2} N$

falls keine Vorkenntnis vorhanden ist!

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen $P_{i}$

Falls der Beobachter die $P_{i}$

kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl $b (P_{i})$ .

Postulate für die Konstruktion von $b (P_{i})$

:

$b (P)$
sei eine universelle Funktion, hängt von A also nur über P(A) ab!
Seien ${A_{i}}$
und ${A_{j} \overset{´}{}}$
2 verschiedene (disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt:

Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt:

b ist additiv, also:

b (P \overset{´}{} \overset{´}{}) = b (P) + b (P \overset{´}{})

wobei nach Definition der Unkorreliertheit (stochastische Unabhängigkeit) gilt:

P \overset{´}{} \overset{´}{} (A_{i} A_{j} \overset{´}{}) = P (A_{i}) P \overset{´}{} (A_{j} \overset{´}{})

dabei ist

A_{i} A_{j} \overset{´}{}

das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel ${A_{i} A_{j} \overset{´}{}}$ .

3) b(P)=0 für P=1, also für das sichere Ereignis

\begin{aligned} b (P) = \log_{2} N \\ f \ddot{u} r P = \frac{1}{N} \end{aligned}

also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt!

4) $b (P)$

ist stetig und wohldefiniert für $0 \leq P \leq 1$

Wegen der Additivität macht es Sinn:

b (P) = f (\log P)

zu definieren. Es muss f noch bestimmt werden!

Wegen 1) und 2) folgt:

\begin{aligned} f (\log P \overset{´}{} \overset{´}{}) = f (\log P + \log P \overset{´}{}) =! = f (\log P) + f (\log P \overset{´}{}) \\ \Rightarrow f (\log P) = a * \log P \end{aligned}

Also: die Funktion sollte linear in log P sein!

Bemerkung:

Für 2 unkorrelierte Systeme ist die Länge der Nachricht = Informationsmaß bei maximaler Unbestimmtheit additiv.

Dies motiviert Postulat 2)

Aus 3) folgt:

\begin{aligned} f (\log P \overset{´}{} \overset{´}{}) = f (\log P + \log P \overset{´}{}) =! = f (\log P) + f (\log P \overset{´}{}) \\ \Rightarrow f (\log P) = a * \log P \\ b (P) = a \log (P) = - a \log N =! = \log_{2} N \\ f \ddot{u} r P = \frac{1}{N} \\ \Rightarrow a = - 1 \\ \log = \log_{2} \end{aligned}

Konvention:

Einheit für ein bit:

\ln 2 = \frac{\ln P}{\log_{2} P}

"bin"

b (P_{i}) = - \ln P_{i}

Informationsmaß für die Nachricht, dass Ai eingetreten ist,

falls

P_{i} = P (A_{i})

bekannt ist!

Informationsmaß einer Wahrscheinlichkeitsverteilung ${P_{i}}$

Übermittlung vieler Nachrichten:

A_{i}

tritt mit relativer Häufigkeit $P_{i}$

auf!

mittlere benötigte (= da fehlende!) Information pro Ereignis:

b (P_{i}) = - \ln P_{i}

somit:

⟨ b (P_{i}) ⟩ = - \sum_{i}^{} P_{i} \ln P_{i}

Definition: Shannon-Information einer Verteilung

{P_{i}}

:

I (P) = \sum_{i = 1}^{N} P_{i} \ln P_{i}

{{#set:Definition=Shannon-Information|Index=Shannon-Information}}

\begin{aligned} P = (P_{1} . . . P_{N}) \end{aligned}

I ist Funktional der Verteilung

b ist Funktion von Pi b(Pi)

Es gilt stets $I (P) \leq 0$

Maximum: $I (P) = 0$

für $p_{i} = δ_{i j}$

Also maximal für scharfe Verteilung mit sicherem Ereignis $A_{j}$

Minimum: Variation der $P_{i}$

um $δ P_{i}$ unter der Nebenbedingung

\sum_{i}^{} δ P_{i} = 0

wegen Normierung:

\sum_{i}^{} P_{i} = 1

Somit:

δ I (P) = \sum_{i = 1}^{N} (\ln P_{i} + 1) δ P_{i} = 0

Addition der Nebenbedingung $\sum_{i}^{} δ P_{i} = 0$

mit dem Lagrange- Multiplikator $λ$ :

\sum_{i = 1}^{N} (\ln P_{i} + 1 + λ) δ P_{i} = 0

unabhängige Variation $δ P_{i} \Rightarrow \forall i \Rightarrow \ln P_{i} = - (1 + λ) = c o n s t .$

Normierung $\sum_{i}^{} P_{i} = 1 = N P_{i} \Rightarrow P_{i} = \frac{1}{N}$ , also Gleichverteilung

Übung: Man vergleiche I(P) für verschiedene Verteilungen

Kontinuierliche Ereignismenge

x \in R^{d}, ρ (x)

Zelleneinteilung des $R^{d}$
in Zellen i mit Volumen
$Δ^{d} x$

Wahrscheinlichkeit für ein Ereignis in Zelle i:

\begin{aligned} P_{i} = ρ (x^{i}) Δ^{d} x \\ I (P) = \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (Δ^{d} x ρ (x^{i})) = \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (ρ (x^{i})) + \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (Δ^{d} x) \\ \sum_{i}^{} Δ^{d} x ρ (x^{i}) = 1 \\ \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (Δ^{d} x) = c o n s t . \end{aligned}

für eine feste Zellengröße.

Damit kann dieser Term weggelassen werden und wir gewinnen:

\begin{aligned} I (P) = \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (ρ (x^{i})) \\ Δ^{d} x \to 0 \\ I (ρ) = \int_{}^{} d^{d} x ρ \ln ρ \end{aligned}

Bemerkungen

Shannon- Informationsmaß misst die Kenntnis bezüglich der Frage: Welches Ereignis tritt ein ?

keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis

(Laplacsches Prinzip vom unzureichenden Grund)

2) Definition : Statistisches Informationsmaß des NICHTWISSENS: (der fehlenden Information):

S (ρ) = - k \int_{}^{} d^{d} x ρ \ln ρ

k geeignete Einheit

Interpretation in der Thermodynamik als Entropie

verallgeminerte Informationsmaße (Renyi) $S (ρ) = - k \int_{}^{} d^{d} x ρ \ln ρ$

\begin{aligned} I_{q} = - \frac{1}{1 - q} \ln (\sum_{i}^{} {(p_{i})}^{q - 1}) \\ q = 1, 2, . . . . \end{aligned}

wird gleich dem Shannon- Informationsmaß für $q \to 1$

Informationsgewinn

Maß für die Zusatzinformationen einer Wahrscheinlichkeitsverteilung ${P_{i}}$

im Vergleich zu einer Referenzverteilung ${P_{i} \overset{´}{}}$

über derselben Ereignismenge:

b (P_{i} \overset{´}{}) - b (P_{i}) = \ln \frac{P_{i}}{P_{i} \overset{´}{}}

Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln, also die Information, die als Nachricht hierfür gegeben werden muss :

Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):

K (P, P \overset{´}{}) = \sum_{i}^{} P_{i} \ln \frac{P_{i}}{P_{i} \overset{´}{}}

Informationsgewinn → Kullback Information!

Bemerkungen

mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´
es gilt: $K (P, P \overset{´}{}) \geq 0$
wegen

\sum_{i}^{} P_{i} \ln \frac{P_{i}}{P_{i} \overset{´}{}} \geq \sum_{i}^{} P_{i} (1 - \frac{P_{i} \overset{´}{}}{P_{i}}) = \sum_{i}^{} P_{i} - \sum_{i}^{} P_{i} \overset{´}{} = 1 - 1 = 0

es gilt:

\begin{aligned} \ln x \geq 1 - \frac{1}{x} \\ f \ddot{u} r \\ x > 0 \end{aligned}

$P_{i} \overset{´}{} = 0$
ist auszuschließen, damit $K (P, P \overset{´}{}) < \infty$
Für $P_{i} \overset{´}{} = \frac{1}{N}$
(Gleichverteilung)

\begin{aligned} K (P, P \overset{´}{}) = \sum_{i}^{} P_{i} \ln N P_{i} = \sum_{i}^{} P_{i} \ln P_{i} + \sum_{i}^{} P_{i} \ln N = I (P) + \ln N \\ w e g e n \sum_{i}^{} P_{i} = 1 \\ \Rightarrow K (P, P \overset{´}{}) = I (P) + \ln N \end{aligned}

bei Gleichverteilung!

5) Minimum von K:

Variation der $P_{i}$

um $δ P_{i}$

unter Nebenbedingung $\sum_{i}^{} δ P_{i} = 0$

\begin{aligned} δ K (P, P \overset{´}{}) = \sum_{i}^{} (\ln \frac{P_{i}}{P_{i} \overset{´}{}} + 1) δ P_{i} \\ \sum_{i}^{} (\ln \frac{P_{i}}{P_{i} \overset{´}{}} + 1 + λ) δ P_{i} = 0 \\ \Rightarrow \ln (\frac{P_{i}}{P_{i} \overset{´}{}}) = - (+ 1 + λ) = c o n s t . \\ \Rightarrow P_{i} \tilde{} P_{i} \overset{´}{} \end{aligned}

Wegen Normierung:

\begin{aligned} \sum_{i}^{} P_{i} = \sum_{i}^{} P_{i} \overset{´}{} = 1 \\ \Rightarrow P_{i} = P_{i} \overset{´}{} \Rightarrow K = 0 \end{aligned}

$K (P, P \overset{´}{})$
ist konvexe Funktion von P, da

\frac{\partial^{2} K (P, P \overset{´}{})}{\partial P_{i} \partial P_{j}} = \frac{\partial}{\partial P_{j}} (\ln \frac{P_{i}}{P_{i} \overset{´}{}} + 1) = \frac{1}{P_{i}} δ_{i j} \geq 0

somit ist dann auch

I (P) = K (P, \frac{1}{N}) - \ln N

konvex (Informationsgewinn)

Kontinuierliche Ereignismengen

x \in R^{d}, ρ (x)

Zelleneinteilung des $R^{d}$
in Zellen i mit Volumen
$Δ^{d} x$

Wahrscheinlichkeit für ein Ereignis in Zelle i:

\begin{aligned} P_{i} = ρ (x^{i}) Δ^{d} x \\ K (P, P \overset{´}{}) = \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln \frac{ρ (x^{i})}{ρ \overset{´}{} (x^{i})} \end{aligned}

invariant gegen die Trafo

\begin{aligned} x \to \tilde{x} \\ ρ (x) \to ρ (\tilde{x}) D e t (\frac{\partial x}{\partial \tilde{x}}) \\ Δ^{d} x \to Δ^{d} \tilde{x} D e t {(\frac{\partial x}{\partial \tilde{x}})}^{- 1} \end{aligned}

Während

I (P)

nicht invariant ist!

\begin{aligned} Δ^{d} x \to 0 \\ \Rightarrow K (ρ, ρ \overset{´}{}) = \int_{}^{} d^{d} x ρ \ln \frac{ρ}{ρ \overset{´}{}} \end{aligned}

Bemerkung:

Interpretation von $- k \dot{K} (ρ, ρ \overset{´}{})$

in der Thermodynamik als Entropieproduktion und von

k T K (ρ, ρ \overset{´}{})

als Exergie (availability)

@@ Line 250: / Line 250: @@
 :<math>\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}</math>
-Definition: Shannon- Information einer Verteilung <math>\left\{ {{P}_{i}} \right\}</math>
+{{Def|Definition: '''Shannon-Information''' einer Verteilung <math>\left\{ {{P}_{i}} \right\}</math>:
-:
+::<math>I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}}</math>|Shannon-Information}}
 :<math>\begin{align}
-& I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}} \\
 & P=\left( {{P}_{1}}...{{P}_{N}} \right) \\
@@ Line 277: / Line 275: @@
 um <math>\delta {{P}_{i}}</math>
 unter der Nebenbedingung
@@ Line 292: / Line 289: @@
 Addition der Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>
-mit dem Lagrange- Multiplikator <math>\lambda </math>
+mit dem Lagrange- Multiplikator <math>\lambda </math>:
-:
 :<math>\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda  \right)\delta {{P}_{i}}=0</math>
@@ Line 300: / Line 295: @@
 unabhängige Variation <math>\delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left( 1+\lambda  \right)=const.</math>
-Normierung <math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1=N{{P}_{i}}\Rightarrow {{P}_{i}}=\frac{1}{N}</math>
+Normierung <math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1=N{{P}_{i}}\Rightarrow {{P}_{i}}=\frac{1}{N}</math>, also Gleichverteilung
-,
- also Gleichverteilung
 '''Übung: '''Man vergleiche I(P) für verschiedene Verteilungen

Informationsmaße: Difference between revisions

Revision as of 18:30, 27 September 2010

Contents

Idee des Informationsmaßes:

Bitzahl:

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen $P_{i}$

Postulate für die Konstruktion von $b (P_{i})$

:

Informationsmaß einer Wahrscheinlichkeitsverteilung ${P_{i}}$

Kontinuierliche Ereignismenge

Informationsgewinn

Kontinuierliche Ereignismengen

Navigation menu

Informationsmaße: Difference between revisions

Revision as of 18:30, 27 September 2010

Idee des Informationsmaßes:

Bitzahl:

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen Pi

Postulate für die Konstruktion von b(Pi)

:

Informationsmaß einer Wahrscheinlichkeitsverteilung {Pi}

Kontinuierliche Ereignismenge

Informationsgewinn

Kontinuierliche Ereignismengen

Navigation menu

Search

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen $P_{i}$

Postulate für die Konstruktion von $b (P_{i})$

Informationsmaß einer Wahrscheinlichkeitsverteilung ${P_{i}}$