Informationsmaße: Difference between revisions

Revision as of 18:32, 12 September 2010

Thermodynamikvorlesung von Prof. Dr. E. Schöll, PhD

Der Artikel Informationsmaße basiert auf der Vorlesungsmitschrift von Franz- Josef Schmitt des 1.Kapitels (Abschnitt 2) der Thermodynamikvorlesung von Prof. Dr. E. Schöll, PhD.

|}}

{{#set:Urheber=Prof. Dr. E. Schöll, PhD|Inhaltstyp=Script|Kapitel=1|Abschnitt=2}} Kategorie:Thermodynamik __SHOWFACTBOX__

Die Informationstheorie ( Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten !

Definition:

Ein Maß $μ$

auf einer Algebra A´ ist eine Abbildung $μ : A \overset{´}{} \to [0, \infty]$

mit den Eigenschaften

\begin{aligned} μ (0) = 0 \\ μ (⋃_{i = 1}^{\infty} A_{i}) = \sum_{i = 1}^{\infty} μ (A_{i}) \end{aligned}

für disjunkte Ereignisse Ai, also

A_{i} \cap A_{j} = A_{i} δ_{i j}

Nebenbemerkung: Eine $σ$

- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele

\begin{aligned} A_{i} \in A \overset{´}{}, i = 1, . . . ., \infty \\ \Rightarrow ⋃_{i = 1}^{\infty} A_{i} \in A \overset{´}{} \end{aligned}

Also: Die Vereinigung der Ereignisse ist Element der Algebra !

Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra !

Beispiel eines Maßes: Wahrscheinlichkeit P

Speziell:

P (A) \leq 1

Idee des Informationsmaßes:

Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´

Frage: Welche von 2 Verteilungen enthält mehr Information , bzw. Kenntnis darüber, welches Ereignis eintreten wird ?

Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis !

Beispiel:

Zonk- Problem:

Hauptgewinn ist hinter einer von 3 Türen versteckt !

A, B, C \in A \overset{´}{}

Verteilung: Alle drei Türen zu je 1/3:

P^{(1)} = δ (x - 1) + δ (x - 2) + δ (x - 3)

Als Gleichverteilung -> minimale Kenntnis

Verteilung:

P^{(2)} = δ (x - 2)

scharfe Verteilung -> maximale Kenntnis / Sicherheit

Bitzahl:

Ausgangspunkt: diskrete Ereignisalgebra:

A \overset{´}{} = {A_{i}}_{i \in I}

Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??

Länge der Nachricht = Maß für die fehlende Kenntnis des Beobachters

Beispiel:

Auswahl eines Ereignisses aus

A \overset{´}{} = {A_{1}, A_{2}, . . ., A_{N}}

falls der Beobachter keine Vorkenntnis hat .

1) A \overset{´}{} = {A_{1}, A_{2}}

einafche Alternative

= kleinste Informationseinheit

= 1 bit ( binary digit)

Nachricht: 0 oder 1

A´ sei menge mit $2^{n}$
Elementen:

n Alternativentscheidungen notwendig:

z.B. 0011 -> insgesamt n Stellen in Binärdarstellung nötig !

Länge der Nachricht:

n = \log_{2} N

( nötige Bitzahl)

Informationsmaß der Nachricht:

Bitzahl !

Also: $b (N) = \log_{2} N$

falls keine Vorkenntnis vorhanden ist !

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen $P_{i}$

Falls der Beobachter die $P_{i}$

kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl $b (P_{i})$

.

Postulate für die Konstruktion von $b (P_{i})$

:

$b (P)$
sei eine universelle Funktion, hängt von A also nur über P(A) ab !
Seien ${A_{i}}$
und ${A_{j} \overset{´}{}}$
2 verschiedene ( disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt:

Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt:

b ist additiv, also:

b (P \overset{´}{} \overset{´}{}) = b (P) + b (P \overset{´}{})

wobei nach Definition der Unkorreliertheit ( stochastische Unabhängigkeit) gilt:

P \overset{´}{} \overset{´}{} (A_{i} A_{j} \overset{´}{}) = P (A_{i}) P \overset{´}{} (A_{j} \overset{´}{})

dabei ist

A_{i} A_{j} \overset{´}{}

das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel ${A_{i} A_{j} \overset{´}{}}$

.

3) b(P)=0 für P=1, also für das sichere Ereignis

\begin{aligned} b (P) = \log_{2} N \\ f \ddot{u} r P = \frac{1}{N} \end{aligned}

also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt !

4) $b (P)$

ist stetig und wohldefiniert für $0 \leq P \leq 1$

Wegen der Additivität macht es Sinn:

b (P) = f (\log P)

zu definieren. Es muss f noch bestimmt werden !

Wegen 1) und 2) folgt:

\begin{aligned} f (\log P \overset{´}{} \overset{´}{}) = f (\log P + \log P \overset{´}{}) =! = f (\log P) + f (\log P \overset{´}{}) \\ \Rightarrow f (\log P) = a * \log P \end{aligned}

Also: die Funktion sollte linear in log P sein !

Bemerkung:

Für 2 unkorrelierte Systeme ist die Länge der Nachricht = Informationsmaß bei maximaler Unbestimmtheit additiv.

Dies motiviert Postulat 2)

Aus 3) folgt:

\begin{aligned} f (\log P \overset{´}{} \overset{´}{}) = f (\log P + \log P \overset{´}{}) =! = f (\log P) + f (\log P \overset{´}{}) \\ \Rightarrow f (\log P) = a * \log P \\ b (P) = a \log (P) = - a \log N =! = \log_{2} N \\ f \ddot{u} r P = \frac{1}{N} \\ \Rightarrow a = - 1 \\ \log = \log_{2} \end{aligned}

Konvention:

Einheit für ein bit:

\ln 2 = \frac{\ln P}{\log_{2} P}

"bin"

b (P_{i}) = - \ln P_{i}

Informationsmaß für die Nachricht, dass Ai eingetreten ist,

falls

P_{i} = P (A_{i})

bekannt ist !

Informationsmaß einer Wahrscheinlichkeitsverteilung ${P_{i}}$

Übermittlung vieler Nachrichten:

A_{i}

tritt mit relativer Häufigkeit $P_{i}$

auf !

mittlere benötigte ( = da fehlende !) Information pro Ereignis:

b (P_{i}) = - \ln P_{i}

somit:

⟨ b (P_{i}) ⟩ = - \sum_{i}^{} P_{i} \ln P_{i}

Definition: Shannon- Information einer Verteilung ${P_{i}}$

\begin{aligned} I (P) = \sum_{i = 1}^{N} P_{i} \ln P_{i} \\ P = (P_{1} . . . P_{N}) \end{aligned}

I ist Funktional der Verteilung

b ist Funktion von Pi b(Pi)

Es gilt stets $I (P) \leq 0$

Maximum: $I (P) = 0$

für $p_{i} = δ_{i j}$

Also maximal für scharfe Verteilung mit sicherem Ereignis $A_{j}$

Minimum: Variation der $P_{i}$

um $δ P_{i}$

unter der Nebenbedingung

\sum_{i}^{} δ P_{i} = 0

wegen Normierung:

\sum_{i}^{} P_{i} = 1

Somit:

δ I (P) = \sum_{i = 1}^{N} (\ln P_{i} + 1) δ P_{i} = 0

Addition der Nebenbedingung $\sum_{i}^{} δ P_{i} = 0$

mit dem Lagrange- Multiplikator $λ$

\sum_{i = 1}^{N} (\ln P_{i} + 1 + λ) δ P_{i} = 0

unabhängige Variation $δ P_{i} \Rightarrow \forall i \Rightarrow \ln P_{i} = - (1 + λ) = c o n s t .$

Normierung $\sum_{i}^{} P_{i} = 1 = N P_{i} \Rightarrow P_{i} = \frac{1}{N}$

, also Gleichverteilung

Übung: Man vergleiche I(P) für verschiedene Verteilungen

Kontinuierliche Ereignismenge

x \in R^{d}, ρ (x)

Zelleneinteilung des $R^{d}$
in Zellen i mit Volumen
$Δ^{d} x$

Wahrscheinlichkeit für ein Ereignis in Zelle i:

\begin{aligned} P_{i} = ρ (x^{i}) Δ^{d} x \\ I (P) = \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (Δ^{d} x ρ (x^{i})) = \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (ρ (x^{i})) + \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (Δ^{d} x) \\ \sum_{i}^{} Δ^{d} x ρ (x^{i}) = 1 \\ \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (Δ^{d} x) = c o n s t . \end{aligned}

für eine feste Zellengröße.

Damit kann dieser Term weggelassen werden und wir gewinnen:

\begin{aligned} I (P) = \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (ρ (x^{i})) \\ Δ^{d} x \to 0 \\ I (ρ) = \int_{}^{} d^{d} x ρ \ln ρ \end{aligned}

Bemerkungen

Shannon- Informationsmaß misst die Kenntnis bezüglich der Frage: Welches Ereignis tritt ein ?

keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis

( Laplacsches Prinzip vom unzureichenden Grund)

2) Definition : Statistisches Informationsmaß des NICHTWISSENS: ( der fehlenden Information):

S (ρ) = - k \int_{}^{} d^{d} x ρ \ln ρ

k geeignete Einheit

Interpretation in der Thermodynamik als Entropie

verallgeminerte Informationsmaße ( Renyi) $S (ρ) = - k \int_{}^{} d^{d} x ρ \ln ρ$

\begin{aligned} I_{q} = - \frac{1}{1 - q} \ln (\sum_{i}^{} {(p_{i})}^{q - 1}) \\ q = 1, 2, . . . . \end{aligned}

wird gleich dem Shannon- Informationsmaß für $q \to 1$

Informationsgewinn

Maß für die Zusatzinformationen einer Wahrscheinlichkeitsverteilung ${P_{i}}$

im Vergleich zu einer Referenzverteilung ${P_{i} \overset{´}{}}$

über derselben Ereignismenge:

b (P_{i} \overset{´}{}) - b (P_{i}) = \ln \frac{P_{i}}{P_{i} \overset{´}{}}

Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln , also die Information, die als Nachricht hierfür gegeben werden muss :

Mittlere Bitzahl ( mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):

K (P, P \overset{´}{}) = \sum_{i}^{} P_{i} \ln \frac{P_{i}}{P_{i} \overset{´}{}}

Informationsgewinn -> Kullback Information !

Bemerkungen

mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P<->P´
es gilt: $K (P, P \overset{´}{}) \geq 0$
wegen

\sum_{i}^{} P_{i} \ln \frac{P_{i}}{P_{i} \overset{´}{}} \geq \sum_{i}^{} P_{i} (1 - \frac{P_{i} \overset{´}{}}{P_{i}}) = \sum_{i}^{} P_{i} - \sum_{i}^{} P_{i} \overset{´}{} = 1 - 1 = 0

es gilt:

\begin{aligned} \ln x \geq 1 - \frac{1}{x} \\ f \ddot{u} r \\ x > 0 \end{aligned}

$P_{i} \overset{´}{} = 0$
ist auszuschließen, damit $K (P, P \overset{´}{}) < \infty$
Für $P_{i} \overset{´}{} = \frac{1}{N}$
( Gleichverteilung)

\begin{aligned} K (P, P \overset{´}{}) = \sum_{i}^{} P_{i} \ln N P_{i} = \sum_{i}^{} P_{i} \ln P_{i} + \sum_{i}^{} P_{i} \ln N = I (P) + \ln N \\ w e g e n \sum_{i}^{} P_{i} = 1 \\ \Rightarrow K (P, P \overset{´}{}) = I (P) + \ln N \end{aligned}

bei Gleichverteilung !

5) Minimum von K:

Variation der $P_{i}$

um $δ P_{i}$

unter Nebenbedingung $\sum_{i}^{} δ P_{i} = 0$

\begin{aligned} δ K (P, P \overset{´}{}) = \sum_{i}^{} (\ln \frac{P_{i}}{P_{i} \overset{´}{}} + 1) δ P_{i} \\ \sum_{i}^{} (\ln \frac{P_{i}}{P_{i} \overset{´}{}} + 1 + λ) δ P_{i} = 0 \\ \Rightarrow \ln (\frac{P_{i}}{P_{i} \overset{´}{}}) = - (+ 1 + λ) = c o n s t . \\ \Rightarrow P_{i} \tilde{} P_{i} \overset{´}{} \end{aligned}

Wegen Normierung:

\begin{aligned} \sum_{i}^{} P_{i} = \sum_{i}^{} P_{i} \overset{´}{} = 1 \\ \Rightarrow P_{i} = P_{i} \overset{´}{} \Rightarrow K = 0 \end{aligned}

$K (P, P \overset{´}{})$
ist konvexe Funktion von P, da

\frac{\partial^{2} K (P, P \overset{´}{})}{\partial P_{i} \partial P_{j}} = \frac{\partial}{\partial P_{j}} (\ln \frac{P_{i}}{P_{i} \overset{´}{}} + 1) = \frac{1}{P_{i}} δ_{i j} \geq 0

somit ist dann auch

I (P) = K (P, \frac{1}{N}) - \ln N

konvex ( Informationsgewinn)

Kontinuierliche Ereignismengen

x \in R^{d}, ρ (x)

Zelleneinteilung des $R^{d}$
in Zellen i mit Volumen
$Δ^{d} x$

Wahrscheinlichkeit für ein Ereignis in Zelle i:

\begin{aligned} P_{i} = ρ (x^{i}) Δ^{d} x \\ K (P, P \overset{´}{}) = \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln \frac{ρ (x^{i})}{ρ \overset{´}{} (x^{i})} \end{aligned}

invariant gegen die Trafo

\begin{aligned} x \to \tilde{x} \\ ρ (x) \to ρ (\tilde{x}) D e t (\frac{\partial x}{\partial \tilde{x}}) \\ Δ^{d} x \to Δ^{d} \tilde{x} D e t {(\frac{\partial x}{\partial \tilde{x}})}^{- 1} \end{aligned}

Während

I (P)

nicht invariant ist !

\begin{aligned} Δ^{d} x \to 0 \\ \Rightarrow K (ρ, ρ \overset{´}{}) = \int_{}^{} d^{d} x ρ \ln \frac{ρ}{ρ \overset{´}{}} \end{aligned}

Bemerkung:

Interpretation von $- k \dot{K} (ρ, ρ \overset{´}{})$

in der Thermodynamik als Entropieproduktion und von

k T K (ρ, ρ \overset{´}{})

als Exergie ( availability)

Informationsmaße: Difference between revisions

Revision as of 18:32, 12 September 2010

Contents

Idee des Informationsmaßes:

Bitzahl:

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen $P_{i}$

Postulate für die Konstruktion von $b (P_{i})$

:

Informationsmaß einer Wahrscheinlichkeitsverteilung ${P_{i}}$

Kontinuierliche Ereignismenge

Informationsgewinn

Kontinuierliche Ereignismengen

Navigation menu

@@ Line 11: / Line 11: @@
 mit den Eigenschaften
-<math>\begin{align}
+:<math>\begin{align}
 & \mu (0)=0 \\
@@ Line 21: / Line 21: @@
 für disjunkte Ereignisse Ai, also
-<math>{{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}}</math>
+:<math>{{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}}</math>
 '''Nebenbemerkung: '''Eine <math>\sigma </math>
@@ Line 27: / Line 27: @@
 - Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele
-<math>\begin{align}
+:<math>\begin{align}
 & {{A}_{i}}\in A\acute{\ },i=1,....,\infty  \\
@@ Line 43: / Line 43: @@
 Speziell:
-<math>P(A)\le 1</math>
+:<math>P(A)\le 1</math>
 ====Idee des Informationsmaßes:====
@@ Line 59: / Line 59: @@
 Hauptgewinn ist hinter einer von 3 Türen versteckt !
-<math>A,B,C\in A\acute{\ }</math>
+:<math>A,B,C\in A\acute{\ }</math>
 # Verteilung: Alle drei Türen zu je 1/3:
-<math>{{P}^{(1)}}=\delta (x-1)+\delta (x-2)+\delta (x-3)</math>
+:<math>{{P}^{(1)}}=\delta (x-1)+\delta (x-2)+\delta (x-3)</math>
 Als Gleichverteilung -> minimale Kenntnis
@@ Line 68: / Line 68: @@
 # Verteilung:
-<math>{{P}^{(2)}}=\delta (x-2)</math>
+:<math>{{P}^{(2)}}=\delta (x-2)</math>
 scharfe Verteilung -> maximale Kenntnis / Sicherheit
@@ Line 76: / Line 76: @@
 Ausgangspunkt: diskrete Ereignisalgebra:
-<math>A\acute{\ }={{\left\{ {{A}_{i}} \right\}}_{i\in I}}</math>
+:<math>A\acute{\ }={{\left\{ {{A}_{i}} \right\}}_{i\in I}}</math>
 Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??
@@ Line 86: / Line 86: @@
 Auswahl eines Ereignisses aus
-<math>A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}},...,{{A}_{N}} \right\}</math>
+:<math>A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}},...,{{A}_{N}} \right\}</math>
 falls der Beobachter keine Vorkenntnis hat .
-<math>1)A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}} \right\}</math>
+:<math>1)A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}} \right\}</math>
 : einafche Alternative
@@ Line 109: / Line 109: @@
 Länge der Nachricht:
-<math>n={{\log }_{2}}N</math>
+:<math>n={{\log }_{2}}N</math>
 ( nötige Bitzahl)
@@ Line 142: / Line 142: @@
 b ist additiv, also:
-<math>b(P\acute{\ }\acute{\ })=b(P)+b(P\acute{\ })</math>
+:<math>b(P\acute{\ }\acute{\ })=b(P)+b(P\acute{\ })</math>
 wobei nach Definition der Unkorreliertheit ( stochastische Unabhängigkeit) gilt:
-<math>P\acute{\ }\acute{\ }({{A}_{i}}{{A}_{j}}\acute{\ })=P({{A}_{i}})P\acute{\ }({{A}_{j}}\acute{\ })</math>
+:<math>P\acute{\ }\acute{\ }({{A}_{i}}{{A}_{j}}\acute{\ })=P({{A}_{i}})P\acute{\ }({{A}_{j}}\acute{\ })</math>
 dabei ist
-<math>{{A}_{i}}{{A}_{j}}\acute{\ }</math>
+:<math>{{A}_{i}}{{A}_{j}}\acute{\ }</math>
 das direkte Produkt  der beiden Zufallsvariablen, gegeben durch das Ereignistupel <math>\left\{ {{A}_{i}}{{A}_{j}}\acute{\ } \right\}</math>
@@ Line 158: / Line 158: @@
 ) b(P)=0  für P=1, also für das sichere Ereignis
-<math>\begin{align}
+:<math>\begin{align}
 & b(P)={{\log }_{2}}N \\
@@ Line 174: / Line 174: @@
 '''Wegen der Additivität macht es Sinn:'''
-<math>b(P)=f\left( \log P \right)</math>
+:<math>b(P)=f\left( \log P \right)</math>
 zu definieren. Es muss f noch bestimmt werden !
@@ Line 180: / Line 180: @@
 Wegen 1) und 2) folgt:
-<math>\begin{align}
+:<math>\begin{align}
 & f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\
@@ Line 198: / Line 198: @@
 Aus 3) folgt:
-<math>\begin{align}
+:<math>\begin{align}
 & f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\
@@ Line 218: / Line 218: @@
 Einheit für ein bit:
-<math>\ln 2=\frac{\ln P}{{{\log }_{2}}P}</math>
+:<math>\ln 2=\frac{\ln P}{{{\log }_{2}}P}</math>
 "bin"
-<math>b({{P}_{i}})=-\ln {{P}_{i}}</math>
+:<math>b({{P}_{i}})=-\ln {{P}_{i}}</math>
 Informationsmaß für die Nachricht, dass Ai eingetreten ist,
@@ Line 228: / Line 228: @@
 falls
-<math>{{P}_{i}}=P({{A}_{i}})</math>
+:<math>{{P}_{i}}=P({{A}_{i}})</math>
 bekannt ist !
@@ Line 236: / Line 236: @@
 Übermittlung vieler Nachrichten:
-<math>{{A}_{i}}</math>
+:<math>{{A}_{i}}</math>
 tritt mit relativer Häufigkeit <math>{{P}_{i}}</math>
@@ Line 244: / Line 244: @@
 mittlere benötigte ( = da fehlende !) Information pro Ereignis:
-<math>b({{P}_{i}})=-\ln {{P}_{i}}</math>
+:<math>b({{P}_{i}})=-\ln {{P}_{i}}</math>
 somit:
-<math>\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}</math>
+:<math>\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}</math>
 Definition: Shannon- Information einer Verteilung <math>\left\{ {{P}_{i}} \right\}</math>
@@ Line 254: / Line 254: @@
 :
-<math>\begin{align}
+:<math>\begin{align}
 & I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}} \\
@@ Line 280: / Line 280: @@
 unter der Nebenbedingung
-<math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>
+:<math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>
 wegen Normierung:
-<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1</math>
+:<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1</math>
 Somit:
-<math>\delta I(P)=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1 \right)\delta {{P}_{i}}=0</math>
+:<math>\delta I(P)=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1 \right)\delta {{P}_{i}}=0</math>
 Addition der Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>
@@ Line 296: / Line 296: @@
 :
-<math>\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda  \right)\delta {{P}_{i}}=0</math>
+:<math>\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda  \right)\delta {{P}_{i}}=0</math>
 unabhängige Variation <math>\delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left( 1+\lambda  \right)=const.</math>
@@ Line 308: / Line 308: @@
 ====Kontinuierliche Ereignismenge====
-<math>x\in {{R}^{d}},\rho (x)</math>
+:<math>x\in {{R}^{d}},\rho (x)</math>
 * Zelleneinteilung des <math>{{R}^{d}}</math>
@@ Line 317: / Line 317: @@
 Wahrscheinlichkeit für ein Ereignis in Zelle i:
-<math>\begin{align}
+:<math>\begin{align}
 & {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\
@@ Line 333: / Line 333: @@
 Damit kann dieser Term weggelassen werden und wir gewinnen:
-<math>\begin{align}
+:<math>\begin{align}
 & I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right) \\
@@ Line 352: / Line 352: @@
 ) '''Definition ''': Statistisches Informationsmaß des NICHTWISSENS: ( der fehlenden Information):
-<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math>
+:<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math>
 k geeignete Einheit
@@ Line 360: / Line 360: @@
 # verallgeminerte Informationsmaße ( Renyi)<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math>
 #
-<math>\begin{align}
+:<math>\begin{align}
 & {{I}_{q}}=-\frac{1}{1-q}\ln \left( \sum\limits_{i}^{{}}{{}}{{\left( {{p}_{i}} \right)}^{q-1}} \right) \\
@@ Line 378: / Line 378: @@
 über derselben Ereignismenge:
-<math>b\left( {{P}_{i}}\acute{\ } \right)-b\left( {{P}_{i}} \right)=\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>
+:<math>b\left( {{P}_{i}}\acute{\ } \right)-b\left( {{P}_{i}} \right)=\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>
 Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln , also die Information, die als Nachricht hierfür gegeben werden muss :
@@ Line 384: / Line 384: @@
 Mittlere Bitzahl ( mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):
-<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>
+:<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>
 '''Informationsgewinn ''' -> Kullback Information !
@@ Line 393: / Line 393: @@
 # es gilt: <math>K\left( P,P\acute{\ } \right)\ge 0</math>
 #  wegen
-<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math>
+:<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math>
 es gilt:
-<math>\begin{align}
+:<math>\begin{align}
 & \ln x\ge 1-\frac{1}{x} \\
@@ Line 412: / Line 412: @@
 # Für <math>{{P}_{i}}\acute{\ }=\frac{1}{N}</math>
 # ( Gleichverteilung)
-<math>\begin{align}
+:<math>\begin{align}
 & K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}+\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N=I(P)+\ln N \\
@@ Line 434: / Line 434: @@
 unter Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>
-<math>\begin{align}
+:<math>\begin{align}
 & \delta K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)\delta {{P}_{i}} \\
@@ Line 448: / Line 448: @@
 Wegen Normierung:
-<math>\begin{align}
+:<math>\begin{align}
 & \sum\limits_{i}^{{}}{{}}{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1 \\
@@ Line 458: / Line 458: @@
 # <math>K\left( P,P\acute{\ } \right)</math>
 # ist konvexe Funktion von P, da
-<math>\frac{{{\partial }^{2}}K\left( P,P\acute{\ } \right)}{\partial {{P}_{i}}\partial {{P}_{j}}}=\frac{\partial }{\partial {{P}_{j}}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)=\frac{1}{{{P}_{i}}}{{\delta }_{ij}}\ge 0</math>
+:<math>\frac{{{\partial }^{2}}K\left( P,P\acute{\ } \right)}{\partial {{P}_{i}}\partial {{P}_{j}}}=\frac{\partial }{\partial {{P}_{j}}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)=\frac{1}{{{P}_{i}}}{{\delta }_{ij}}\ge 0</math>
 somit ist dann auch
-<math>I(P)=K(P,\frac{1}{N})-\ln N</math>
+:<math>I(P)=K(P,\frac{1}{N})-\ln N</math>
 konvex ( Informationsgewinn)
@@ Line 468: / Line 468: @@
 ====Kontinuierliche Ereignismengen====
-<math>x\in {{R}^{d}},\rho (x)</math>
+:<math>x\in {{R}^{d}},\rho (x)</math>
 * Zelleneinteilung des <math>{{R}^{d}}</math>
@@ Line 477: / Line 477: @@
 Wahrscheinlichkeit für ein Ereignis in Zelle i:
-<math>\begin{align}
+:<math>\begin{align}
 & {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\
@@ Line 487: / Line 487: @@
 invariant gegen die Trafo
-<math>\begin{align}
+:<math>\begin{align}
 & x\to \tilde{x} \\
@@ Line 499: / Line 499: @@
 Während
-<math>I(P)</math>
+:<math>I(P)</math>
 nicht invariant ist !
-<math>\begin{align}
+:<math>\begin{align}
 & {{\Delta }^{d}}x\to 0 \\
@@ Line 517: / Line 517: @@
 in der Thermodynamik als Entropieproduktion und von
-<math>kTK\left( \rho ,\rho \acute{\ } \right)</math>
+:<math>kTK\left( \rho ,\rho \acute{\ } \right)</math>
 als Exergie ( availability)

Informationsmaße: Difference between revisions

Revision as of 18:32, 12 September 2010

Idee des Informationsmaßes:

Bitzahl:

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen Pi

Postulate für die Konstruktion von b(Pi)

:

Informationsmaß einer Wahrscheinlichkeitsverteilung {Pi}

Kontinuierliche Ereignismenge

Informationsgewinn

Kontinuierliche Ereignismengen

Navigation menu

Search

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen $P_{i}$

Postulate für die Konstruktion von $b (P_{i})$

Informationsmaß einer Wahrscheinlichkeitsverteilung ${P_{i}}$