Informationsmaße: Difference between revisions

From testwiki
Jump to navigation Jump to search
Die Seite wurde neu angelegt: „<noinclude>{{Scripthinweis|Thermodynamik|1|2}}</noinclude> Die Informationstheorie ( Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüs…“
 
*>SchuBot
Mathematik einrücken
Line 11: Line 11:
mit den Eigenschaften
mit den Eigenschaften


<math>\begin{align}
:<math>\begin{align}


& \mu (0)=0 \\
& \mu (0)=0 \\
Line 21: Line 21:
für disjunkte Ereignisse Ai, also
für disjunkte Ereignisse Ai, also


<math>{{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}}</math>
:<math>{{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}}</math>


'''Nebenbemerkung: '''Eine <math>\sigma </math>
'''Nebenbemerkung: '''Eine <math>\sigma </math>
Line 27: Line 27:
- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele
- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele


<math>\begin{align}
:<math>\begin{align}


& {{A}_{i}}\in A\acute{\ },i=1,....,\infty  \\
& {{A}_{i}}\in A\acute{\ },i=1,....,\infty  \\
Line 43: Line 43:
Speziell:
Speziell:


<math>P(A)\le 1</math>
:<math>P(A)\le 1</math>


====Idee des Informationsmaßes:====
====Idee des Informationsmaßes:====
Line 59: Line 59:
Hauptgewinn ist hinter einer von 3 Türen versteckt !
Hauptgewinn ist hinter einer von 3 Türen versteckt !


<math>A,B,C\in A\acute{\ }</math>
:<math>A,B,C\in A\acute{\ }</math>


# Verteilung: Alle drei Türen zu je 1/3:
# Verteilung: Alle drei Türen zu je 1/3:
<math>{{P}^{(1)}}=\delta (x-1)+\delta (x-2)+\delta (x-3)</math>
:<math>{{P}^{(1)}}=\delta (x-1)+\delta (x-2)+\delta (x-3)</math>


Als Gleichverteilung -> minimale Kenntnis
Als Gleichverteilung -> minimale Kenntnis
Line 68: Line 68:
# Verteilung:
# Verteilung:


<math>{{P}^{(2)}}=\delta (x-2)</math>
:<math>{{P}^{(2)}}=\delta (x-2)</math>


scharfe Verteilung -> maximale Kenntnis / Sicherheit
scharfe Verteilung -> maximale Kenntnis / Sicherheit
Line 76: Line 76:
Ausgangspunkt: diskrete Ereignisalgebra:
Ausgangspunkt: diskrete Ereignisalgebra:


<math>A\acute{\ }={{\left\{ {{A}_{i}} \right\}}_{i\in I}}</math>
:<math>A\acute{\ }={{\left\{ {{A}_{i}} \right\}}_{i\in I}}</math>


Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??
Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??
Line 86: Line 86:
Auswahl eines Ereignisses aus
Auswahl eines Ereignisses aus


<math>A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}},...,{{A}_{N}} \right\}</math>
:<math>A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}},...,{{A}_{N}} \right\}</math>


falls der Beobachter keine Vorkenntnis hat .
falls der Beobachter keine Vorkenntnis hat .


<math>1)A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}} \right\}</math>
:<math>1)A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}} \right\}</math>


: einafche Alternative
: einafche Alternative
Line 109: Line 109:
Länge der Nachricht:
Länge der Nachricht:


<math>n={{\log }_{2}}N</math>
:<math>n={{\log }_{2}}N</math>


( nötige Bitzahl)
( nötige Bitzahl)
Line 142: Line 142:
b ist additiv, also:
b ist additiv, also:


<math>b(P\acute{\ }\acute{\ })=b(P)+b(P\acute{\ })</math>
:<math>b(P\acute{\ }\acute{\ })=b(P)+b(P\acute{\ })</math>


wobei nach Definition der Unkorreliertheit ( stochastische Unabhängigkeit) gilt:
wobei nach Definition der Unkorreliertheit ( stochastische Unabhängigkeit) gilt:


<math>P\acute{\ }\acute{\ }({{A}_{i}}{{A}_{j}}\acute{\ })=P({{A}_{i}})P\acute{\ }({{A}_{j}}\acute{\ })</math>
:<math>P\acute{\ }\acute{\ }({{A}_{i}}{{A}_{j}}\acute{\ })=P({{A}_{i}})P\acute{\ }({{A}_{j}}\acute{\ })</math>


dabei ist
dabei ist


<math>{{A}_{i}}{{A}_{j}}\acute{\ }</math>
:<math>{{A}_{i}}{{A}_{j}}\acute{\ }</math>


das direkte Produkt  der beiden Zufallsvariablen, gegeben durch das Ereignistupel <math>\left\{ {{A}_{i}}{{A}_{j}}\acute{\ } \right\}</math>
das direkte Produkt  der beiden Zufallsvariablen, gegeben durch das Ereignistupel <math>\left\{ {{A}_{i}}{{A}_{j}}\acute{\ } \right\}</math>
Line 158: Line 158:
3) b(P)=0  für P=1, also für das sichere Ereignis
3) b(P)=0  für P=1, also für das sichere Ereignis


<math>\begin{align}
:<math>\begin{align}


& b(P)={{\log }_{2}}N \\
& b(P)={{\log }_{2}}N \\
Line 174: Line 174:
'''Wegen der Additivität macht es Sinn:'''
'''Wegen der Additivität macht es Sinn:'''


<math>b(P)=f\left( \log P \right)</math>
:<math>b(P)=f\left( \log P \right)</math>


zu definieren. Es muss f noch bestimmt werden !
zu definieren. Es muss f noch bestimmt werden !
Line 180: Line 180:
Wegen 1) und 2) folgt:
Wegen 1) und 2) folgt:


<math>\begin{align}
:<math>\begin{align}


& f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\
& f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\
Line 198: Line 198:
Aus 3) folgt:
Aus 3) folgt:


<math>\begin{align}
:<math>\begin{align}


& f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\
& f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\
Line 218: Line 218:
Einheit für ein bit:
Einheit für ein bit:


<math>\ln 2=\frac{\ln P}{{{\log }_{2}}P}</math>
:<math>\ln 2=\frac{\ln P}{{{\log }_{2}}P}</math>


"bin"
"bin"


<math>b({{P}_{i}})=-\ln {{P}_{i}}</math>
:<math>b({{P}_{i}})=-\ln {{P}_{i}}</math>


Informationsmaß für die Nachricht, dass Ai eingetreten ist,
Informationsmaß für die Nachricht, dass Ai eingetreten ist,
Line 228: Line 228:
falls
falls


<math>{{P}_{i}}=P({{A}_{i}})</math>
:<math>{{P}_{i}}=P({{A}_{i}})</math>


bekannt ist !
bekannt ist !
Line 236: Line 236:
Übermittlung vieler Nachrichten:
Übermittlung vieler Nachrichten:


<math>{{A}_{i}}</math>
:<math>{{A}_{i}}</math>


tritt mit relativer Häufigkeit <math>{{P}_{i}}</math>
tritt mit relativer Häufigkeit <math>{{P}_{i}}</math>
Line 244: Line 244:
mittlere benötigte ( = da fehlende !) Information pro Ereignis:
mittlere benötigte ( = da fehlende !) Information pro Ereignis:


<math>b({{P}_{i}})=-\ln {{P}_{i}}</math>
:<math>b({{P}_{i}})=-\ln {{P}_{i}}</math>


somit:
somit:


<math>\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}</math>
:<math>\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}</math>


Definition: Shannon- Information einer Verteilung <math>\left\{ {{P}_{i}} \right\}</math>
Definition: Shannon- Information einer Verteilung <math>\left\{ {{P}_{i}} \right\}</math>
Line 254: Line 254:
:
:


<math>\begin{align}
:<math>\begin{align}


& I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}} \\
& I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}} \\
Line 280: Line 280:
unter der Nebenbedingung
unter der Nebenbedingung


<math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>
:<math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>


wegen Normierung:
wegen Normierung:


<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1</math>
:<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1</math>


Somit:
Somit:


<math>\delta I(P)=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1 \right)\delta {{P}_{i}}=0</math>
:<math>\delta I(P)=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1 \right)\delta {{P}_{i}}=0</math>


Addition der Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>
Addition der Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>
Line 296: Line 296:
:
:


<math>\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda  \right)\delta {{P}_{i}}=0</math>
:<math>\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda  \right)\delta {{P}_{i}}=0</math>


unabhängige Variation <math>\delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left( 1+\lambda  \right)=const.</math>
unabhängige Variation <math>\delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left( 1+\lambda  \right)=const.</math>
Line 308: Line 308:
====Kontinuierliche Ereignismenge====
====Kontinuierliche Ereignismenge====


<math>x\in {{R}^{d}},\rho (x)</math>
:<math>x\in {{R}^{d}},\rho (x)</math>


* Zelleneinteilung des <math>{{R}^{d}}</math>
* Zelleneinteilung des <math>{{R}^{d}}</math>
Line 317: Line 317:
Wahrscheinlichkeit für ein Ereignis in Zelle i:
Wahrscheinlichkeit für ein Ereignis in Zelle i:


<math>\begin{align}
:<math>\begin{align}


& {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\
& {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\
Line 333: Line 333:
Damit kann dieser Term weggelassen werden und wir gewinnen:
Damit kann dieser Term weggelassen werden und wir gewinnen:


<math>\begin{align}
:<math>\begin{align}


& I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right) \\
& I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right) \\
Line 352: Line 352:
2) '''Definition ''': Statistisches Informationsmaß des NICHTWISSENS: ( der fehlenden Information):
2) '''Definition ''': Statistisches Informationsmaß des NICHTWISSENS: ( der fehlenden Information):


<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math>
:<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math>


k geeignete Einheit
k geeignete Einheit
Line 360: Line 360:
# verallgeminerte Informationsmaße ( Renyi)<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math>
# verallgeminerte Informationsmaße ( Renyi)<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math>
#  
#  
<math>\begin{align}
:<math>\begin{align}


& {{I}_{q}}=-\frac{1}{1-q}\ln \left( \sum\limits_{i}^{{}}{{}}{{\left( {{p}_{i}} \right)}^{q-1}} \right) \\
& {{I}_{q}}=-\frac{1}{1-q}\ln \left( \sum\limits_{i}^{{}}{{}}{{\left( {{p}_{i}} \right)}^{q-1}} \right) \\
Line 378: Line 378:
über derselben Ereignismenge:
über derselben Ereignismenge:


<math>b\left( {{P}_{i}}\acute{\ } \right)-b\left( {{P}_{i}} \right)=\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>
:<math>b\left( {{P}_{i}}\acute{\ } \right)-b\left( {{P}_{i}} \right)=\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>


Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln , also die Information, die als Nachricht hierfür gegeben werden muss :
Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln , also die Information, die als Nachricht hierfür gegeben werden muss :
Line 384: Line 384:
Mittlere Bitzahl ( mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):
Mittlere Bitzahl ( mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):


<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>
:<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>


'''Informationsgewinn ''' -> Kullback Information !
'''Informationsgewinn ''' -> Kullback Information !
Line 393: Line 393:
# es gilt: <math>K\left( P,P\acute{\ } \right)\ge 0</math>
# es gilt: <math>K\left( P,P\acute{\ } \right)\ge 0</math>
#  wegen
#  wegen
<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math>
:<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math>


es gilt:
es gilt:


<math>\begin{align}
:<math>\begin{align}


& \ln x\ge 1-\frac{1}{x} \\
& \ln x\ge 1-\frac{1}{x} \\
Line 412: Line 412:
# Für <math>{{P}_{i}}\acute{\ }=\frac{1}{N}</math>
# Für <math>{{P}_{i}}\acute{\ }=\frac{1}{N}</math>
# ( Gleichverteilung)
# ( Gleichverteilung)
<math>\begin{align}
:<math>\begin{align}


& K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}+\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N=I(P)+\ln N \\
& K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}+\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N=I(P)+\ln N \\
Line 434: Line 434:
unter Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>
unter Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>


<math>\begin{align}
:<math>\begin{align}


& \delta K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)\delta {{P}_{i}} \\
& \delta K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)\delta {{P}_{i}} \\
Line 448: Line 448:
Wegen Normierung:
Wegen Normierung:


<math>\begin{align}
:<math>\begin{align}


& \sum\limits_{i}^{{}}{{}}{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1 \\
& \sum\limits_{i}^{{}}{{}}{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1 \\
Line 458: Line 458:
# <math>K\left( P,P\acute{\ } \right)</math>
# <math>K\left( P,P\acute{\ } \right)</math>
# ist konvexe Funktion von P, da
# ist konvexe Funktion von P, da
<math>\frac{{{\partial }^{2}}K\left( P,P\acute{\ } \right)}{\partial {{P}_{i}}\partial {{P}_{j}}}=\frac{\partial }{\partial {{P}_{j}}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)=\frac{1}{{{P}_{i}}}{{\delta }_{ij}}\ge 0</math>
:<math>\frac{{{\partial }^{2}}K\left( P,P\acute{\ } \right)}{\partial {{P}_{i}}\partial {{P}_{j}}}=\frac{\partial }{\partial {{P}_{j}}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)=\frac{1}{{{P}_{i}}}{{\delta }_{ij}}\ge 0</math>


somit ist dann auch
somit ist dann auch


<math>I(P)=K(P,\frac{1}{N})-\ln N</math>
:<math>I(P)=K(P,\frac{1}{N})-\ln N</math>


konvex ( Informationsgewinn)
konvex ( Informationsgewinn)
Line 468: Line 468:
====Kontinuierliche Ereignismengen====
====Kontinuierliche Ereignismengen====


<math>x\in {{R}^{d}},\rho (x)</math>
:<math>x\in {{R}^{d}},\rho (x)</math>


* Zelleneinteilung des <math>{{R}^{d}}</math>
* Zelleneinteilung des <math>{{R}^{d}}</math>
Line 477: Line 477:
Wahrscheinlichkeit für ein Ereignis in Zelle i:
Wahrscheinlichkeit für ein Ereignis in Zelle i:


<math>\begin{align}
:<math>\begin{align}


& {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\
& {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\
Line 487: Line 487:
invariant gegen die Trafo
invariant gegen die Trafo


<math>\begin{align}
:<math>\begin{align}


& x\to \tilde{x} \\
& x\to \tilde{x} \\
Line 499: Line 499:
Während
Während


<math>I(P)</math>
:<math>I(P)</math>


nicht invariant ist !
nicht invariant ist !


<math>\begin{align}
:<math>\begin{align}


& {{\Delta }^{d}}x\to 0 \\
& {{\Delta }^{d}}x\to 0 \\
Line 517: Line 517:
in der Thermodynamik als Entropieproduktion und von
in der Thermodynamik als Entropieproduktion und von


<math>kTK\left( \rho ,\rho \acute{\ } \right)</math>
:<math>kTK\left( \rho ,\rho \acute{\ } \right)</math>


als Exergie ( availability)
als Exergie ( availability)

Revision as of 17:32, 12 September 2010


{{#set:Urheber=Prof. Dr. E. Schöll, PhD|Inhaltstyp=Script|Kapitel=1|Abschnitt=2}} Kategorie:Thermodynamik __SHOWFACTBOX__


Die Informationstheorie ( Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten !

Definition:

Ein Maß μ

auf einer Algebra A´ ist eine Abbildung μ:A´[0,]

mit den Eigenschaften

μ(0)=0μ(i=1Ai)=i=1μ(Ai)

für disjunkte Ereignisse Ai, also

AiAj=Aiδij

Nebenbemerkung: Eine σ

- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele

AiA´,i=1,....,i=1AiA´

Also: Die Vereinigung der Ereignisse ist Element der Algebra !

Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra !

Beispiel eines Maßes: Wahrscheinlichkeit P

Speziell:

P(A)1

Idee des Informationsmaßes:

Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´

Frage: Welche von 2 Verteilungen enthält mehr Information , bzw. Kenntnis darüber, welches Ereignis eintreten wird ?

Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis !

Beispiel:

Zonk- Problem:

Hauptgewinn ist hinter einer von 3 Türen versteckt !

A,B,CA´
  1. Verteilung: Alle drei Türen zu je 1/3:
P(1)=δ(x1)+δ(x2)+δ(x3)

Als Gleichverteilung -> minimale Kenntnis

  1. Verteilung:
P(2)=δ(x2)

scharfe Verteilung -> maximale Kenntnis / Sicherheit

Bitzahl:

Ausgangspunkt: diskrete Ereignisalgebra:

A´={Ai}iI

Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??

Länge der Nachricht = Maß für die fehlende Kenntnis des Beobachters

Beispiel:

Auswahl eines Ereignisses aus

A´={A1,A2,...,AN}

falls der Beobachter keine Vorkenntnis hat .

1)A´={A1,A2}
einafche Alternative

= kleinste Informationseinheit

= 1 bit ( binary digit)

Nachricht: 0 oder 1

  1. A´ sei menge mit 2n
  2. Elementen:

n Alternativentscheidungen notwendig:

z.B. 0011 -> insgesamt n Stellen in Binärdarstellung nötig !

Länge der Nachricht:

n=log2N

( nötige Bitzahl)

Informationsmaß der Nachricht:

Bitzahl !

Also: b(N)=log2N

falls keine Vorkenntnis vorhanden ist !

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen Pi

Falls der Beobachter die Pi

kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl b(Pi)

.

Postulate für die Konstruktion von b(Pi)

:

  1. b(P)
  2. sei eine universelle Funktion, hängt von A also nur über P(A) ab !
  3. Seien {Ai}
  4. und {Aj´}
  5. 2 verschiedene ( disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt:

Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt:

b ist additiv, also:

b(P´´)=b(P)+b(P´)

wobei nach Definition der Unkorreliertheit ( stochastische Unabhängigkeit) gilt:

P´´(AiAj´)=P(Ai)P´(Aj´)

dabei ist

AiAj´

das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel {AiAj´}

.

3) b(P)=0 für P=1, also für das sichere Ereignis

b(P)=log2Nfu¨rP=1N

also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt !

4) b(P)

ist stetig und wohldefiniert für 0P1

Wegen der Additivität macht es Sinn:

b(P)=f(logP)

zu definieren. Es muss f noch bestimmt werden !

Wegen 1) und 2) folgt:

f(logP´´)=f(logP+logP´)=!=f(logP)+f(logP´)f(logP)=a*logP

Also: die Funktion sollte linear in log P sein !

Bemerkung:

Für 2 unkorrelierte Systeme ist die Länge der Nachricht = Informationsmaß bei maximaler Unbestimmtheit additiv.

Dies motiviert Postulat 2)

Aus 3) folgt:

f(logP´´)=f(logP+logP´)=!=f(logP)+f(logP´)f(logP)=a*logPb(P)=alog(P)=alogN=!=log2Nfu¨rP=1Na=1log=log2

Konvention:

Einheit für ein bit:

ln2=lnPlog2P

"bin"

b(Pi)=lnPi

Informationsmaß für die Nachricht, dass Ai eingetreten ist,

falls

Pi=P(Ai)

bekannt ist !

Informationsmaß einer Wahrscheinlichkeitsverteilung {Pi}

Übermittlung vieler Nachrichten:

Ai

tritt mit relativer Häufigkeit Pi

auf !

mittlere benötigte ( = da fehlende !) Information pro Ereignis:

b(Pi)=lnPi

somit:

b(Pi)=iPilnPi

Definition: Shannon- Information einer Verteilung {Pi}

I(P)=i=1NPilnPiP=(P1...PN)

I ist Funktional der Verteilung

b ist Funktion von Pi b(Pi)

Es gilt stets I(P)0

Maximum: I(P)=0

für pi=δij

Also maximal für scharfe Verteilung mit sicherem Ereignis Aj

Minimum: Variation der Pi

um δPi

unter der Nebenbedingung

iδPi=0

wegen Normierung:

iPi=1

Somit:

δI(P)=i=1N(lnPi+1)δPi=0

Addition der Nebenbedingung iδPi=0

mit dem Lagrange- Multiplikator λ

i=1N(lnPi+1+λ)δPi=0

unabhängige Variation δPiilnPi=(1+λ)=const.

Normierung iPi=1=NPiPi=1N

, also Gleichverteilung

Übung: Man vergleiche I(P) für verschiedene Verteilungen

Kontinuierliche Ereignismenge

xRd,ρ(x)
  • Zelleneinteilung des Rd
  • in Zellen i mit Volumen
  • Δdx

Wahrscheinlichkeit für ein Ereignis in Zelle i:

Pi=ρ(xi)ΔdxI(P)=iΔdxρ(xi)ln(Δdxρ(xi))=iΔdxρ(xi)ln(ρ(xi))+iΔdxρ(xi)ln(Δdx)iΔdxρ(xi)=1iΔdxρ(xi)ln(Δdx)=const.

für eine feste Zellengröße.

Damit kann dieser Term weggelassen werden und wir gewinnen:

I(P)=iΔdxρ(xi)ln(ρ(xi))Δdx0I(ρ)=ddxρlnρ

Bemerkungen

  1. Shannon- Informationsmaß misst die Kenntnis bezüglich der Frage: Welches Ereignis tritt ein ?

keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis

( Laplacsches Prinzip vom unzureichenden Grund)

2) Definition : Statistisches Informationsmaß des NICHTWISSENS: ( der fehlenden Information):

S(ρ)=kddxρlnρ

k geeignete Einheit

Interpretation in der Thermodynamik als Entropie

  1. verallgeminerte Informationsmaße ( Renyi)S(ρ)=kddxρlnρ
Iq=11qln(i(pi)q1)q=1,2,....

wird gleich dem Shannon- Informationsmaß für q1

Informationsgewinn

Maß für die Zusatzinformationen einer Wahrscheinlichkeitsverteilung {Pi}

im Vergleich zu einer Referenzverteilung {Pi´}

über derselben Ereignismenge:

b(Pi´)b(Pi)=lnPiPi´

Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln , also die Information, die als Nachricht hierfür gegeben werden muss :

Mittlere Bitzahl ( mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):

K(P,P´)=iPilnPiPi´

Informationsgewinn -> Kullback Information !

Bemerkungen

  1. mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P<->P´
  2. es gilt: K(P,P´)0
  3. wegen
iPilnPiPi´iPi(1Pi´Pi)=iPiiPi´=11=0

es gilt:

lnx11xfu¨rx>0
  1. Pi´=0
  2. ist auszuschließen, damit K(P,P´)<
  3. Für Pi´=1N
  4. ( Gleichverteilung)
K(P,P´)=iPilnNPi=iPilnPi+iPilnN=I(P)+lnNwegeniPi=1K(P,P´)=I(P)+lnN

bei Gleichverteilung !

5) Minimum von K:

Variation der Pi

umδPi

unter Nebenbedingung iδPi=0

δK(P,P´)=i(lnPiPi´+1)δPii(lnPiPi´+1+λ)δPi=0ln(PiPi´)=(+1+λ)=const.Pi~Pi´

Wegen Normierung:

iPi=iPi´=1Pi=Pi´K=0
  1. K(P,P´)
  2. ist konvexe Funktion von P, da
2K(P,P´)PiPj=Pj(lnPiPi´+1)=1Piδij0

somit ist dann auch

I(P)=K(P,1N)lnN

konvex ( Informationsgewinn)

Kontinuierliche Ereignismengen

xRd,ρ(x)
  • Zelleneinteilung des Rd
  • in Zellen i mit Volumen
  • Δdx

Wahrscheinlichkeit für ein Ereignis in Zelle i:

Pi=ρ(xi)ΔdxK(P,P´)=iΔdxρ(xi)lnρ(xi)ρ´(xi)

invariant gegen die Trafo

xx~ρ(x)ρ(x~)Det(xx~)ΔdxΔdx~Det(xx~)1

Während

I(P)

nicht invariant ist !

Δdx0K(ρ,ρ´)=ddxρlnρρ´

Bemerkung:

Interpretation von kK˙(ρ,ρ´)

in der Thermodynamik als Entropieproduktion und von

kTK(ρ,ρ´)

als Exergie ( availability)