Editing Informationsmaße

<noinclude>{{Scripthinweis|Thermodynamik|1|2}}</noinclude>

Die Informationstheorie (Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten!

'''Definition:'''

Ein Maß  <math>\mu </math>

auf einer Algebra A´ ist eine Abbildung <math>\mu :A\acute{\ }\to \left[ 0,\infty  \right]</math>

mit den Eigenschaften

:<math>\begin{align}

& \mu (0)=0 \\

& \mu (\bigcup\limits_{i=1}^{\infty }{{}}{{A}_{i}})=\sum\limits_{i=1}^{\infty }{{}}\mu \left( {{A}_{i}} \right) \\

\end{align}</math>

für disjunkte Ereignisse Ai, also

:<math>{{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}}</math>

'''Nebenbemerkung: '''Eine <math>\sigma </math>

- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele

:<math>\begin{align}

& {{A}_{i}}\in A\acute{\ },i=1,....,\infty  \\

& \Rightarrow \bigcup\limits_{i=1}^{\infty }{{}}{{A}_{i}}\in A\acute{\ } \\

\end{align}</math>

Also: Die Vereinigung der Ereignisse ist Element der Algebra!

Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra!

Beispiel eines Maßes: Wahrscheinlichkeit P

Speziell:

:<math>P(A)\le 1</math>

====Idee des Informationsmaßes:====

Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´

Frage: Welche von 2 Verteilungen enthält mehr Information, bzw. Kenntnis darüber, welches Ereignis eintreten wird ?

Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis!

'''Beispiel:'''

Zonk- Problem:

Hauptgewinn ist hinter einer von 3 Türen versteckt!

:<math>A,B,C\in A\acute{\ }</math>

# Verteilung: Alle drei Türen zu je 1/3:
:<math>{{P}^{(1)}}=\delta (x-1)+\delta (x-2)+\delta (x-3)</math>

Als Gleichverteilung → minimale Kenntnis

# Verteilung:

:<math>{{P}^{(2)}}=\delta (x-2)</math>

scharfe Verteilung → maximale Kenntnis / Sicherheit

====Bitzahl:====

Ausgangspunkt: diskrete Ereignisalgebra:

:<math>A\acute{\ }={{\left\{ {{A}_{i}} \right\}}_{i\in I}}</math>

Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??

Länge der Nachricht = Maß für die fehlende Kenntnis des Beobachters

'''Beispiel:'''

Auswahl eines Ereignisses aus

:<math>A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}},...,{{A}_{N}} \right\}</math>

falls der Beobachter keine Vorkenntnis hat.

:<math>1)A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}} \right\}</math>

: einafche Alternative

= kleinste Informationseinheit

= 1 bit (binary digit)

Nachricht: 0 oder 1

# A´ sei menge mit <math>{{2}^{n}}</math>
# Elementen:

n Alternativentscheidungen notwendig:

z.B. 0011 → insgesamt n Stellen in Binärdarstellung nötig!

Länge der Nachricht:

:<math>n={{\log }_{2}}N</math>

(nötige Bitzahl)

Informationsmaß der Nachricht:

Bitzahl!

Also: <math>b(N)={{\log }_{2}}N</math>

falls keine Vorkenntnis vorhanden ist!

====Verallgemeinerung auf Wahrscheinlichkeitsverteilungen <math>{{P}_{i}}</math>====

Falls der Beobachter die <math>{{P}_{i}}</math>

kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl <math>b({{P}_{i}})</math>
.


====Postulate für die Konstruktion von <math>b({{P}_{i}})</math>====
====:====

# <math>b(P)</math>
# sei eine universelle Funktion, hängt von A also nur über P(A) ab!
# Seien <math>\left\{ {{A}_{i}} \right\}</math>
# und <math>\left\{ {{A}_{j}}\acute{\ } \right\}</math>
#  2 verschiedene  (disjunkte) sample sets, z.B. 2 Subsysteme  eines zusammengesetzten Systems: So gilt:

Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt:

b ist additiv, also:

:<math>b(P\acute{\ }\acute{\ })=b(P)+b(P\acute{\ })</math>

wobei nach Definition der Unkorreliertheit (stochastische Unabhängigkeit) gilt:

:<math>P\acute{\ }\acute{\ }({{A}_{i}}{{A}_{j}}\acute{\ })=P({{A}_{i}})P\acute{\ }({{A}_{j}}\acute{\ })</math>

dabei ist

:<math>{{A}_{i}}{{A}_{j}}\acute{\ }</math>

das direkte Produkt  der beiden Zufallsvariablen, gegeben durch das Ereignistupel <math>\left\{ {{A}_{i}}{{A}_{j}}\acute{\ } \right\}</math>
.


3) b(P)=0  für P=1, also für das sichere Ereignis

:<math>\begin{align}

& b(P)={{\log }_{2}}N \\

& f\ddot{u}rP=\frac{1}{N} \\

\end{align}</math>

also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt!

4) <math>b(P)</math>

ist stetig und wohldefiniert für <math>0\le P\le 1</math>

'''Wegen der Additivität macht es Sinn:'''

:<math>b(P)=f\left( \log P \right)</math>

zu definieren. Es muss f noch bestimmt werden!

Wegen 1) und 2) folgt:

:<math>\begin{align}

& f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\

& \Rightarrow f(\log P)=a*\log P \\

\end{align}</math>

Also: die Funktion sollte linear in log P sein!

'''Bemerkung:'''

Für 2 unkorrelierte Systeme ist die Länge der Nachricht = Informationsmaß bei maximaler Unbestimmtheit additiv.

Dies motiviert Postulat 2)

Aus 3) folgt:

:<math>\begin{align}

& f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\

& \Rightarrow f(\log P)=a*\log P \\

& b(P)=a\log (P)=-a\log N=!={{\log }_{2}}N \\

& f\ddot{u}rP=\frac{1}{N} \\

& \Rightarrow a=-1 \\

& \log ={{\log }_{2}} \\

\end{align}</math>

'''Konvention:'''

Einheit für ein bit:

:<math>\ln 2=\frac{\ln P}{{{\log }_{2}}P}</math>

"bin"

:<math>b({{P}_{i}})=-\ln {{P}_{i}}</math>

Informationsmaß für die Nachricht, dass Ai eingetreten ist,

falls

:<math>{{P}_{i}}=P({{A}_{i}})</math>

bekannt ist!

====Informationsmaß einer Wahrscheinlichkeitsverteilung <math>\left\{ {{P}_{i}} \right\}</math>====

Übermittlung vieler Nachrichten:

:<math>{{A}_{i}}</math>

tritt mit relativer Häufigkeit <math>{{P}_{i}}</math>

auf!

mittlere benötigte (= da fehlende!) Information pro Ereignis:

:<math>b({{P}_{i}})=-\ln {{P}_{i}}</math>

somit:

:<math>\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}</math>

{{Def|Definition: '''Shannon-Information''' einer Verteilung <math>\left\{ {{P}_{i}} \right\}</math>:

::<math>I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}}</math>|Shannon-Information}}

:<math>\begin{align}

& P=\left( {{P}_{1}}...{{P}_{N}} \right) \\

\end{align}</math>

I ist Funktional der Verteilung

b ist Funktion von Pi   b(Pi)

Es gilt stets <math>I(P)\le 0</math>

Maximum: <math>I(P)=0</math>

für <math>{{p}_{i}}={{\delta }_{ij}}</math>

Also maximal für scharfe Verteilung mit  sicherem Ereignis <math>{{A}_{j}}</math>

Minimum:  Variation der <math>{{P}_{i}}</math>

um <math>\delta {{P}_{i}}</math>
unter der Nebenbedingung

:<math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>

wegen Normierung:

:<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1</math>

Somit:

:<math>\delta I(P)=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1 \right)\delta {{P}_{i}}=0</math>

Addition der Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>

mit dem Lagrange- Multiplikator <math>\lambda </math>:

:<math>\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda  \right)\delta {{P}_{i}}=0</math>

unabhängige Variation <math>\delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left( 1+\lambda  \right)=const.</math>

Normierung <math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1=N{{P}_{i}}\Rightarrow {{P}_{i}}=\frac{1}{N}</math>, also Gleichverteilung

'''Übung: '''Man vergleiche I(P) für verschiedene Verteilungen

====Kontinuierliche Ereignismenge====

:<math>x\in {{R}^{d}},\rho (x)</math>

* Zelleneinteilung des <math>{{R}^{d}}</math>
* in Zellen i mit Volumen
* <math>{{\Delta }^{d}}x</math>
* 

Wahrscheinlichkeit für ein Ereignis in Zelle i:

:<math>\begin{align}

& {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\

& I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( {{\Delta }^{d}}x\rho \left( {{x}^{i}} \right) \right)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right)+\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( {{\Delta }^{d}}x \right) \\

& \sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)=1 \\

& \sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( {{\Delta }^{d}}x \right)=const. \\

\end{align}</math>

für eine feste Zellengröße.

Damit kann dieser Term weggelassen werden und wir gewinnen:

:<math>\begin{align}

& I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right) \\

& {{\Delta }^{d}}x\to 0 \\

& I(\rho )=\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho  \\

\end{align}</math>

<u>Bemerkungen</u>

# Shannon- Informationsmaß misst die Kenntnis bezüglich der Frage: Welches Ereignis tritt ein ?
keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER  vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis

(Laplacsches Prinzip vom unzureichenden Grund)

2) '''Definition ''': Statistisches Informationsmaß des NICHTWISSENS: (der fehlenden Information):

:<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math>

k geeignete Einheit

Interpretation in der Thermodynamik als Entropie

# verallgeminerte Informationsmaße (Renyi)<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math>
# 
:<math>\begin{align}

& {{I}_{q}}=-\frac{1}{1-q}\ln \left( \sum\limits_{i}^{{}}{{}}{{\left( {{p}_{i}} \right)}^{q-1}} \right) \\

& q=1,2,.... \\

\end{align}</math>

wird gleich dem Shannon- Informationsmaß für <math>q\to 1</math>

====Informationsgewinn====

Maß für die Zusatzinformationen einer Wahrscheinlichkeitsverteilung <math>\left\{ {{P}_{i}} \right\}</math>

im Vergleich zu einer Referenzverteilung <math>\left\{ {{P}_{i}}\acute{\ } \right\}</math>

über derselben Ereignismenge:

:<math>b\left( {{P}_{i}}\acute{\ } \right)-b\left( {{P}_{i}} \right)=\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>

Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln, also die Information, die als Nachricht hierfür gegeben werden muss :

Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):

{{Def|:<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>

'''Informationsgewinn ''' → Kullback Information!|Kullback Information}}

'''Bemerkungen'''

 mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´
 es gilt: <math>K\left( P,P\acute{\ } \right)\ge 0</math> wegen
:<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math>

es gilt:

:<math>\begin{align}

& \ln x\ge 1-\frac{1}{x} \\

& f\ddot{u}r \\

& x>0 \\

\end{align}</math>

<math>{{P}_{i}}\acute{\ }=0</math>
ist auszuschließen, damit <math>K\left( P,P\acute{\ } \right)<\infty </math>

Für <math>{{P}_{i}}\acute{\ }=\frac{1}{N}</math>
(Gleichverteilung)
:<math>\begin{align}

& K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}+\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N=I(P)+\ln N \\

& wegen\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1 \\

& \Rightarrow K\left( P,P\acute{\ } \right)=I(P)+\ln N \\

\end{align}</math>

bei Gleichverteilung!

'''5) Minimum von K:'''

'''Variation der '''<math>{{P}_{i}}</math>

um<math>\delta {{P}_{i}}</math>

:

unter Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>

:<math>\begin{align}

& \delta K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)\delta {{P}_{i}} \\

& \sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1+\lambda  \right)\delta {{P}_{i}}=0 \\

& \Rightarrow \ln (\frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }})=-\left( +1+\lambda  \right)=const. \\

& \Rightarrow {{P}_{i}}\tilde{\ }{{P}_{i}}\acute{\ } \\

\end{align}</math>

Wegen Normierung:

:<math>\begin{align}

& \sum\limits_{i}^{{}}{{}}{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1 \\

& \Rightarrow {{P}_{i}}={{P}_{i}}\acute{\ }\Rightarrow K=0 \\

\end{align}</math>

# <math>K\left( P,P\acute{\ } \right)</math>
# ist konvexe Funktion von P, da
:<math>\frac{{{\partial }^{2}}K\left( P,P\acute{\ } \right)}{\partial {{P}_{i}}\partial {{P}_{j}}}=\frac{\partial }{\partial {{P}_{j}}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)=\frac{1}{{{P}_{i}}}{{\delta }_{ij}}\ge 0</math>

somit ist dann auch

:<math>I(P)=K(P,\frac{1}{N})-\ln N</math>

konvex (Informationsgewinn)

====Kontinuierliche Ereignismengen====

:<math>x\in {{R}^{d}},\rho (x)</math>

* Zelleneinteilung des <math>{{R}^{d}}</math>
* in Zellen i mit Volumen
* <math>{{\Delta }^{d}}x</math>
* 

Wahrscheinlichkeit für ein Ereignis in Zelle i:

:<math>\begin{align}

& {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\

& K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \frac{\rho \left( {{x}^{i}} \right)}{\rho \acute{\ }\left( {{x}^{i}} \right)} \\

\end{align}</math>

invariant gegen die Trafo

:<math>\begin{align}

& x\to \tilde{x} \\

& \rho \left( x \right)\to \rho \left( {\tilde{x}} \right)Det\left( \frac{\partial x}{\partial \tilde{x}} \right) \\

& {{\Delta }^{d}}x\to {{\Delta }^{d}}\tilde{x}Det{{\left( \frac{\partial x}{\partial \tilde{x}} \right)}^{-1}} \\

\end{align}</math>

Während

:<math>I(P)</math>

nicht invariant ist!

:<math>\begin{align}

& {{\Delta }^{d}}x\to 0 \\

& \Rightarrow K\left( \rho ,\rho \acute{\ } \right)=\int_{{}}^{{}}{{}}{{d}^{d}}x\rho \ln \frac{\rho }{\rho \acute{\ }} \\

\end{align}</math>

'''Bemerkung:'''

Interpretation von <math>-k\dot{K}\left( \rho ,\rho \acute{\ } \right)</math>

in der Thermodynamik als Entropieproduktion und von

:<math>kTK\left( \rho ,\rho \acute{\ } \right)</math>

als Exergie (availability)