Informationsmaße: Difference between revisions
Die Seite wurde neu angelegt: „<noinclude>{{Scripthinweis|Thermodynamik|1|2}}</noinclude> Die Informationstheorie ( Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüs…“ |
*>SchuBot Mathematik einrücken |
||
Line 11: | Line 11: | ||
mit den Eigenschaften | mit den Eigenschaften | ||
<math>\begin{align} | :<math>\begin{align} | ||
& \mu (0)=0 \\ | & \mu (0)=0 \\ | ||
Line 21: | Line 21: | ||
für disjunkte Ereignisse Ai, also | für disjunkte Ereignisse Ai, also | ||
<math>{{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}}</math> | :<math>{{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}}</math> | ||
'''Nebenbemerkung: '''Eine <math>\sigma </math> | '''Nebenbemerkung: '''Eine <math>\sigma </math> | ||
Line 27: | Line 27: | ||
- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele | - Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele | ||
<math>\begin{align} | :<math>\begin{align} | ||
& {{A}_{i}}\in A\acute{\ },i=1,....,\infty \\ | & {{A}_{i}}\in A\acute{\ },i=1,....,\infty \\ | ||
Line 43: | Line 43: | ||
Speziell: | Speziell: | ||
<math>P(A)\le 1</math> | :<math>P(A)\le 1</math> | ||
====Idee des Informationsmaßes:==== | ====Idee des Informationsmaßes:==== | ||
Line 59: | Line 59: | ||
Hauptgewinn ist hinter einer von 3 Türen versteckt ! | Hauptgewinn ist hinter einer von 3 Türen versteckt ! | ||
<math>A,B,C\in A\acute{\ }</math> | :<math>A,B,C\in A\acute{\ }</math> | ||
# Verteilung: Alle drei Türen zu je 1/3: | # Verteilung: Alle drei Türen zu je 1/3: | ||
<math>{{P}^{(1)}}=\delta (x-1)+\delta (x-2)+\delta (x-3)</math> | :<math>{{P}^{(1)}}=\delta (x-1)+\delta (x-2)+\delta (x-3)</math> | ||
Als Gleichverteilung -> minimale Kenntnis | Als Gleichverteilung -> minimale Kenntnis | ||
Line 68: | Line 68: | ||
# Verteilung: | # Verteilung: | ||
<math>{{P}^{(2)}}=\delta (x-2)</math> | :<math>{{P}^{(2)}}=\delta (x-2)</math> | ||
scharfe Verteilung -> maximale Kenntnis / Sicherheit | scharfe Verteilung -> maximale Kenntnis / Sicherheit | ||
Line 76: | Line 76: | ||
Ausgangspunkt: diskrete Ereignisalgebra: | Ausgangspunkt: diskrete Ereignisalgebra: | ||
<math>A\acute{\ }={{\left\{ {{A}_{i}} \right\}}_{i\in I}}</math> | :<math>A\acute{\ }={{\left\{ {{A}_{i}} \right\}}_{i\in I}}</math> | ||
Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ?? | Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ?? | ||
Line 86: | Line 86: | ||
Auswahl eines Ereignisses aus | Auswahl eines Ereignisses aus | ||
<math>A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}},...,{{A}_{N}} \right\}</math> | :<math>A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}},...,{{A}_{N}} \right\}</math> | ||
falls der Beobachter keine Vorkenntnis hat . | falls der Beobachter keine Vorkenntnis hat . | ||
<math>1)A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}} \right\}</math> | :<math>1)A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}} \right\}</math> | ||
: einafche Alternative | : einafche Alternative | ||
Line 109: | Line 109: | ||
Länge der Nachricht: | Länge der Nachricht: | ||
<math>n={{\log }_{2}}N</math> | :<math>n={{\log }_{2}}N</math> | ||
( nötige Bitzahl) | ( nötige Bitzahl) | ||
Line 142: | Line 142: | ||
b ist additiv, also: | b ist additiv, also: | ||
<math>b(P\acute{\ }\acute{\ })=b(P)+b(P\acute{\ })</math> | :<math>b(P\acute{\ }\acute{\ })=b(P)+b(P\acute{\ })</math> | ||
wobei nach Definition der Unkorreliertheit ( stochastische Unabhängigkeit) gilt: | wobei nach Definition der Unkorreliertheit ( stochastische Unabhängigkeit) gilt: | ||
<math>P\acute{\ }\acute{\ }({{A}_{i}}{{A}_{j}}\acute{\ })=P({{A}_{i}})P\acute{\ }({{A}_{j}}\acute{\ })</math> | :<math>P\acute{\ }\acute{\ }({{A}_{i}}{{A}_{j}}\acute{\ })=P({{A}_{i}})P\acute{\ }({{A}_{j}}\acute{\ })</math> | ||
dabei ist | dabei ist | ||
<math>{{A}_{i}}{{A}_{j}}\acute{\ }</math> | :<math>{{A}_{i}}{{A}_{j}}\acute{\ }</math> | ||
das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel <math>\left\{ {{A}_{i}}{{A}_{j}}\acute{\ } \right\}</math> | das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel <math>\left\{ {{A}_{i}}{{A}_{j}}\acute{\ } \right\}</math> | ||
Line 158: | Line 158: | ||
3) b(P)=0 für P=1, also für das sichere Ereignis | 3) b(P)=0 für P=1, also für das sichere Ereignis | ||
<math>\begin{align} | :<math>\begin{align} | ||
& b(P)={{\log }_{2}}N \\ | & b(P)={{\log }_{2}}N \\ | ||
Line 174: | Line 174: | ||
'''Wegen der Additivität macht es Sinn:''' | '''Wegen der Additivität macht es Sinn:''' | ||
<math>b(P)=f\left( \log P \right)</math> | :<math>b(P)=f\left( \log P \right)</math> | ||
zu definieren. Es muss f noch bestimmt werden ! | zu definieren. Es muss f noch bestimmt werden ! | ||
Line 180: | Line 180: | ||
Wegen 1) und 2) folgt: | Wegen 1) und 2) folgt: | ||
<math>\begin{align} | :<math>\begin{align} | ||
& f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\ | & f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\ | ||
Line 198: | Line 198: | ||
Aus 3) folgt: | Aus 3) folgt: | ||
<math>\begin{align} | :<math>\begin{align} | ||
& f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\ | & f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\ | ||
Line 218: | Line 218: | ||
Einheit für ein bit: | Einheit für ein bit: | ||
<math>\ln 2=\frac{\ln P}{{{\log }_{2}}P}</math> | :<math>\ln 2=\frac{\ln P}{{{\log }_{2}}P}</math> | ||
"bin" | "bin" | ||
<math>b({{P}_{i}})=-\ln {{P}_{i}}</math> | :<math>b({{P}_{i}})=-\ln {{P}_{i}}</math> | ||
Informationsmaß für die Nachricht, dass Ai eingetreten ist, | Informationsmaß für die Nachricht, dass Ai eingetreten ist, | ||
Line 228: | Line 228: | ||
falls | falls | ||
<math>{{P}_{i}}=P({{A}_{i}})</math> | :<math>{{P}_{i}}=P({{A}_{i}})</math> | ||
bekannt ist ! | bekannt ist ! | ||
Line 236: | Line 236: | ||
Übermittlung vieler Nachrichten: | Übermittlung vieler Nachrichten: | ||
<math>{{A}_{i}}</math> | :<math>{{A}_{i}}</math> | ||
tritt mit relativer Häufigkeit <math>{{P}_{i}}</math> | tritt mit relativer Häufigkeit <math>{{P}_{i}}</math> | ||
Line 244: | Line 244: | ||
mittlere benötigte ( = da fehlende !) Information pro Ereignis: | mittlere benötigte ( = da fehlende !) Information pro Ereignis: | ||
<math>b({{P}_{i}})=-\ln {{P}_{i}}</math> | :<math>b({{P}_{i}})=-\ln {{P}_{i}}</math> | ||
somit: | somit: | ||
<math>\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}</math> | :<math>\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}</math> | ||
Definition: Shannon- Information einer Verteilung <math>\left\{ {{P}_{i}} \right\}</math> | Definition: Shannon- Information einer Verteilung <math>\left\{ {{P}_{i}} \right\}</math> | ||
Line 254: | Line 254: | ||
: | : | ||
<math>\begin{align} | :<math>\begin{align} | ||
& I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}} \\ | & I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}} \\ | ||
Line 280: | Line 280: | ||
unter der Nebenbedingung | unter der Nebenbedingung | ||
<math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> | :<math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> | ||
wegen Normierung: | wegen Normierung: | ||
<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1</math> | :<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1</math> | ||
Somit: | Somit: | ||
<math>\delta I(P)=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1 \right)\delta {{P}_{i}}=0</math> | :<math>\delta I(P)=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1 \right)\delta {{P}_{i}}=0</math> | ||
Addition der Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> | Addition der Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> | ||
Line 296: | Line 296: | ||
: | : | ||
<math>\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda \right)\delta {{P}_{i}}=0</math> | :<math>\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda \right)\delta {{P}_{i}}=0</math> | ||
unabhängige Variation <math>\delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left( 1+\lambda \right)=const.</math> | unabhängige Variation <math>\delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left( 1+\lambda \right)=const.</math> | ||
Line 308: | Line 308: | ||
====Kontinuierliche Ereignismenge==== | ====Kontinuierliche Ereignismenge==== | ||
<math>x\in {{R}^{d}},\rho (x)</math> | :<math>x\in {{R}^{d}},\rho (x)</math> | ||
* Zelleneinteilung des <math>{{R}^{d}}</math> | * Zelleneinteilung des <math>{{R}^{d}}</math> | ||
Line 317: | Line 317: | ||
Wahrscheinlichkeit für ein Ereignis in Zelle i: | Wahrscheinlichkeit für ein Ereignis in Zelle i: | ||
<math>\begin{align} | :<math>\begin{align} | ||
& {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\ | & {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\ | ||
Line 333: | Line 333: | ||
Damit kann dieser Term weggelassen werden und wir gewinnen: | Damit kann dieser Term weggelassen werden und wir gewinnen: | ||
<math>\begin{align} | :<math>\begin{align} | ||
& I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right) \\ | & I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right) \\ | ||
Line 352: | Line 352: | ||
2) '''Definition ''': Statistisches Informationsmaß des NICHTWISSENS: ( der fehlenden Information): | 2) '''Definition ''': Statistisches Informationsmaß des NICHTWISSENS: ( der fehlenden Information): | ||
<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math> | :<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math> | ||
k geeignete Einheit | k geeignete Einheit | ||
Line 360: | Line 360: | ||
# verallgeminerte Informationsmaße ( Renyi)<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math> | # verallgeminerte Informationsmaße ( Renyi)<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math> | ||
# | # | ||
<math>\begin{align} | :<math>\begin{align} | ||
& {{I}_{q}}=-\frac{1}{1-q}\ln \left( \sum\limits_{i}^{{}}{{}}{{\left( {{p}_{i}} \right)}^{q-1}} \right) \\ | & {{I}_{q}}=-\frac{1}{1-q}\ln \left( \sum\limits_{i}^{{}}{{}}{{\left( {{p}_{i}} \right)}^{q-1}} \right) \\ | ||
Line 378: | Line 378: | ||
über derselben Ereignismenge: | über derselben Ereignismenge: | ||
<math>b\left( {{P}_{i}}\acute{\ } \right)-b\left( {{P}_{i}} \right)=\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math> | :<math>b\left( {{P}_{i}}\acute{\ } \right)-b\left( {{P}_{i}} \right)=\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math> | ||
Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln , also die Information, die als Nachricht hierfür gegeben werden muss : | Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln , also die Information, die als Nachricht hierfür gegeben werden muss : | ||
Line 384: | Line 384: | ||
Mittlere Bitzahl ( mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet): | Mittlere Bitzahl ( mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet): | ||
<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math> | :<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math> | ||
'''Informationsgewinn ''' -> Kullback Information ! | '''Informationsgewinn ''' -> Kullback Information ! | ||
Line 393: | Line 393: | ||
# es gilt: <math>K\left( P,P\acute{\ } \right)\ge 0</math> | # es gilt: <math>K\left( P,P\acute{\ } \right)\ge 0</math> | ||
# wegen | # wegen | ||
<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math> | :<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math> | ||
es gilt: | es gilt: | ||
<math>\begin{align} | :<math>\begin{align} | ||
& \ln x\ge 1-\frac{1}{x} \\ | & \ln x\ge 1-\frac{1}{x} \\ | ||
Line 412: | Line 412: | ||
# Für <math>{{P}_{i}}\acute{\ }=\frac{1}{N}</math> | # Für <math>{{P}_{i}}\acute{\ }=\frac{1}{N}</math> | ||
# ( Gleichverteilung) | # ( Gleichverteilung) | ||
<math>\begin{align} | :<math>\begin{align} | ||
& K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}+\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N=I(P)+\ln N \\ | & K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}+\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N=I(P)+\ln N \\ | ||
Line 434: | Line 434: | ||
unter Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> | unter Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> | ||
<math>\begin{align} | :<math>\begin{align} | ||
& \delta K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)\delta {{P}_{i}} \\ | & \delta K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)\delta {{P}_{i}} \\ | ||
Line 448: | Line 448: | ||
Wegen Normierung: | Wegen Normierung: | ||
<math>\begin{align} | :<math>\begin{align} | ||
& \sum\limits_{i}^{{}}{{}}{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1 \\ | & \sum\limits_{i}^{{}}{{}}{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1 \\ | ||
Line 458: | Line 458: | ||
# <math>K\left( P,P\acute{\ } \right)</math> | # <math>K\left( P,P\acute{\ } \right)</math> | ||
# ist konvexe Funktion von P, da | # ist konvexe Funktion von P, da | ||
<math>\frac{{{\partial }^{2}}K\left( P,P\acute{\ } \right)}{\partial {{P}_{i}}\partial {{P}_{j}}}=\frac{\partial }{\partial {{P}_{j}}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)=\frac{1}{{{P}_{i}}}{{\delta }_{ij}}\ge 0</math> | :<math>\frac{{{\partial }^{2}}K\left( P,P\acute{\ } \right)}{\partial {{P}_{i}}\partial {{P}_{j}}}=\frac{\partial }{\partial {{P}_{j}}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)=\frac{1}{{{P}_{i}}}{{\delta }_{ij}}\ge 0</math> | ||
somit ist dann auch | somit ist dann auch | ||
<math>I(P)=K(P,\frac{1}{N})-\ln N</math> | :<math>I(P)=K(P,\frac{1}{N})-\ln N</math> | ||
konvex ( Informationsgewinn) | konvex ( Informationsgewinn) | ||
Line 468: | Line 468: | ||
====Kontinuierliche Ereignismengen==== | ====Kontinuierliche Ereignismengen==== | ||
<math>x\in {{R}^{d}},\rho (x)</math> | :<math>x\in {{R}^{d}},\rho (x)</math> | ||
* Zelleneinteilung des <math>{{R}^{d}}</math> | * Zelleneinteilung des <math>{{R}^{d}}</math> | ||
Line 477: | Line 477: | ||
Wahrscheinlichkeit für ein Ereignis in Zelle i: | Wahrscheinlichkeit für ein Ereignis in Zelle i: | ||
<math>\begin{align} | :<math>\begin{align} | ||
& {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\ | & {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\ | ||
Line 487: | Line 487: | ||
invariant gegen die Trafo | invariant gegen die Trafo | ||
<math>\begin{align} | :<math>\begin{align} | ||
& x\to \tilde{x} \\ | & x\to \tilde{x} \\ | ||
Line 499: | Line 499: | ||
Während | Während | ||
<math>I(P)</math> | :<math>I(P)</math> | ||
nicht invariant ist ! | nicht invariant ist ! | ||
<math>\begin{align} | :<math>\begin{align} | ||
& {{\Delta }^{d}}x\to 0 \\ | & {{\Delta }^{d}}x\to 0 \\ | ||
Line 517: | Line 517: | ||
in der Thermodynamik als Entropieproduktion und von | in der Thermodynamik als Entropieproduktion und von | ||
<math>kTK\left( \rho ,\rho \acute{\ } \right)</math> | :<math>kTK\left( \rho ,\rho \acute{\ } \right)</math> | ||
als Exergie ( availability) | als Exergie ( availability) |
Revision as of 17:32, 12 September 2010
65px|Kein GFDL | Der Artikel Informationsmaße basiert auf der Vorlesungsmitschrift von Franz- Josef Schmitt des 1.Kapitels (Abschnitt 2) der Thermodynamikvorlesung von Prof. Dr. E. Schöll, PhD. |
|}}
{{#set:Urheber=Prof. Dr. E. Schöll, PhD|Inhaltstyp=Script|Kapitel=1|Abschnitt=2}} Kategorie:Thermodynamik __SHOWFACTBOX__
Die Informationstheorie ( Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten !
Definition:
auf einer Algebra A´ ist eine Abbildung
mit den Eigenschaften
für disjunkte Ereignisse Ai, also
- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele
Also: Die Vereinigung der Ereignisse ist Element der Algebra !
Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra !
Beispiel eines Maßes: Wahrscheinlichkeit P
Speziell:
Idee des Informationsmaßes:
Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´
Frage: Welche von 2 Verteilungen enthält mehr Information , bzw. Kenntnis darüber, welches Ereignis eintreten wird ?
Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis !
Beispiel:
Zonk- Problem:
Hauptgewinn ist hinter einer von 3 Türen versteckt !
- Verteilung: Alle drei Türen zu je 1/3:
Als Gleichverteilung -> minimale Kenntnis
- Verteilung:
scharfe Verteilung -> maximale Kenntnis / Sicherheit
Bitzahl:
Ausgangspunkt: diskrete Ereignisalgebra:
Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??
Länge der Nachricht = Maß für die fehlende Kenntnis des Beobachters
Beispiel:
Auswahl eines Ereignisses aus
falls der Beobachter keine Vorkenntnis hat .
- einafche Alternative
= kleinste Informationseinheit
= 1 bit ( binary digit)
Nachricht: 0 oder 1
n Alternativentscheidungen notwendig:
z.B. 0011 -> insgesamt n Stellen in Binärdarstellung nötig !
Länge der Nachricht:
( nötige Bitzahl)
Informationsmaß der Nachricht:
Bitzahl !
falls keine Vorkenntnis vorhanden ist !
Verallgemeinerung auf Wahrscheinlichkeitsverteilungen
kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl
.
Postulate für die Konstruktion von
:
- sei eine universelle Funktion, hängt von A also nur über P(A) ab !
- Seien
- und
- 2 verschiedene ( disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt:
Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt:
b ist additiv, also:
wobei nach Definition der Unkorreliertheit ( stochastische Unabhängigkeit) gilt:
dabei ist
das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel
.
3) b(P)=0 für P=1, also für das sichere Ereignis
also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt !
ist stetig und wohldefiniert für
Wegen der Additivität macht es Sinn:
zu definieren. Es muss f noch bestimmt werden !
Wegen 1) und 2) folgt:
Also: die Funktion sollte linear in log P sein !
Bemerkung:
Für 2 unkorrelierte Systeme ist die Länge der Nachricht = Informationsmaß bei maximaler Unbestimmtheit additiv.
Dies motiviert Postulat 2)
Aus 3) folgt:
Konvention:
Einheit für ein bit:
"bin"
Informationsmaß für die Nachricht, dass Ai eingetreten ist,
falls
bekannt ist !
Informationsmaß einer Wahrscheinlichkeitsverteilung
Übermittlung vieler Nachrichten:
tritt mit relativer Häufigkeit
auf !
mittlere benötigte ( = da fehlende !) Information pro Ereignis:
somit:
Definition: Shannon- Information einer Verteilung
I ist Funktional der Verteilung
b ist Funktion von Pi b(Pi)
Also maximal für scharfe Verteilung mit sicherem Ereignis
unter der Nebenbedingung
wegen Normierung:
Somit:
mit dem Lagrange- Multiplikator
, also Gleichverteilung
Übung: Man vergleiche I(P) für verschiedene Verteilungen
Kontinuierliche Ereignismenge
Wahrscheinlichkeit für ein Ereignis in Zelle i:
für eine feste Zellengröße.
Damit kann dieser Term weggelassen werden und wir gewinnen:
Bemerkungen
- Shannon- Informationsmaß misst die Kenntnis bezüglich der Frage: Welches Ereignis tritt ein ?
keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis
( Laplacsches Prinzip vom unzureichenden Grund)
2) Definition : Statistisches Informationsmaß des NICHTWISSENS: ( der fehlenden Information):
k geeignete Einheit
Interpretation in der Thermodynamik als Entropie
wird gleich dem Shannon- Informationsmaß für
Informationsgewinn
Maß für die Zusatzinformationen einer Wahrscheinlichkeitsverteilung
im Vergleich zu einer Referenzverteilung
über derselben Ereignismenge:
Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln , also die Information, die als Nachricht hierfür gegeben werden muss :
Mittlere Bitzahl ( mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):
Informationsgewinn -> Kullback Information !
Bemerkungen
es gilt:
bei Gleichverteilung !
5) Minimum von K:
Wegen Normierung:
somit ist dann auch
konvex ( Informationsgewinn)
Kontinuierliche Ereignismengen
Wahrscheinlichkeit für ein Ereignis in Zelle i:
invariant gegen die Trafo
Während
nicht invariant ist !
Bemerkung:
in der Thermodynamik als Entropieproduktion und von
als Exergie ( availability)