Editing
Informationsmaße
Jump to navigation
Jump to search
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
<noinclude>{{Scripthinweis|Thermodynamik|1|2}}</noinclude> Die Informationstheorie (Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten! '''Definition:''' Ein Maß <math>\mu </math> auf einer Algebra A´ ist eine Abbildung <math>\mu :A\acute{\ }\to \left[ 0,\infty \right]</math> mit den Eigenschaften :<math>\begin{align} & \mu (0)=0 \\ & \mu (\bigcup\limits_{i=1}^{\infty }{{}}{{A}_{i}})=\sum\limits_{i=1}^{\infty }{{}}\mu \left( {{A}_{i}} \right) \\ \end{align}</math> für disjunkte Ereignisse Ai, also :<math>{{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}}</math> '''Nebenbemerkung: '''Eine <math>\sigma </math> - Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele :<math>\begin{align} & {{A}_{i}}\in A\acute{\ },i=1,....,\infty \\ & \Rightarrow \bigcup\limits_{i=1}^{\infty }{{}}{{A}_{i}}\in A\acute{\ } \\ \end{align}</math> Also: Die Vereinigung der Ereignisse ist Element der Algebra! Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra! Beispiel eines Maßes: Wahrscheinlichkeit P Speziell: :<math>P(A)\le 1</math> ====Idee des Informationsmaßes:==== Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´ Frage: Welche von 2 Verteilungen enthält mehr Information, bzw. Kenntnis darüber, welches Ereignis eintreten wird ? Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis! '''Beispiel:''' Zonk- Problem: Hauptgewinn ist hinter einer von 3 Türen versteckt! :<math>A,B,C\in A\acute{\ }</math> # Verteilung: Alle drei Türen zu je 1/3: :<math>{{P}^{(1)}}=\delta (x-1)+\delta (x-2)+\delta (x-3)</math> Als Gleichverteilung → minimale Kenntnis # Verteilung: :<math>{{P}^{(2)}}=\delta (x-2)</math> scharfe Verteilung → maximale Kenntnis / Sicherheit ====Bitzahl:==== Ausgangspunkt: diskrete Ereignisalgebra: :<math>A\acute{\ }={{\left\{ {{A}_{i}} \right\}}_{i\in I}}</math> Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ?? Länge der Nachricht = Maß für die fehlende Kenntnis des Beobachters '''Beispiel:''' Auswahl eines Ereignisses aus :<math>A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}},...,{{A}_{N}} \right\}</math> falls der Beobachter keine Vorkenntnis hat. :<math>1)A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}} \right\}</math> : einafche Alternative = kleinste Informationseinheit = 1 bit (binary digit) Nachricht: 0 oder 1 # A´ sei menge mit <math>{{2}^{n}}</math> # Elementen: n Alternativentscheidungen notwendig: z.B. 0011 → insgesamt n Stellen in Binärdarstellung nötig! Länge der Nachricht: :<math>n={{\log }_{2}}N</math> (nötige Bitzahl) Informationsmaß der Nachricht: Bitzahl! Also: <math>b(N)={{\log }_{2}}N</math> falls keine Vorkenntnis vorhanden ist! ====Verallgemeinerung auf Wahrscheinlichkeitsverteilungen <math>{{P}_{i}}</math>==== Falls der Beobachter die <math>{{P}_{i}}</math> kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl <math>b({{P}_{i}})</math> . ====Postulate für die Konstruktion von <math>b({{P}_{i}})</math>==== ====:==== # <math>b(P)</math> # sei eine universelle Funktion, hängt von A also nur über P(A) ab! # Seien <math>\left\{ {{A}_{i}} \right\}</math> # und <math>\left\{ {{A}_{j}}\acute{\ } \right\}</math> # 2 verschiedene (disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt: Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt: b ist additiv, also: :<math>b(P\acute{\ }\acute{\ })=b(P)+b(P\acute{\ })</math> wobei nach Definition der Unkorreliertheit (stochastische Unabhängigkeit) gilt: :<math>P\acute{\ }\acute{\ }({{A}_{i}}{{A}_{j}}\acute{\ })=P({{A}_{i}})P\acute{\ }({{A}_{j}}\acute{\ })</math> dabei ist :<math>{{A}_{i}}{{A}_{j}}\acute{\ }</math> das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel <math>\left\{ {{A}_{i}}{{A}_{j}}\acute{\ } \right\}</math> . 3) b(P)=0 für P=1, also für das sichere Ereignis :<math>\begin{align} & b(P)={{\log }_{2}}N \\ & f\ddot{u}rP=\frac{1}{N} \\ \end{align}</math> also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt! 4) <math>b(P)</math> ist stetig und wohldefiniert für <math>0\le P\le 1</math> '''Wegen der Additivität macht es Sinn:''' :<math>b(P)=f\left( \log P \right)</math> zu definieren. Es muss f noch bestimmt werden! Wegen 1) und 2) folgt: :<math>\begin{align} & f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\ & \Rightarrow f(\log P)=a*\log P \\ \end{align}</math> Also: die Funktion sollte linear in log P sein! '''Bemerkung:''' Für 2 unkorrelierte Systeme ist die Länge der Nachricht = Informationsmaß bei maximaler Unbestimmtheit additiv. Dies motiviert Postulat 2) Aus 3) folgt: :<math>\begin{align} & f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\ & \Rightarrow f(\log P)=a*\log P \\ & b(P)=a\log (P)=-a\log N=!={{\log }_{2}}N \\ & f\ddot{u}rP=\frac{1}{N} \\ & \Rightarrow a=-1 \\ & \log ={{\log }_{2}} \\ \end{align}</math> '''Konvention:''' Einheit für ein bit: :<math>\ln 2=\frac{\ln P}{{{\log }_{2}}P}</math> "bin" :<math>b({{P}_{i}})=-\ln {{P}_{i}}</math> Informationsmaß für die Nachricht, dass Ai eingetreten ist, falls :<math>{{P}_{i}}=P({{A}_{i}})</math> bekannt ist! ====Informationsmaß einer Wahrscheinlichkeitsverteilung <math>\left\{ {{P}_{i}} \right\}</math>==== Übermittlung vieler Nachrichten: :<math>{{A}_{i}}</math> tritt mit relativer Häufigkeit <math>{{P}_{i}}</math> auf! mittlere benötigte (= da fehlende!) Information pro Ereignis: :<math>b({{P}_{i}})=-\ln {{P}_{i}}</math> somit: :<math>\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}</math> {{Def|Definition: '''Shannon-Information''' einer Verteilung <math>\left\{ {{P}_{i}} \right\}</math>: ::<math>I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}}</math>|Shannon-Information}} :<math>\begin{align} & P=\left( {{P}_{1}}...{{P}_{N}} \right) \\ \end{align}</math> I ist Funktional der Verteilung b ist Funktion von Pi b(Pi) Es gilt stets <math>I(P)\le 0</math> Maximum: <math>I(P)=0</math> für <math>{{p}_{i}}={{\delta }_{ij}}</math> Also maximal für scharfe Verteilung mit sicherem Ereignis <math>{{A}_{j}}</math> Minimum: Variation der <math>{{P}_{i}}</math> um <math>\delta {{P}_{i}}</math> unter der Nebenbedingung :<math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> wegen Normierung: :<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1</math> Somit: :<math>\delta I(P)=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1 \right)\delta {{P}_{i}}=0</math> Addition der Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> mit dem Lagrange- Multiplikator <math>\lambda </math>: :<math>\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda \right)\delta {{P}_{i}}=0</math> unabhängige Variation <math>\delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left( 1+\lambda \right)=const.</math> Normierung <math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1=N{{P}_{i}}\Rightarrow {{P}_{i}}=\frac{1}{N}</math>, also Gleichverteilung '''Übung: '''Man vergleiche I(P) für verschiedene Verteilungen ====Kontinuierliche Ereignismenge==== :<math>x\in {{R}^{d}},\rho (x)</math> * Zelleneinteilung des <math>{{R}^{d}}</math> * in Zellen i mit Volumen * <math>{{\Delta }^{d}}x</math> * Wahrscheinlichkeit für ein Ereignis in Zelle i: :<math>\begin{align} & {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\ & I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( {{\Delta }^{d}}x\rho \left( {{x}^{i}} \right) \right)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right)+\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( {{\Delta }^{d}}x \right) \\ & \sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)=1 \\ & \sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( {{\Delta }^{d}}x \right)=const. \\ \end{align}</math> für eine feste Zellengröße. Damit kann dieser Term weggelassen werden und wir gewinnen: :<math>\begin{align} & I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right) \\ & {{\Delta }^{d}}x\to 0 \\ & I(\rho )=\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho \\ \end{align}</math> <u>Bemerkungen</u> # Shannon- Informationsmaß misst die Kenntnis bezüglich der Frage: Welches Ereignis tritt ein ? keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis (Laplacsches Prinzip vom unzureichenden Grund) 2) '''Definition ''': Statistisches Informationsmaß des NICHTWISSENS: (der fehlenden Information): :<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math> k geeignete Einheit Interpretation in der Thermodynamik als Entropie # verallgeminerte Informationsmaße (Renyi)<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math> # :<math>\begin{align} & {{I}_{q}}=-\frac{1}{1-q}\ln \left( \sum\limits_{i}^{{}}{{}}{{\left( {{p}_{i}} \right)}^{q-1}} \right) \\ & q=1,2,.... \\ \end{align}</math> wird gleich dem Shannon- Informationsmaß für <math>q\to 1</math> ====Informationsgewinn==== Maß für die Zusatzinformationen einer Wahrscheinlichkeitsverteilung <math>\left\{ {{P}_{i}} \right\}</math> im Vergleich zu einer Referenzverteilung <math>\left\{ {{P}_{i}}\acute{\ } \right\}</math> über derselben Ereignismenge: :<math>b\left( {{P}_{i}}\acute{\ } \right)-b\left( {{P}_{i}} \right)=\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math> Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln, also die Information, die als Nachricht hierfür gegeben werden muss : Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet): {{Def|:<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math> '''Informationsgewinn ''' → Kullback Information!|Kullback Information}} '''Bemerkungen''' mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´ es gilt: <math>K\left( P,P\acute{\ } \right)\ge 0</math> wegen :<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math> es gilt: :<math>\begin{align} & \ln x\ge 1-\frac{1}{x} \\ & f\ddot{u}r \\ & x>0 \\ \end{align}</math> <math>{{P}_{i}}\acute{\ }=0</math> ist auszuschließen, damit <math>K\left( P,P\acute{\ } \right)<\infty </math> Für <math>{{P}_{i}}\acute{\ }=\frac{1}{N}</math> (Gleichverteilung) :<math>\begin{align} & K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}+\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N=I(P)+\ln N \\ & wegen\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1 \\ & \Rightarrow K\left( P,P\acute{\ } \right)=I(P)+\ln N \\ \end{align}</math> bei Gleichverteilung! '''5) Minimum von K:''' '''Variation der '''<math>{{P}_{i}}</math> um<math>\delta {{P}_{i}}</math> : unter Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> :<math>\begin{align} & \delta K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)\delta {{P}_{i}} \\ & \sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1+\lambda \right)\delta {{P}_{i}}=0 \\ & \Rightarrow \ln (\frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }})=-\left( +1+\lambda \right)=const. \\ & \Rightarrow {{P}_{i}}\tilde{\ }{{P}_{i}}\acute{\ } \\ \end{align}</math> Wegen Normierung: :<math>\begin{align} & \sum\limits_{i}^{{}}{{}}{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1 \\ & \Rightarrow {{P}_{i}}={{P}_{i}}\acute{\ }\Rightarrow K=0 \\ \end{align}</math> # <math>K\left( P,P\acute{\ } \right)</math> # ist konvexe Funktion von P, da :<math>\frac{{{\partial }^{2}}K\left( P,P\acute{\ } \right)}{\partial {{P}_{i}}\partial {{P}_{j}}}=\frac{\partial }{\partial {{P}_{j}}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)=\frac{1}{{{P}_{i}}}{{\delta }_{ij}}\ge 0</math> somit ist dann auch :<math>I(P)=K(P,\frac{1}{N})-\ln N</math> konvex (Informationsgewinn) ====Kontinuierliche Ereignismengen==== :<math>x\in {{R}^{d}},\rho (x)</math> * Zelleneinteilung des <math>{{R}^{d}}</math> * in Zellen i mit Volumen * <math>{{\Delta }^{d}}x</math> * Wahrscheinlichkeit für ein Ereignis in Zelle i: :<math>\begin{align} & {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\ & K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \frac{\rho \left( {{x}^{i}} \right)}{\rho \acute{\ }\left( {{x}^{i}} \right)} \\ \end{align}</math> invariant gegen die Trafo :<math>\begin{align} & x\to \tilde{x} \\ & \rho \left( x \right)\to \rho \left( {\tilde{x}} \right)Det\left( \frac{\partial x}{\partial \tilde{x}} \right) \\ & {{\Delta }^{d}}x\to {{\Delta }^{d}}\tilde{x}Det{{\left( \frac{\partial x}{\partial \tilde{x}} \right)}^{-1}} \\ \end{align}</math> Während :<math>I(P)</math> nicht invariant ist! :<math>\begin{align} & {{\Delta }^{d}}x\to 0 \\ & \Rightarrow K\left( \rho ,\rho \acute{\ } \right)=\int_{{}}^{{}}{{}}{{d}^{d}}x\rho \ln \frac{\rho }{\rho \acute{\ }} \\ \end{align}</math> '''Bemerkung:''' Interpretation von <math>-k\dot{K}\left( \rho ,\rho \acute{\ } \right)</math> in der Thermodynamik als Entropieproduktion und von :<math>kTK\left( \rho ,\rho \acute{\ } \right)</math> als Exergie (availability)
Summary:
Please note that all contributions to testwiki are considered to be released under the Creative Commons Attribution (see
Testwiki:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)
Templates used on this page:
Template:Def
(
edit
)
Template:ScriptProf
(
edit
)
Template:Scripthinweis
(
edit
)
Template:Scriptnav
(
edit
)
Navigation menu
Personal tools
Not logged in
Talk
Contributions
Log in
Namespaces
Page
Discussion
English
Views
Read
Edit
Edit source
View history
More
Search
Navigation
Main page
Recent changes
Random page
Physikerwelt
Tools
What links here
Related changes
Special pages
Page information