Advertisement

Große Städte, häufige Wörter und Milliardäre

  • Jörg Meyer
Chapter
Part of the Realitätsbezüge im Mathematikunterricht book series (REIMA)

Zusammenfassung

Ordnet man die größten Städte, die häufigsten Wörter, die Anhängerzahlen der größten Religionen oder auch das Vermögen der reichsten Milliardäre nach ihren jeweiligen Rängen, so kann man beobachten, dass die entsprechenden Datenpunkte auf dem Graphen einer Potenzfunktion liegen. Dieser Zusammenhang ist als Zipf’sches Gesetz bzw. als Pareto-Gesetz bekannt. Die weniger großen Städte, die weniger großen Vermögen hingegen sind logarithmisch normalverteilt.

Zusammenfassung

Ordnet man die größten Städte, die häufigsten Wörter, die Anhängerzahlen der größten Religionen oder auch das Vermögen der reichsten Milliardäre nach ihren jeweiligen Rängen, so kann man beobachten, dass die entsprechenden Datenpunkte auf dem Graphen einer Potenzfunktion liegen. Dieser Zusammenhang ist als Zipf’sches Gesetz bzw. als Pareto-Gesetz bekannt. Die weniger großen Städte, die weniger großen Vermögen hingegen sind logarithmisch normalverteilt.

1 In großen Städten will man leben

…denn sonst wären die großen Städte ja nicht so groß. Im Internet findet man die Einwohnerzahlen der größten deutschen Städte. Besieht man sich die Daten der 20 größten Städte (von Berlin bis Münster) und trägt man die Einwohnerzahl über dem jeweiligen Rang auf (Berlin hat Rang 1 und Münster Rang 20), so bekommt man Abb. 11.1. Man hat den Eindruck, dass die Punkte einigermaßen auf dem Graphen einer Potenzfunktion (mit negativem Exponenten) liegen. Ein Tabellenkalkulationsprogramm wie Excel liefert auch die passende Gleichung: Es handelt sich um \(y=3.000.000\cdot x^{-0{,}737}\); das Bestimmtheitsmaß ist mit \(R^{2}=0{,}9544\) nahe bei 1.
Abb. 11.1

Die Einwohnerzahlen der 20 größten deutschen Städte

Dies mag Zufall sein. Das Internet beinhaltet auch die Einwohnerzahl der 675 größten deutschen Städte (von Berlin bis Stadtlohn); trägt man die entsprechenden Daten (von 2013) wiederum auf, so bekommt man als Ausgleichsfunktion \(y=3.000.000\cdot x^{-0{,}773}\) mit dem sogar noch besseren Bestimmtheitsmaß von \(R^{2}=0{,}9968\). Das Diagramm hingegen ist fast unbrauchbar, weil sich nahezu alle Punkte auf der Rechtsachse befinden.

Hier ergeben sich mehrere Fragen.

1.1 Woher kennt man eigentlich die Einwohnerzahlen?

Wikipedia gibt etwa für Berlin die für 2013 gültige Einwohnerzahl von 3.421.829 an1. Dies ist eine völlig überzogene Genauigkeit! Abgesehen davon, dass sich die Einwohnerzahl, verursacht durch Geburten und Todesfälle, wohl jede Minute ändert, wird keine Stadtverwaltung in der Lage sein, die tatsächlich vorhandenen Einwohner zu zählen, sondern allenfalls die in der jeweiligen Stadt gemeldeten Personen erfassen zu können – sonst wären die in regelmäßigen Abständen durchgeführten Volkszählungen schlicht überflüssig. Erfreulicherweise spielen jedoch die ganz genauen Werte für die Ermittlung der Funktionsgleichung keine Rolle.

1.2 Zum Bestimmtheitsmaß

Nach allem, was man in der Stochastik mal gelernt hat, bezieht sich ein Bestimmtheitsmaß auf die Abweichung von einer linearen Regressionsfunktion. Das lässt sich jedoch leicht beheben: Bildet man bei einer Funktionsvorschrift wie \(y=A\cdot x^{B}\) auf beiden Seiten den Logarithmus (zu einer beliebigen Basis; hier wird 10 als Basis gewählt), bekommt man \(\log y=\log A+B\cdot\log x\), und das ist ein linearer Zusammenhang zwischen \(\log x\) und \(\log y\). Diese Linearisierung führt auch zu einem besser handhabbaren Diagramm; in Abb. 11.2 und auch in den folgenden sind alle Werte logarithmiert.
Abb. 11.2

Die logarithmierten Daten für die 675 größten deutschen Städte

(Statt der Logarithmierung kann man auch in Excel beide Achsen logarithmisch skalieren und dann eine Potenz-Regression durchführen lassen.)

In Abb. 11.2 ist gut erkennbar, dass die Datenpunkte nur wenig von der Linearität abweichen. Das von Excel berechnete Bestimmtheitsmaß stimmt mit dem Bestimmtheitsmaß der nicht logarithmierten Originaldaten überein.

Man findet im Internet auch ältere Daten zu Einwohnerzahlen, etwa die zu 2000 und 20122. Die Steigung ändert sich von \(-0{,}7151\) zu \(-0{,}7368\), ist also keine absolute Invariante. Der y-Abschnitt der jeweiligen Geraden ist i. a. uninteressant, zumal er auch davon abhängt, ob man die Einwohnerzahl in Tausenden oder Millionen misst.

1.3 Andere Länder

Dass sich die logarithmierten Einwohnerzahlen der größten deutschen Städte so schön auf einer Geraden anordnen, obwohl sich doch jede Stadt weitgehend unabhängig von den anderen entwickeln wird, ist merkwürdig. Handelt es sich hier um ein spezielles Phänomen der deutschen Ordnungsliebe?

Sieht man sich die Einwohnerzahlen der 10 Millionenstädte der USA an3 (von New York City bis San José in Kalifornien), so ergibt sich – wieder nach Logarithmierung – die Abb. 11.3. Der Funktionsterm ist \(y=-0{,}8629\cdot x+15{,}833\), wobei der entscheidende Parameter die Steigung ist; sie entspricht dem Exponenten B in \(y=A\cdot x^{B}\). Das Bestimmtheitsmaß ist mit \(R^{2}=0{,}9771\) wiederum recht hoch.
Abb. 11.3

Die Einwohnerzahler der 10 größten US-Städte

Interessant ist, dass der Exponent \(B=-0{,}8629\) der US-Städte etwa von der gleichen Größe ist wie die „deutschen Exponenten“.

Nunmehr hat man zwei Phänomene: Deutsche und US-Städte platzieren ihre logarithmierten Einwohnerzahlen auf einer Geraden, und beide Geraden haben etwa die gleiche Steigung. Wie sieht es in anderen Regionen der Welt aus?

Wie ist es in Afrika4? Die „City population“ zeigt eine nur mäßige Linearität der Daten, was damit zu tun haben wird, dass eine afrikanische „City“ ein verwaltungstechnischer Begriff ist. Viel aussagekräftiger ist die „Urban Area Population“ (Abb. 11.4) mit dem Exponenten \(B=-0{,}7528\) und dem Bestimmtheitsmaß \(R^{2}=0{,}9758\).
Abb. 11.4

Die 50 größten Stadtgebiete in Afrika

Obwohl eine einigermaßen zutreffende Schätzung einer Urban Area Population in Afrika schwierig sein dürfte, so ist doch die gute Linearität und die Fast-Übereinstimmung der Steigung mit den US- und den deutschen Daten frappierend, was zu weiteren Fragen führt:

1.4 Gilt der Effekt nur für die größten Städte?

Die in Fußnote 1 angegebene Internetseite enthält insbesondere auch die Daten für die 54 deutschen Städte, die zwischen 20.000 und 30.000 Einwohner haben. Die logarithmierten Daten sind in Abb. 11.5 zu sehen; hier wäre eine lineare Näherung völlig unangemessen (man beachte, dass die Hochachse nicht bei 1 beginnt).
Abb. 11.5

Die deutschen Städte mit einer Einwohnerzahl zwischen 20.000 und 30.000

Die Daten zu Abb. 11.5 finden sich auch in Abb. 11.2 wieder, sind dort jedoch aufgrund der Skalierung nicht sichtbar. Somit gilt nur für die größten Städte, dass ihre Einwohnerzahl durch ein Potenzgesetz beschrieben werden kann. Hieraus kann man aber auch lernen: Ein Diagramm wie Abb. 11.2, das 675 Daten enthält, kann durchaus Teilstrukturen wie in Abb. 11.5 verdecken.

Die Problematik von Abb. 11.5 wird in Abschn. 11.4.3 näher untersucht werden.

1.5 Wie lässt sich das alles erklären?

Auf diese wichtigste Frage eine für Schülerinnen und Schüler verständliche Antwort zu geben, dürfte schwierig sein5.

1.6 Wer hat das alles entdeckt?

Nach der englischen Wikipedia haben der französische Stenograph Jean-Baptiste Estoup (1868–1950) im Jahre 1912 und der deutsche Physiker Felix Auerbach (1856–1933) im Jahr 1913 den linearen Zusammenhang der logarithmierten Daten zur Einwohnerzahl großer Städte veröffentlicht. Bekannt geworden ist dieser Zusammenhang als Zipf’sches Gesetz 6 (nach dem amerikanischen Linguisten George Kingsley Zipf (1902–1950)), der vor allem an Worthäufigkeiten interessiert war. Das ist das Thema von Abschn. 11.2.

2 Nicht nur bei Städten …

Nicht nur die Einwohnerzahl bei großen Städten lässt sich linearisieren; das Phänomen tritt auch in ganz anders gelagerten Umständen auf.

2.1 Zur Worthäufigkeit

Man kann im Internet7 die Häufigkeiten einzelner Wörter in der englischen Fassung des Romans „Moby Dick“ finden (das häufigste Wort („the“) tritt 14.086-mal auf, das zweithäufigste Wort („of“) 6414-mal; nach Newman (2005) ist das für die meisten geschriebenen englischen Texte so, nicht jedoch für das gesprochene Englisch: Hier sei „I“ das häufigste Wort). Abb. 11.6 zeigt auch hier die sich nach dem Logarithmieren ergebende lineare Beschreibungsmöglichkeit für die häufigsten 55 Wörter.
Abb. 11.6

Die Wörter in „Moby Dick“; nach Häufigkeit geordnet

Die Steigung beträgt etwa \(-0{,}85\). Man hat also einen Zusammenhang
$${\text{H{\"a}ufigkeit}}\left({\text{Rang}}\right)=A\cdot{\text{Rang}}^{-0{,}85}.$$
Geht man aus von einem Gesamtwortschatz von 50.000 Wörtern, so folgt daraus wegen
$$\frac{\sum\limits_{k=1}^{1.500}k^{-0{,}85}}{\sum\limits_{k=1}^{50.000}k^{-0{,}85}}\approx\frac{1}{2},$$
dass die Hälfte des Wortschatzes in einem durchschnittlichen englischen Text aus nur 1.500 Wörtern besteht. Dies erklärt auch das überraschende Phänomen, dass Chinesen mit ihrer Bilderschrift Zeitungen und Bücher lesen können.

Wäre die Steigung nicht \(-0{,}85\), sondern −1, so käme man sogar mit 170 Wörtern aus!

Die eben erfolgten Rechnungen gehen davon aus, dass der lineare Zusammenhang zwischen den logarithmierten Daten für den gesamten Wortschatz besteht, wovon allerdings keine Rede sein kann: Numerisch ist das nur für die häufigsten 55 Wörter überprüft worden. Für die selteneren Wörter wird man jedoch annehmen können, dass ihre Häufigkeit noch stärker als nach dem linearen Gesetz abnimmt, so dass die oben erfolgten Rechnungen eine obere Schranke darstellen.

Warum das Zipf’sche Gesetz für die meisten Sprachen gilt, ist nicht bekannt8.

2.2 Auch die Religionen verhalten sich linear

Man findet im Internet auch Zahlen zu den Anzahlen der Christen, Buddhisten, Nichtgläubigen usw. auf der Welt9. Ebenfalls dies Beispiel führt nach Logarithmierung zu einem linearen Zusammenhang, wie Abb. 11.7 zeigt. Allerdings ist hier das Bestimmtheitsmaß mit 0,895 nicht sehr hoch.
Abb. 11.7

Verbreitung der Weltreligionen

2.3 Die reichsten Menschen auf der Welt

…verhalten sich ähnlich10. Abb. 11.8 zeigt die reichsten 10 Milliardäre im Jahre 2015 (Hochachse in Milliarden Dollar). Das Bestimmtheitsmaß ist mit etwa 0,98 recht hoch.
Abb. 11.8

Die 10 reichsten Milliardäre

Dass die logarithmierten Daten der reichsten Personen etwa auf einer Geraden liegen, ist zuerst dem italienischen Ökonom Vilfredo Pareto (1848–1923) aufgefallen. Diese Linearität gilt nur für die reichsten Personen.

Würde die Linearität global gelten mit einer Steigung von \(-0{,}92\) und einer Bevölkerungszahl von 100.000, so würde man wegen
$$\frac{\sum\limits_{k=1}^{20.000}k^{-0{,}92}}{\sum\limits_{k=1}^{100.000}k^{-0{,}92}}\approx 80\,\%$$
sagen können, dass 20 % der Bevölkerung etwa 80 % des gesamten Reichtums besitzen. Beträgt die Bevölkerung nur 10.000 Personen, so muss die Steigung \(-0{,}96\) sein, um zur selben Aussage zu kommen.
Pareto hat auch herausgefunden, dass zu seiner Zeit in Italien ca. 20 % der Bevölkerung ca. 80 % des Bodens besessen haben. Pareto hat daraufhin ein Prinzip formuliert, das sich folgendermaßen formulieren lässt:

(Pareto) showed that in every past and present culture, regardless of political structure, a very small minority of the population owns a very large portion of everything worth anything. (…) Regardless of the century, country, or political structure of a nation, the distribution of wealth was always the same – 80 % of all wealth was owned by 20 % of the people (Lewis 2014).

Die numerischen Angaben schwanken etwas, bewegen sich jedoch immer in der gleichen Größenordnung:

Even in developed countries, it is common that 90 % of the total wealth is owned by only 5 % of the population (Bouchaud und Mezard 2000).

Und die Nicht-Regierungs-Organisation Oxfam gab im Januar 2016 bekannt, dass 62 Menschen inzwischen genauso viel wie die gesamte ärmere Hälfte der Weltbevölkerung besitzen11.

2.4 Mögliche Schüler-Aktivitäten

Gibt es weitere Datensätze, die ein ähnlich auffälliges Verhalten zeigen wie die hier bislang vorgestellten? Beispielsweise könnte man nach den Einwohnerzahlen der größten Städte im heimischen Bundesland Ausschau halten. Wie steht es mit der Religionszugehörigkeit in Deutschland oder in anderen Ländern? Man findet im Internet auch Daten zur Einkommensverteilung in Deutschland sowie in anderen Ländern; hierbei lässt sich gut mit Schülerinnen und Schülern klären, dass bei der Feststellung von Einkommen Modellierungsgesichtspunkte eine Rolle spielen: Ist Einkommen bzw. Guthaben das, was man versteuert?

Auch Daten, die nicht von Menschen beeinflusst sind (wie es ja bei Stadtgrößen oder bei der Religionszugehörigkeit der Fall ist), lassen sich daraufhin untersuchen, ob sie nach Logarithmierung von Rang und Größe linear zu beschreiben sind. So gilt etwa für die 10 weltweit längsten Flüsse, dass deren Länge – ohne Logarithmierung! – linear vom Rang abhängt; auch hier hat man wieder das Problem, wie man die Länge eines Flusses misst, denn manche Flüsse haben keine eindeutige Quelle, sondern ein Quellgebiet. Es ergeben sich Anschlussfragen: Wie steht es mit den längsten Flüssen in Europa? Oder den Seetiefen in Deutschland?

3 Allgemeine Bemerkungen

In diesem Aufsatz wurden empirische Verteilungen untersucht, deren Dichte f ganz offensichtlich einem Gesetz der Form \(f\left(x\right)=A\cdot x^{B}\) genügt (mit x als Rang). Solche Verteilungen heißen diskrete Potenz-Verteilungen. Die nach Zipf und Pareto benannten Sachverhalte ordnen sich hier ein, aber auch das Benford-Gesetz12. Algorithmen, wie man empirische Verteilungen nicht nur „optisch“, sondern quantitativ daraufhin testet, ob sie tatsächlich Potenz-Verteilungen sind, findet man auch im Internet (Clauset et al. 2009).

Es ist A so zu wählen, dass f tatsächlich eine Dichte darstellt; es muss also
$$\sum\limits_{x=1}^{x_{{\text{max}}}}f\left(x\right)=A\cdot\sum\limits_{x=1}^{x_{{\text{max}}}}x^{B}=1$$
sein. Die diskreten Potenz-Verteilungen betreffen i. a. nur extreme Daten, also die größten Städte, die reichsten Amerikaner usw. Wie steht es mit weniger extremen Daten?

4 Weniger extreme Daten

…sind häufig logarithmisch normalverteilt. Was bedeutet das?

Die Dichte der Normalverteilung ist symmetrisch zum Erwartungswert μ. Häufig kommt es jedoch vor, dass die Dichte unterhalb eines gewissen Wertes Null sein muss – so gibt es eine minimale Größe von Städten, ein minimales Einkommen usw.

In solchen Fällen hat man oftmals Erfolg, wenn man nicht die Verteilung einer Größe X, sondern statt dessen die Verteilung der Größe \(\exp\left(X\right)\) betrachtet; der kleinste Werte ist nun nicht mehr \(-\infty\), sondern 0. Genauer gilt:

4.1 Die logarithmische Normalverteilung

Es sei X normalverteilt mit der Dichte
$$\varphi_{\mu,\sigma}\left(x\right)=\frac{1}{\sigma\cdot\sqrt{2\cdot\pi}}\cdot\exp\left(-\frac{1}{2}\cdot\left(\frac{x-\mu}{\sigma}\right)^{2}\right).$$
Dann ist
$${\text{prob}}\left(X\leq k\right)=\int\limits_{-\infty}^{k}\varphi_{\mu,\sigma}\left(x\right)\cdot\mathrm{d}x.$$
Nun gehe man über von X zu \(\exp\left(X\right)\); der Bereich von \(\exp\left(X\right)\) erstreckt sich von 0 bis unendlich.
Dann gilt:
$$\begin{aligned}\displaystyle&\displaystyle{\text{prob}}\left(e^{X}\leq k\right)={\text{prob}}\left(X\leq\ln k\right)\\ \displaystyle&\displaystyle=\frac{1}{\sigma\cdot\sqrt{2\cdot\pi}}\cdot\int\limits_{-\infty}^{\ln k}\exp\left(-\frac{1}{2}\cdot\left(\frac{x-\mu}{\sigma}\right)^{2}\right)\cdot\mathrm{d}x.\end{aligned}$$
Mit der Substitution \(z=\exp\left(x\right)\) bzw. \(\mathrm{d}x=\frac{\mathrm{d}z}{z}\) lässt sich das Integral weiter verarbeiten:
$$\begin{aligned}\displaystyle&\displaystyle\frac{1}{\sigma\,{\cdot}\,\sqrt{2\,{\cdot}\,\pi}}\,{\cdot}\!\int\limits_{-\infty}^{\ln k}\exp\left(-\frac{1}{2}\,{\cdot}\,\left(\frac{x-\mu}{\sigma}\right)^{2}\right){\cdot}\,\mathrm{d}x\\ \displaystyle=&\displaystyle\frac{1}{\sigma\,{\cdot}\,\sqrt{2\,{\cdot}\,\pi}}\,{\cdot}\!\int\limits_{0}^{k}\frac{1}{z}\,{\cdot}\,\exp\left(-\frac{1}{2}\,{\cdot}\left(\frac{\ln z-\mu}{\sigma}\right)^{2}\right){\cdot}\,\mathrm{d}z.\end{aligned}$$
Damit ist
$$\begin{aligned}\displaystyle&\displaystyle\psi_{\mu,\sigma}\left(z\right)\\ \displaystyle&\displaystyle=\frac{1}{\sigma\cdot\sqrt{2\cdot\pi}}\cdot\frac{1}{z}\cdot\exp\left(-\frac{1}{2}\cdot\left(\frac{\ln z-\mu}{\sigma}\right)^{2}\right)\end{aligned}$$
die Dichte von \(\exp\left(X\right)\).

Die zu \({\psi}\) gehörige Verteilung heißt logarithmische Normalverteilung 13. Sie hat als Erwartungswert \(\exp\left(\mu+\frac{\sigma^{2}}{2}\right)\).

Ist Y logarithmisch normalverteilt, so ist \(\ln\left(Y\right)\) normalverteilt – so erklärt sich der Name.

4.2 Zur Überprüfung auf Normalität bzw. auf logarithmische Normalität

Für eine „optische Überprüfung“, ob sich Daten gut durch eine Normalverteilung oder eine logarithmische Normalverteilung beschreiben lassen, ist der Quantil-Quantil-Plot gut geeignet (Strick 2003). Man erzeuge die kumulierten relativen Häufigkeiten \(h\left(G\right)\) einer Größe G und ermittle zu jedem Wert a den Wert b so, dass \(h\left(G\leq a\right)={\text{prob}}\left(Z\leq b\right)\) gilt, wobei Z die standardisierte normalverteilte Zufallsgröße ist. Wenn G normalverteilt ist mit den Parametern μ und σ, so liegen die Punkte \(\left(b;a\right)\) auf der Geraden mit der Gleichung \(y=\sigma\cdot x+\mu\).

Da es immer einfacher ist, festzustellen, ob Punkte auf einer Geraden liegen, als zu überprüfen, ob Punkte auf einer (zur Normalverteilung gehörigen) Kurve liegen, liefert der Quantil-Quantil-Plot ein gutes Analogon zur Überprüfung durch Logarithmierung, ob Punkte durch eine Potenzfunktion beschrieben werden können.

Bei der Überprüfung auf logarithmische Normalverteilung ist der Aufwand geringfügig höher: G muss logarithmiert werden, und danach sind die entsprechenden kumulierten Häufigkeiten zu bilden. Im folgenden Beispiel ist G der Rang.

4.3 Die nicht ganz so großen Städte

…haben Einwohnerzahlen, die man im Internet (Fußnote 1 im Falle von Deutschland) entnehmen kann. Abb. 11.9 zeigt alle Daten der 765 größten deutschen Städte. Man sieht, dass die Daten im mittleren Bereich einigermaßen auf einer Geraden liegen und daher gut durch die logarithmische Normalverteilung beschrieben werden können (siehe auch Eeckhout 2004). (Zur Interpretation von Abb. 11.9 vergleiche man den vorigen Unterabschnitt.)
Abb. 11.9

Die nicht ganz so großen deutschen Städte

Aber das ist ersichtlich noch nicht die optimale Beschreibung! Giesen (2012, siehe auch: Giesen et al. 2010) verifiziert und begründet den älteren Befund von Reed (2002), dass die „doppelte Pareto-lognormal-Verteilung“ noch besser passen würde; das ist eine Verteilung, die in der Mitte logarithmisch normal ist und an beiden Enden jeweils einem Potenzgesetz genügt. Fonseca (1988) beschreibt den Zusammenhang zwischen Rang und Größe ganz anders, nämlich mit Hilfe des Goldenen Schnitts. Dies ist aus folgendem Grunde naheliegend: Betrachtet man nur die Fibonacci-Zahlen als mögliche Ränge, so nähert sich der Quotient aufeinanderfolgender Ränge der Zahl des Goldenen Schnittes an, d. h. die Logarithmen aufeinanderfolgender Ränge sind annähernd äquidistant.

4.4 Noch einmal: Die 20 größten deutschen Städte

Führt man das im letzten Unterabschnitt beschriebene Verfahren für die 20 größten deutschen Städte durch, so bekommt man Abb. 11.10.
Abb. 11.10

Die 20 größten deutschen Städte und die logarithmische Normalverteilung

Dieser Befund erzeugt Ratlosigkeit: Ist denn für die größten Städte das Potenzgesetz die „richtige“ Modellierung oder die logarithmische Normalverteilung? In Wirklichkeit lässt sich das kaum entscheiden! Man beachte nämlich, dass man wegen \(\ln z\geq 0\) und wegen
$$\begin{aligned}\displaystyle&\displaystyle\ln\left(\psi_{\mu,\sigma}\left(z\right)\right)=-\ln\left(\sigma\cdot\sqrt{2\cdot\pi}\right)\\ \displaystyle&\displaystyle\quad-\ln z-\frac{\left(\ln z\right)^{2}-2\cdot\mu\cdot\ln z+\mu^{2}}{2\cdot\sigma^{2}}\end{aligned}$$
für große Werte von σ und kleine Werte von z (also etwa für die größten Städte) die logarithmische Normalverteilung graphisch nicht von der Potenzverteilung unterscheiden kann, der der letzte Summand gegenüber den ersten beiden zu vernachlässigen ist.

Generell lässt sich sagen: Gibt es für die betrachtete Messgröße einen minimalen Wert, so ist eine Potenzverteilung geeigneter; in den anderen Fällen ist es eine logarithmische Normalverteilung (Mitzenmacher 2003).

4.5 Zum häufigen Auftreten der logarithmischen Normalverteilung

Bekanntlich führt die Zusammensetzung einer Zufallsgröße G durch viele kleine additive Summanden dazu, dass G normalverteilt ist. In analoger Weise führt die Zusammensetzung einer Zufallsgröße durch viele multiplikative Faktoren zur logarithmischen Normalverteilung.

4.6 Mögliche Anschlussfragen

Auch wenn sich die logarithmische Normalverteilung im Umgang sperriger darstellt als eine Potenzverteilung, so geben doch die in Fußnote 13 angegebenen Quellen zu weiteren Datenrecherchen Anlass.

Fußnoten

  1. 1.
  2. 2.
  3. 3.
  4. 4.
  5. 5.

    Es gibt (allerdings alles andere als schulnahe) Erklärungen von Kaldasch 2014 oder von Gabaix 1999.

  6. 6.

    In der Literatur wird mittlerweile unter dem Zipf’schen Gesetz ein Potenzzusammenhang mit dem Exponenten−1 verstanden.

  7. 7.

    http://tuvalu.santafe.edu/~aaronc/powerlaws/data.htm; dann „download the data“;letzter Aufruf am 9.6.2015.

  8. 8.
  9. 9.
  10. 10.
  11. 11.
  12. 12.
  13. 13.

    Viele Beispiele für das Auftreten der logarithmischen Normalverteilung finden sich in http://www.andre-waser.ch/Publications/DieLogarithmischeVerteilungInDerNatur.pdf; letzter Aufruf am 16.6.2015 oder in Limpert et al. (2001).

Literatur

  1. Bouchaud, J., Mezard, M.: Wealth condensation in a simple model of economy. Physica A: Statistical Mechanics and its Applications 282(3–4), 536–545 (2000). http://lptms.u-psud.fr/membres/mezard/Pdf/00_BM_PA.pdf; letzter Aufruf am 9.6.2015CrossRefGoogle Scholar
  2. Clauset, A., Shalizi, C.R., Newman, M.E.J.: Power-law distributions in empirical data. SIAM Review 51(4), 661–703 (2009). http://arxiv.org/pdf/0706.1062.pdf; letzter Aufruf am 9.6.2015MathSciNetCrossRefzbMATHGoogle Scholar
  3. Eeckhout, J.: Gibrat’s Law for (All) Cities. American Economic Review 94(5), 1429–1451 (2004). http://www.krutikoff.narod.ru/Activities/NSS2011/Eeckhout2004aer.pdf; letzter Aufruf am 23.6.2015CrossRefGoogle Scholar
  4. Fonseca, J.W.: Urban Rank-Size Hierarchy: A Mathematical Interpretation (1988). http://www-personal.umich.edu/~copyrght/image/monog08/fulltext.pdf, Zugegriffen: 23. Juni 2015zbMATHGoogle Scholar
  5. Gabaix, X.: Zipf’s Law for Cities: An Explanation. The Quarterly Journal of Economics 114(3), 739–767 (1999). http://dharrison.ba.ttu.edu/Real%20Estate%20Investments/Zipfs%20Law%20-%20QJE%201999.pdf; letzter Aufruf am 9.6.2015CrossRefzbMATHGoogle Scholar
  6. Giesen, K.: Zipf’s Law for Cities and the Double Pareto Lognormal Distribution (Dissertation) (2012). http://duepublico.uni-duisburg-essen.de/servlets/DerivateServlet/Derivate-31100/Giesen_Diss.pdf;, Zugegriffen: 24. Juni 2015Google Scholar
  7. Giesen, K., Zimmermann, A., Suedekum, J.: The size distribution across all cities – double Pareto lognormal strikes! Journal of Urban Economics 68, 129–137 (2010). https://www.uni-due.de/js/DPLN_RevJUE.pdf; letzter Aufruf am 23.6.2015CrossRefGoogle Scholar
  8. Kaldasch, J.: Evolutionary Model of the City Size Distribution (2014). http://www.hindawi.com/journals/isrn/2014/498125/;, Zugegriffen: 9. Juni 2015Google Scholar
  9. Lewis, T.G.: Book of Extremes. Springer, Cham, S. 143 (2014)CrossRefGoogle Scholar
  10. Limpert, E., Stahel, W., Abbt, M.: Log-normal Distributions across the Sciences: Keys and Clues. BioScience 51, 341–352 (2001). http://stat.ethz.ch/~stahel/lognormal/bioscience.pdf; letzter Aufruf am 16.6.2015CrossRefGoogle Scholar
  11. Mitzenmacher, M.: A Brief History of Generative Models for Power Law and Lognormal Distributions. Internet Mathematics 1(2), 226–251 (2003). https://www.stat.berkeley.edu/~aldous/Networks/1089229510.pdf; letzter Zugriff am 22.6.2015MathSciNetCrossRefzbMATHGoogle Scholar
  12. Newman, M.E.J.: Power laws, Pareto distributions and Zipf’s law. Contemporary Physics 46(5), 323–351 (2005). http://people.physics.anu.edu.au/~tas110/Teaching/Lectures/L4/Material/Newman05.pdf; letzter Aufruf am 9.6.2015CrossRefGoogle Scholar
  13. Reed, W.J.: On the Rank-Size Distribution for Human Settlements. Journal of Regional Science 42, 1–17 (2002). www.math.uvic.ca/faculty/reed/Rank-size.ps; letzter Aufruf am 23.6.2015CrossRefGoogle Scholar
  14. Scott, F., Fasli, M.: Benford’s Law: An Empirical Investigation and a Novel Explanation, University of Essex, CSM 349 (2001). http://dces.essex.ac.uk/technical-reports/2001/CSM-349.pdf;, Zugegriffen: 12. Juni 2015Google Scholar
  15. Strick: Elemente der Mathematik. Leistungskurs Stochastik. Schroedel, Hannover, S. 206–207 (2003)Google Scholar

Copyright information

© Springer Fachmedien Wiesbaden 2017

Authors and Affiliations

  • Jörg Meyer
    • 1
  1. 1.HamelnDeutschland

Personalised recommendations