Beschreibung/Interpretation Boxplots

Univariate Statistik.

Re: Beschreibung/Interpretation Boxplots

Beitragvon bele » Mi 5. Dez 2012, 17:04

FWIW: Die Verteilung der Sendefreqenzen bei Facebook ist sehr schief. Drei Viertel der Frequenzen liegen zwischen 40 und 120, das restliche Viertel verteilt sich auf höhere Werte bis hinauf zu 280. Demgegenüber erscheit die Verteilung der Sendefrequenzen Twitter sehr viel symmetrischer um einen Median bei etwa 80 über eine Rang von 0 bis 145.

Eine zielgenaue Beschreibung der Grafik fällt halt auch leichter wenn man weiß, zu welchem Zweck sie erstellt wurde, was man eigentlich aus ihr lesen möchte.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5912
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1397 mal in 1383 Posts

Re: Beschreibung/Interpretation Boxplots

Beitragvon bele » Do 6. Dez 2012, 09:19

MStats hat geschrieben:Mich würde eben interessieren, was es bedeutet, wenn eine Verteilung bzw. symmetrisch verläuft. Oder auch die größe der Boxplots. Was sagt das über die Daten aus?

Na, die Hälfte der Daten liegt in den Kästchen, die andere Hälfte liegt außerhalb der Kästchen aber im Bereich der Whiskers. Wenn bei allen Messungen immer das gleiche heraus kommt, dann schrumpft der Boxplot zu einer Linie. Wenn immer fast das gleiche heraus kommt, dann erhälst Du einen ganz kleinen und je mehr die Messwerte streuen umso größere Boxplots.

In Deinem rechten Fall (Twitter) liegt der Median etwa in der Mitte der Figur, die Quartilsgrenzen und die Ende der Whiskers haben nach oben und nach unten etwa den gleichen Abstand. Die Werte weichen also vom Median nach oben und nach unten einigermaßen gleichmäßig ab.
Bei Deinem linken Fall (Facebook) liegt die untere Hälfte der Werte (Median bis unteres Whisker) in einem ganz engen Bereich. Es besteht also immer eine gewisse Frequenz (>40) von der auch nicht so oft abgewichen wird. Von dort aus gibt es Werte nach oben die weit über die Twitter Werte hinaus gehen, aber im Median hat Twitter die höhere Frequenz.

Die Verteilung von Twitterfrequenzen könnte normalverteilt sein, die von Facebook ist es ganz sicher nicht.

http://de.wikipedia.org/wiki/Schiefe_(Statistik)
http://www.faes.de/Basis/Basis-Lexikon/ ... ertei.html


Dabei sollte diese Grafik zeigen wie die Verteilung im Hinblick auf die Sendefrequenz in einem bestimmten Analysezeitraum ausfällt.

Ja, das tut die Grafik (andere Grafiken, etwa ein Histogramm oder ein Violinplot würden noch mehr preisgeben). Wenn Du die Grafik weiter deuten möchtest musst Du Dich fragen, warum Du diese Analyse überhaupt gemacht hast und was die dahinter stehende Frage ist. Davon muss Deine gesamte Analyse getragen werden. Solange Du das nicht tust, bleibst Du bei abstrakten Datenbeschreibungsbegriffen wie Schiefe hängen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5912
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1397 mal in 1383 Posts


Zurück zu Mittelwert, Standardabweichung & Co.

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 5 Gäste