Signifikanztest

Fragen, die sich auf kein spezielles Verfahren beziehen.

Signifikanztest

Beitragvon MasterMan » Fr 22. Jul 2011, 21:06

Hallo,

im Rahmen meiner Arbeit bin ich auf folgendes Problem gestoßen:
Die Zugriffszahlen zu einer Internetseite werden monatlich zusmmengefasst. Dabei ist folgende Wertetabelle entstanden:

Monat:Zugriffe
M01: 1005
M02: 389
M03: 174
M04: 302
M05: 154
M06: 114
M07: 106
M08: 74
M09: 146
M10: 484
M11: 176
M12: 257
M13: 223
M14: 510
M15: 79
M16: 98
M17: 219
M18: 142
M19: 150
M20: 184
M21: 71
M22: 362
M23: 107
M24: 126
M25: 127
M26: 107
M27: 375
M28: 328
M29: 496

In den Monaten M04, M10, M14, M17, M22, M24 wurde für die Internetseite geworben.
Der Monat M01 ist der erste Monat, wo die Seite online war und daher möglicherweise ein Ausreißer. Nun meine Fragen:
- Ist M01 ein Ausreißer?
- Sind die Monate mit Werbung signifikant besser als die ohne Werbung?

Mein Problem ist, dass ich von Statistik wenig Ahnung habe und daher auch eine Beschreibung des Lösungsweges bräuchte.

Vielen Dank im Voraus.
Grüße,
MasterMan


================================
Just because you are paranoid
doesn't mean they are not after you
MasterMan
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Fr 22. Jul 2011, 20:37
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Signifikanztest

Beitragvon bele » Sa 23. Jul 2011, 15:05

Hi,

Dass der Wert 1005 ein Ausreißer ist kannst Du z. B. anhand der gängigen Zeichenregeln für einen Boxplot belegen. Für Deine Werte sieht der so aus wie unten. Also ja: ist ein Ausreißer.

Wenn Du die schwarzen Zahlen ohne den Ausreißer gegen die roten Zahlen in einem zweiseitige Wilcoxon-Test vergleichst ergibt sich ein p-value = 0.041- und das gilt allgemein als signifikant.

Gruß,
Bernhard
Code: Alles auswählen
unbeworben=c(389,174,154,114,106,74,146,176,257,223,79,98,219,142,
             150,184,71,107,127,107,375,328,496)
beworben=c(302,484,510,362,126)

summary(beworben)
summary(unbeworben)
boxplot(c(1005,beworben, unbeworben))
wilcox.test(beworben, unbeworben)
Dateianhänge
anhang.png
Boxplot aller Werte - der höchste Wert ist klar ein Ausreißer.
anhang.png (3.3 KiB) 3080-mal betrachtet
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5927
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

folgende User möchten sich bei bele bedanken:
MasterMan

Re: Signifikanztest

Beitragvon MasterMan » Sa 23. Jul 2011, 21:29

Ich bin mehr als begeistert. :D :D :D
Vielen Dank für die Antwort :!:
Grüße,
MasterMan


================================
Just because you are paranoid
doesn't mean they are not after you
MasterMan
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Fr 22. Jul 2011, 20:37
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Signifikanztest

Beitragvon MasterMan » Sa 23. Jul 2011, 22:36

bele hat geschrieben:Wenn Du die schwarzen Zahlen ohne den Ausreißer gegen die roten Zahlen in einem zweiseitige Wilcoxon-Test vergleichst ergibt sich ein p-value = 0.041- und das gilt allgemein als signifikant.


Bei einem Signifikanzniveau von 95%?
Grüße,
MasterMan


================================
Just because you are paranoid
doesn't mean they are not after you
MasterMan
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Fr 22. Jul 2011, 20:37
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Signifikanztest

Beitragvon PonderStibbons » Sa 23. Jul 2011, 23:03

Wenn Du die schwarzen Zahlen ohne den Ausreißer gegen die roten Zahlen in einem zweiseitige Wilcoxon-Test vergleichst ergibt sich ein p-value = 0.041- und das gilt allgemein als signifikant.
Nix für unguit, aber: Wenn man aus einer Zahlenreihe einige hohe Zahlen herauspickt und diese inferenzstatistisch mit den übrigen Zahlen vergleicht, dann gilt da nichts als signifikant, sondern das Vorgehen gilt als ausgemachter Unsinn. Du kannst doch keinen p-Wert verwenden, der auf dem Vergleich ex post gebildeter "Gruppen" aus Extremwerten beruht!

Gruß

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
MasterMan

Re: Signifikanztest

Beitragvon bele » So 24. Jul 2011, 07:49

Danke für den Hinweis. So wie ich es geschrieben habe kann man das in der Tat so verstehen.

Der Monat M01 ist der erste Monat, wo die Seite online war und daher möglicherweise ein Ausreißer.


Der Satz dass ein neues Produkt andere Aufmerksamkeit erfährt und die Klickzahlen einer neuen Page nicht mit den späteren vergleichbar ist erschien mir so selbstverständlich, dass ich ihn nicht erst als ex post formuliert angesehen habe sondern davon ausgegangen bin, dass das vorher schon klar war und das man das auch schon in einer vorherigen Planung berücksichtigt hätte. Die Seitenaufrufe kommen im ersten Monate z. T. von den ganzen Suchmaschinen in die die Betreiber die Seite sicher eingetragen haben - diese Klicks kommen daher aus einer anders gearteten Grundgesamtheit.

@MasterMan: PonderStibbons hat Recht, dass man das Vorgehen in Unkenntnis der gemessenen Daten (quasi vorher) hätte aussuchen müssen. Wenn Du (vorher) gesagt hättest dass Du den ersten Monat mit einbeziehen willst dann steigt Deine Irrtumswahrscheinlichkeit p auf 0,069 und ist auf 95%-Niveau nicht mehr signifikant. Hättest Du (vorher) gesagt, dass Du die ersten drei Monate sicherheitshalber nicht mit auswertest dann sinkt die Irrtumswahrscheinlichkeit auf p=0.032 und alles ist wieder signifikant.

Gruß,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5927
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

Re: Signifikanztest

Beitragvon bele » So 24. Jul 2011, 11:30

Nachtrag @MasterMan: Pragmatisch kommt es darauf an, ob Du diese Frage für einen Lehrer oder für einen Auftraggeber untersuchst. Wenn für einen Lehrer, dann kommt es darauf an, was er dazu gesagt hat. Warum sucht ihr nach Ausreißern? Wenn Ihr Ausreißer sucht um sie in der Auswertung gesondert zu betrachten, dann kannst Du das auch tun.
Wenn es (wie ich hoffe) nicht um eine Hausaufgabe sondern um eine Fragestellung aus dem echten Leben geht, es also einen echten Auftraggeber (z. B. auch Dich selbst) geht, dann solltest Du antworten: Fünf Werte mit Werbung sind sehr wenig um das vernünftig zu beurteilen und es wäre sinnvoll mehr Daten zu sammeln. Derzeit zeichnet sich ein Trend zugunsten der Tage mit Werbung ab aber der irgendwo nahe der Grenze zur 95%-Signifikanz steht.
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5927
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

Re: Signifikanztest

Beitragvon MasterMan » Di 26. Jul 2011, 10:07

Es ist für den Arbeitgeber und es sind reale Daten. Es stellt sich die Frage, ob die Werbung in dieser Form fortgeführt wird (Kostendruck).
Den "Ausreißer" wollte ich identifizieren, da es den Mittelwert erheblich verreißt (Mittelw: 244,3; sd: 197,6; median: 174,0). Ohne den Ausreißer sind die Werte besser, da die Streuung deutlich sinkt (MW: 217,1; sd: 135,3; median: 164,0).
Grüße,
MasterMan


================================
Just because you are paranoid
doesn't mean they are not after you
MasterMan
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Fr 22. Jul 2011, 20:37
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Signifikanztest

Beitragvon bele » Di 26. Jul 2011, 11:27

Dann plädiere ich dafür weitere Erfahrungen zu sammeln. Bei so wenigen Daten besteht grundsätzlich die Gefahr dass Störeinflüsse an die Du jetzt nicht denkst (Monate mit Schulferien und solche ohne etc.) relevant werden.

Ich habe in meiner Musterrechnung oben einen Test verwendet der nur die Ränge der Daten betrachtet, nicht deren absolute Größe. Das macht den Test eigentlich unempfindlich gegen Extremwerte. Dennoch hängt das 95%-Signifikanzniveau an einer einzigen Messung.

Ob man nun werben sollte oder nicht werben sollte hängt ja nicht nur davon ab ob die Werbung hilft sondern auch wie stark sie hilft. Dazu berechnest Du wohl die Durchschnitte der Monate mit und die ohne Werbung. Beachte dass diese Mittelwerte wieder einen Fehler haben und dass in den Standardfehler der Mittelwerte wiederum die Fallzahl eingeht (Standardfehler des arithmetischen Mittels). Den "Gewinn" den Du nach Abzug der Kosten durch die Werbung hast kannst Du also um so genauer bestimmen je mehr Daten Du hast.

Gruß,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5927
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

folgende User möchten sich bei bele bedanken:
MasterMan


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste