Welches statistische Verfahren?

Fragen, die sich auf kein spezielles Verfahren beziehen.

Welches statistische Verfahren?

Beitragvon Hawk » Do 26. Nov 2015, 12:18

Hallo,

welches statistische Verfahren würdet ihr für folgenden Fall empfehlen. Vorweg, ich habe eher keine Statistikkentnisse und hoffe die Frage ist nicht zu laienhaft.

Ausgangslage: in meiner Gesamtpopulation gibt es eine große Zahl an nicht aktiven Mitgliedern. Diese zeichnen sich z.B. dadurch aus, das keine Aktivität in den letzten 6 Monaten festzustellen war (z.B. Fragebogenrücklauf, Websitebesuch, Antwort auf eine Email ...)
Alle zwei Wochen machen wir Splittests und teilen die Gesamtpopulation (jeden Durchlauf neu!) in zwei gleich große Gruppen A und B auf.

Jetzt interessiert mich, wie die zufällige Verteilung den inaktiven Teil auf die zwei Gruppen der Gesamtpopulation verteilt. Oder anders gefragt: wie wahrscheinlich wäre das Risiko, dass in Gruppe A gehäuft inaktive Mitglieder sind und in Gruppe B nicht.

Die Gesamtpopulation liegt ca. bei 80.000
Der Teil der inaktiven aus der Gesamtpopulation liegt ca. bei 50.000

(natürlich würde mich das auch für andere Verteilungen interessieren, falls es da eine Formel gäbe)

Vielen Dank
Hawk
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 26. Nov 2015, 11:22
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Welches statistische Verfahren?

Beitragvon bele » Do 26. Nov 2015, 16:02

Hawk hat geschrieben:Oder anders gefragt: wie wahrscheinlich wäre das Risiko, dass in Gruppe A gehäuft inaktive Mitglieder sind und in Gruppe B nicht.


Hi!

Die Frage ist nicht besonders präzise oder verständlich. Es wird nur selten vorkommen, dass das Zahlenverhältnis exakt 50000:30000 ist. Was verstehst Du unter "gehäuft"?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5928
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

folgende User möchten sich bei bele bedanken:
Hawk

Re: Welches statistische Verfahren?

Beitragvon Hawk » Fr 27. Nov 2015, 15:56

Hallo,

vielen Dank für die Antwort! Gar nicht so einfach zu beschreiben, ich versuche es mal so:

In unserer Datenbank gibt es eine Gruppe mit 80.000 Leute.
- Diese 80.000 werden in zwei gleich große Gruppen geteilt
- Ein identischer Fragebogen wird an Gruppe A und B verschickt
- Ergebnis: der Rücklauf der Gruppe A sind 331, der Gruppe B sind 224

Fragen die ich falls mit statistischen Verfahren möglich gerne klären würde:
  1. Meine Annahme war, dass der Rücklauf von Gruppe A und Gruppe B ungefähr gleich hoch ist (und nicht 331 zu 224). Beide Gruppen haben ja einen identischen Fragebogen erhalten. Von der Gruppe der 80.000 ist bekannt das 50.000 davon eher inaktiv über einen längeren Zeitraum waren. a.) Kann ich irgendwie ermitteln wie hoch die Wahrscheinlichkeit war, dass überproportional viele der inaktiven in einde der beiden Gruppe A oder B bei der Teilung gelandet sind? b.) Welches Rücklaufverhältnis (mein Ergebnis 331 zu 224 bei einem gleichen Fragebogen sicher eher nicht?) von Gruppe A und B wäre noch im Rahmen und kann ich das rechnerisch ermitteln wie weit das Verhältnis auseinander liegen dürfte?
  2. Wie hoch dürfte die Anzahl der inaktiven Gruppe aus den 80.000 höchstens sein, damit in Gruppe A und Gruppe B ungefähr gleich viele inaktive landen bzw. die inaktiven mir nicht die Rückläufe "verzerren" und damit das Ergebnis zunichte machen?

Ich würde gerne überprüfen, ob unser Zufallsgenerator der die Gruppen verteilt, wirklich nach dem Zufall bzw. einigermaßen gleichwertig auswählt und inwiefern die Inaktiven Personen ein Problem darstellen. Außerdem interessiert mich natürlich, ob wir unter diesen Gegebenheiten überhaupt Splittests mit Aussagekraft durchführen können.

Danke!
Hawk
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 26. Nov 2015, 11:22
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Welches statistische Verfahren?

Beitragvon bele » Fr 27. Nov 2015, 17:03

Hawk hat geschrieben:Welches Rücklaufverhältnis (mein Ergebnis 331 zu 224 bei einem gleichen Fragebogen sicher eher nicht?) von Gruppe A und B wäre noch im Rahmen und kann ich das rechnerisch ermitteln wie weit das Verhältnis auseinander liegen dürfte?


Hallo Hawk,

Du darfst Dich auf das Gesetz der großen Zahl verlassen: Wenn in Gruppe A und Gruppe B je 40.000 Menschen sind, dann wird sich das Zahlenverhältnis recht präzise einstellen wie in der Grundgesamtheit. Zu Deiner oben gestellten Frage würde ich eine Vier-Felder-Tafel aufstellen und einen Chi-Quadrat-Test vorschlagen:

Code: Alles auswählen
                   Gruppe A   Gruppe B
                 +-----------------------
anwortet         |    331         224
antwortet nicht  |  40000       40000


in R:
Code: Alles auswählen
> m <- matrix(c(331,224,40000,40000),nrow=2)
> chisq.test(m)

   Pearson's Chi-squared test with Yates' continuity
   correction

data:  m
X-squared = 20.103, df = 1, p-value = 7.338e-06

Mit einem p-Wert im Bereich 10 hoch -6 kannst Du mit großer Sicherheit sagen, dass die Antwortwahrscheinlichkeit in beiden Gruppen nicht im Verhältnis 40000:40000 gestanden hat. Auch wenn das hier nur gerundete Werte sind.

HTH,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5928
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

folgende User möchten sich bei bele bedanken:
Hawk

Re: Welches statistische Verfahren?

Beitragvon Hawk » Mo 30. Nov 2015, 12:55

Hallo Bernhard,

vielen Dank für die Erklärungen und für den R Syntax. Ich habe mir das Kommandozeilenprogramm gleich heruntergeladen und die Verhältnisse und p-Werte bei anderen Zahlen ausprobiert.

ich brauche (auch nach durchlesen einiger Einführungen zum Chi Quadrattest) noch ein bißchen um das vollständig nachzuvollziehen (das liegt aber an mir und nicht an den Erklärungen ;-) ).

Kannst Du noch ein wenig ausführen
- wie meine statistische (Null?)hypothese hier lautet?
- warum ich gerade diese Zahlen ins Verhältnis setze? - z.B. warum nehme ich in der zweiten Zeile zweimal die 40.000:

Code: Alles auswählen
                   Gruppe A   Gruppe B
                 +-----------------------
anwortet         |    331         224
antwortet nicht  |  40000       40000


und nicht die Gesamtzahl der getätigten Antworten aus Gruppe A/B 555 (331 + 224)?
also so:

Code: Alles auswählen
                   Gruppe A   Gruppe B
                 +-----------------------
anwortet         |    331         224
antwortet nicht  |  555         555


Hoffe die Fragen sind nicht zu grundlegend. Wenn ihr hier nicht zum x-ten mal den Chi-Quadrattest durcherläutern mögt, verstehe ich das natürlich. Ich bleibe dran und lese mich noch weiter ins Thema ein, hat auf jeden Fall Lust auf mehr gemacht. Ich wünschte nur ich hätte etwas mehr Talent in der Richtung und es würde kürzer dauern bis ich die Zusammenhänge verstehe.

Danke schonmal.
Hawk
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 26. Nov 2015, 11:22
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Welches statistische Verfahren?

Beitragvon bele » Mo 30. Nov 2015, 13:40

Hallo Hawk,

R herunterladen und ans Laufen kriegen war schon mal ein wertvoller Schritt. Welche Zahlen Du in die Vier-Felder-Tafel einsetzt hängt davon ab, welche Fragestellung der Test beantworten soll. Ich hatte Dich so verstanden, dass Du etwa 40000 Leute in Gruppe A steckst und dass jeder von denen die Chance hatte zu antworten. Davon haben 331 geantwortet und 40.000-331=39669 nicht. Also müssten 331 und 39669 in der Spalte "Gruppe A" stehen. Da die 40.000 ohnehin nur ein gerundeter Wert sind habe ich es statt des krummen Wertes bei 40.000 gelassen. Korrekter wäre gewesen:
Code: Alles auswählen
                   Gruppe A   Gruppe B
                 +-----------------------
anwortet         |    331         224
antwortet nicht  |  39669       39776

Du musst selbst überlegen, ob in Deiner Situation die Vier-Felder-Tafel mit den 555 Sinn macht (würde sich mir gerade nicht erschließen, aber vielleicht habe ich die Aufgabe unzureichend verstanden). Erst über die Vierfeldertafel nachdenken und nur wenn die schlüssig ist weiter gehen zum Chiquadrat-Test.

Du kannst R und den Chiquadrat-Test auch fragen, ob A=331 und B=224 auch entstanden sein könnte, wenn jeder Antwortende die gleiche Wahrscheinlichkeit hatte (50:50) in A oder B zu stecken. Das würde dann so aussehen:

Code: Alles auswählen
> chisq.test(c(331, 224), p=c(0.5, 0.5))

        Chi-squared test for given probabilities

data:  c(331, 224)
X-squared = 20.6288, df = 1, p-value = 5.575e-06


Auch hier ist der p-Wert mit 5,5 mal zehn hoch minus 6 sehr, sehr klein. Nicht ganz zufällig sehr ähnlich dem oben. Wir haben nur jetzt eine andere Art von Chiquadrattest gerechnet, weil wir probabilities p anstelle einer Matrix eingegeben haben.

HTH,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5928
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

Re: Welches statistische Verfahren?

Beitragvon bele » Mo 30. Nov 2015, 13:57

PS: Wenn Du Dir R schon anschaust, hier noch ein wenig mehr Appetitmacher: Fragen wie Deine erste, nach der Verteilung der aktiven und inaktiven auf die Gruppe kannst Du in R mit sehr wenigen Code-Zeilen simulieren. Ohne jetzt die Details der Syntax erklären zu wollen (dafür gibt es Bücher) hoffe ich, dass das Vorgehen an sich auch ohne spezielle R Kenntnisse verständlich ist: Kopiere einfach den folgenden Code in die R Console. Zeilen, die mit einem # beginnen tun in R gar nichts, die sind nur für Dich zum Lesen. Der Rest sind drei Zeilen echte Anweisungen:

Code: Alles auswählen
# Gegeben seien 80.000 Mitglieder, davon 50.000 inaktiv,
# hier repräsentiert mit einem "i" und 30.000 aktiv, hier
# repräsentiert über ein "a"

# erzeuge einen Vektor mit Namen "Mitglieder" aus
# 80000 Buchstaben wie oben
mitglieder <- c(rep("i", 50000), rep("a", 30000))

# jedem Mitglied ordnen wir jetzt eine Gruppe A oder B zu, indem
# wir einen neuen Vektor mit lauter "A" und "B" namens
# gruppe erzeugen (zufällig)
gruppe <- sample(c("A", "B"), 80000, replace=TRUE)

# und nun erstellen wir eine Tabelle, wieviele aktive und
# inaktive Mitglieder in beiden Gruppen gelandet sind:
table(mitglieder, gruppe)


Kannst Du beliebig oft laufen lassen und bekommst dann einen Eindruck davon, wie präzise der Zufall verteilt, wenn die Zahl der Zufallsziehungen nur groß genug ist.

Natürlich kannst Du das auch automatisiert sagen wir 500 Mal laufen lassen und jeweils das Verhältnis von Inaktiven in A zu Inaktiven in B berechnen. Gib Deinem Rechner einfach ein paar Sekunden Zeit für das folgende Beispiel:

Code: Alles auswählen
hist(replicate(500,{
  mitglieder <- c(rep("i", 50000), rep("a", 30000))
  gruppe <- sample(c("A", "B"), 80000, replace=TRUE)
  t<-table(mitglieder, gruppe)
  t["i", "A"]/t["i","B"]}
  ),xlab="Inaktive in A durch Inaktive in B",
  main="Histogramm aus 500 Versuchen", xlim=c(.9, 1.1))
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5928
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

folgende User möchten sich bei bele bedanken:
Hawk

Re: Welches statistische Verfahren?

Beitragvon Hawk » Do 3. Dez 2015, 13:24

Hallo bele,

wollte nur kurz ein großes dankeschön dalassen für den r-Code und die Erläuterungen, das trifft genau was ich meinte :-) . Das Histogramm in R ist große Klasse! Ich hatte noch nicht soviel Zeit, melde mich aber nochmal wenn ich meine "Hausaufgaben" gemacht und mich weiter eingearbeitet habe.
Hawk
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 26. Nov 2015, 11:22
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 6 Gäste