Wie Zusammenhang zwischen binären Variablen testen?

Fragen, die sich auf kein spezielles Verfahren beziehen.

Wie Zusammenhang zwischen binären Variablen testen?

Beitragvon windsor » Do 3. Sep 2015, 13:43

Hallo liebe Statistiker,

im Damenmodengeschäft einer Bekannten erhalten Neukundinnen ein Willkommensgeschenk und können dabei derzeit zwischen Parfums und Küchenutensilien auswählen. Eine Angestellte kann angeblich überraschend gut vorhersagen, ob sich eine neue Kundin für ein Parfum oder ein Küchengerät entscheidet. Sie behauptet, dies an bestimmten Kleidungsmerkmalen der Kundinnen zu erkennen wie z.B.

Schuhe flacher oder hoher Absatz
Handtasche klein oder groß
Halstuch ja oder nein
Kleidung bunt oder dezent
Hose oder Kleid/Rock
...

Ich würde das gerne überprüfen. Alle Variablen (eine abhängige, acht unabhängige) sind binär. Welcher Test wäre hiefür geeignet? Geht es auch mit einer Varianzanalyse?

Für Antwort dankbar
Windsor
windsor
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 3. Sep 2015, 11:09
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Wie Zusammenhang zwischen binären Variablen testen?

Beitragvon bele » Do 3. Sep 2015, 14:23

Das kommt darauf an, was für ein Modell Du im Kopf hast. Wenn Du denkst, dass jede der acht unabhängigen ein klein wenig zu der Entscheidung beiträgt und das in ungefähr additiver Weise, dann kannst Du die Gewichtung dieser acht abhängigen in diesem Modell mit einer logistischen Regression mit 8 Dummyvariablen untersuchen. Wenn Du auch komplexe Zusammenhänge erfassen möchtest würde ich an Entscheidungsbäume und ähnliches denken.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

folgende User möchten sich bei bele bedanken:
windsor

Re: Wie Zusammenhang zwischen binären Variablen testen?

Beitragvon windsor » So 6. Sep 2015, 16:10

Vielen Dank! Nachdem ich mich näher mit der Thematik befasst habe, frage ich mich allerdings, ob ich bei lauter binären Variablen überhaupt ein statistisches Verfahren benötige oder nicht genauso gut mit einfachem Zählen und Prozentrechnen auskomme, wenn nur der Einfluss einzelner Prädiktoren ohne Wechselwirkungen erfasst werden soll.

Ich habe einmal die Annahme, dass Kundinnen mit hohen Absätzen oder Kleidern zum Parfum greifen mit R simuliert, wobei 80% der Absatz- (8 von 10) bzw 78% der Kleidträgerinnen (7 von 9) Parfum wählen:

> mode
Parfum Absatz Kleid
1 1 1 1
2 1 1 1
3 1 1 1
4 1 1 1
5 1 1 1
6 1 1 1
7 1 1 0
8 1 1 0
9 1 0 1
10 0 1 1
11 0 1 0
12 0 0 1
13 0 0 0
14 0 0 0
15 0 0 0
16 0 0 0

Diese kleine Stichprobe führt noch zu keinem brauchbaren Ergebnis

> summary (glm(mode$Parfum ~ mode$Absatz + mode$Kleid, binomial))

Deviance Residuals:
Min 1Q Median 3Q Max
-2.1433 -0.3921 0.4605 0.4605 1.4450

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.527 1.460 -1.731 0.0835 .
mode$Absatz 2.801 1.467 1.910 0.0562 .
mode$Kleid 1.917 1.398 1.371 0.1703
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Null deviance: 21.930 on 15 degrees of freedom
Residual deviance: 13.378 on 13 degrees of freedom
AIC: 19.378


Die 10-fache Stichprobengröße (Sample 10 mal kopiert), ergibt

Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.5271 0.4618 -5.473 4.43e-08 ***
mode$Absatz 2.8009 0.4638 6.039 1.55e-09 ***
mode$Kleid 1.9170 0.4421 4.336 1.45e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Null deviance: 219.30 on 159 degrees of freedom
Residual deviance: 133.78 on 157 degrees of freedom
AIC: 139.78

Damit werden zwar die Zusammenhänge eindrucksvoll bestätigt. Ist es aber nicht aussagefähiger (sofern richtig), zu sagen, dass Absatz- bzw Kleidträgerinnen mit einer Wahrscheinlichkeit von 80% bzw 78% Parfum wählen?
windsor
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 3. Sep 2015, 11:09
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Wie Zusammenhang zwischen binären Variablen testen?

Beitragvon bele » Mo 7. Sep 2015, 09:42

Wie gesagt, es ist die Frage, welches Modell zu im Kopf hast. Wenn die einzelnen Eigenschaften unabhängig voneinander sind, dann brauchst Du ein anderes Modell, als wenn Sie additiv wirken sollen. Wenn Sie überadditiv wirken wären noch Interaktionsterme vonnöten. Dann brauchst Du allerdings große Fallzahlen. Frag doch mal die Angestellte, wie sie sich das vorstellt bzw was ihr Eindruck ist.

Ich glaube nicht, dass Deine UV voneinander unabhängig sind. Frauen, die sich für praktische, große Taschen entscheiden werden sich auch für praktische flache Absätze entscheiden während Modebewusste sich vielleicht eher für kleine Täschchen und hohe Absätze entscheiden. Frauen mit großen Taschen und hohen Absätzen haben in meiner Vorstellung eine noch höhere Wahrscheinlichkeit, die modebewusstere der beiden Entscheidungen zu fällen.

Bezüglich Deiner Simulationsrechnung böte es sich in Zukunft an gleich mit zu posten, wie Du die Simulation genau gemacht hast und wenn Du [code]-Tags anstelle der blauen Farbe benutzen könntest.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

folgende User möchten sich bei bele bedanken:
windsor

Re: Wie Zusammenhang zwischen binären Variablen testen?

Beitragvon PonderStibbons » Mo 7. Sep 2015, 10:48

Die Fragestellung scheint es zu erfordern, erstmal überhaupt zu untersuchen,
ob die einzelnen Merkmale, jedes für sich, einen Bezug zum Kauf haben.

Ob und in welcher Weise die Verkäuferin die Einzelinformationen
kombiniert, ist nicht bekannt. Daher lässt sich zur Ausgangsfrage
meines Erachtens auch kein Verfahren rechnen - man hat kein
Modell, das man testen könnte.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
windsor

Re: Wie Zusammenhang zwischen binären Variablen testen?

Beitragvon windsor » Mo 7. Sep 2015, 11:40

Hallo Bernhard,

Code! :D :D :!: Alles mögliche habe ich probiert, sogar Bilder hochgeladen. Sorry, vieles ist hier neu für mich, aber ich lerne jede Menge dazu und freue mich sehr darüber, vielen Dank. Als ich meine Statistikprüfungen abgelegt habe, war gerade einmal der Taschenrechner erfunden.

Vom Format abgesehen dachte ich, die Simulation eigentlich nachvollziehbar dargestellt zu haben. Die Daten habe ich mir ausgedacht und so gewählt, dass Zusammenhänge bestehen, eben 80% bzw. 78%, dann in Excel eingegeben, zwecks besserer Überschaubarkeit absteigend sortiert und in R eingelesen. Hier nochmals mit <Code>
Code: Alles auswählen
> mode <- read.xls("Damenmode.xls")
> mode
   Parfum Absatz Kleid
1       1      1     1
2       1      1     1
3       1      1     1
4       1      1     1
5       1      1     1
6       1      1     1
7       1      1     0
8       1      1     0
9       1      0     1
10      0      1     1
11      0      1     0
12      0      0     1
13      0      0     0
14      0      0     0
15      0      0     0
16      0      0     0

Für die Auswertung bin ich deinem Rat folgend auf die glm()-Funktion gestoßen und habe um schnell ein auf Plausibilität leicht überprüfbares Ergebnis zu erhalten die UV wie dargestellt unabhängig voneinander ausgewertet.

Ich bin mit dir einer Meinung, dass additive Wirkungen wahrscheinlich sind, aber es geht ja hier nicht um eine wissenschaftliche Arbeit und ich möchte erst einmal klären, ob und wie die Daten erhebbar sind und deren Qualität prüfen, bevor ich über weitere Auswertungsmöglichkeiten nachdenke. Die Beobachtungen sollen von mehreren Angestellten gemacht werden. Wenn eine Hose ankreuzt und die andere Kleid, brauchen wir erst gar nicht weiterzumachen ;)

Trotzdem vorab, was wäre denn hier ein Beispiel einer "überadditiven" Wirkung?
lg Peter
windsor
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 3. Sep 2015, 11:09
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Wie Zusammenhang zwischen binären Variablen testen?

Beitragvon windsor » Mo 7. Sep 2015, 11:50

@PonderStibbons: Vielen Dank, die Antworten haben sich überschnitten.

Unsere "hellsehende" Verkäuferin konnte anfangs gar nicht sagen, warum sie das weiß. Erst nach mehreren Befragungen und Beobachtungen haben sich 8 Merkmale herauskristallisiert, die wir jetzt testen wollen.

lg Peter
windsor
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 3. Sep 2015, 11:09
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Wie Zusammenhang zwischen binären Variablen testen?

Beitragvon bele » Mo 7. Sep 2015, 15:17

Hallo!

windsor hat geschrieben:... dachte ich, die Simulation eigentlich nachvollziehbar dargestellt zu haben. Die Daten habe ich mir ausgedacht...

Der Teil mit dem Ausdenken war mir nicht klar. Ich dachte, Du hättest einen Algorithmus dafür programmiert. Alles klar.

...und habe um schnell ein auf Plausibilität leicht überprüfbares Ergebnis zu erhalten die UV wie dargestellt unabhängig voneinander ausgewertet.

Deine Auswertung ist deskriptiv, nicht prüfend. Wenn Du die Beobachtungen je einzeln prüfen möchtest böte sich je eine Vierfeldertafel und ein Chiquadrat-Test an.

Die Daten habe ich mir ausgedacht und so gewählt, dass Zusammenhänge bestehen, eben 80% bzw. 78%, dann in Excel eingegeben, zwecks besserer Überschaubarkeit absteigend sortiert und in R eingelesen.

Dann wird es Zeit zu lernen, wie man Daten in R eingibt und in R sortiert. Aber das lenkt jetzt ab. Die Empfehlung ist aber trotzdem total ernst gemeint.
http://www.biomedcentral.com/1471-2105/5/80
https://datapub.files.wordpress.com/201 ... -excel.jpg


Trotzdem vorab, was wäre denn hier ein Beispiel einer "überadditiven" Wirkung?

Hmm, mal sehen. Nicht zwingend überadditiv aber ein plausibles Beispiel einer Interaktion. Nehmen wir mein Modell, dass manche Frauen praktisch, andere feminin auftreten wollen. Dann gilt der Rock vielleicht als feminin, die Hose als praktisch. Einverstanden? Wenn Du jetzt aber an die Kombination aus hohen Absätzen und Hose denkst, dann ist das eine ausgefallene Kombination und die Hose ist wahrscheinlich nicht einfach eine Hose sondern ein modisches Statement. Vielleicht ein auf Taille geschnittener Anzug oder in jedem Fall ein geplanter Hingucker. "Hose" verändert also die Wirkrichtung, wenn sie gemeinsam mit "hohe Absätze" auftritt. Ich hoffe, das ist jetzt nachvollziehbar und ich muss nichts in die Macho-Kasse zahlen.
Also ein anderes Beipspiel für Überadditivität. Normalerweise brennt es an Arbeitsplätzen nicht. Die Gefahr für einen Brand steigt etwas, wenn ständig Benzindämpfe in der Luft sind. Die Gefahr steigt auch etwas, wenn die Mitarbeiter rauchen. Sind aber ständig Benzindämpfe in der Luft und die Mitarbeiter Rauchen, dann steigt die Brandgefahr nicht "zweimal etwas" sondern ganz enorm mehr. So etwas könnte man in einem glm mit Interaktionen untersuchen.

Es ist aber völlig ok, sich zunächst mit einfachen Analysen an ein komplexeres Modell heranzutasten.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 10 Gäste

cron