Hallo zusammen,
ich habe Probleme bei der Methodenwahl für die Berechnung von Korrelationen/Signifikanztests, die ich nachfolgend anhand eines Beispiels beschreibe:
angenommen ich betreibe eine Webseite, bei der sich die User mit einem Klick auf einen Butten einen Gutschein zuschicken lassen können. Jeder Klick auf den Button löst einen Prozess auf der Webseite aus, dessen Bearbeitung mehrere Sekunden dauert und am Ende dazu führt, dass dem User der Gutschein zugeschickt wird. Mich interessiert jetzt, ob es einen Zusammenhang zwischen der Anzahl der Klicks und der Dauer der Prozessbearbeitung gibt und wenn ja, welche Richtung dieser Zusammenhang hat. Als Datengrundlage stehen mir dafür die Anzahl der Klicks pro Stunde sowie die durchschnittliche Verarbeitungsgeschwindigkeit pro Klick in Sekunden für die letzten 24h zur Verfügung:
h Zeit Klicks
1 3,814 53
2 3,890 15
3 3,901 37
4 3,945 11
5 3,969 221
6 4,037 38
7 4,138 217
8 4,252 200
9 4,316 249
10 4,320 292
11 4,352 250
12 4,392 242
13 4,413 237
14 4,516 269
15 4,518 264
16 4,525 265
17 4,530 66
18 4,536 184
19 4,551 267
20 4,591 126
21 4,683 244
22 4,691 283
23 4,716 69
24 4,824 275
Bei Betrachtung der Daten zeigt sich, dass die Verarbeitungszeit zwar normalverteilt ist aber nicht die Anzahl der Klicks. Um den Zusammenhang zu untersuchen, habe ich deshalb den Spearman-Korrelationskoeffizienten berechnet.
Ich stehe gerade vor dem Problem, dass ich nicht genau weiß, welchen Signifikanztest ich verwenden soll. Aktuell benutze ich den t-test aber da der ja eigentlich eine Normalverteilung voraussetzt, diese bei der Anzahl der Klicks aber nicht gegeben ist, will ich ein passenderes Verfahren verwenden (auch wenn der t-test robust auf Verletzung der Normalverteilungsanforderung reagieren soll) . Hier fiel mein Blick auf den Mann-Whitney-U-Test. Hier habe ich aber zweierlei Schwierigkeiten:
1. In den Beispielen, die ich bisher zum Test gesehen habe, war immer mindestens eine Variable nominal- oder ordinalskaliert, was dann beim Bilden der Ränge dazu geführt hat, dass diese Variable "ignoriert" und die Rangbildung anhand der anderen intervallskalierten Variablen erfolgt ist. Wie mache ich das, wenn ich zwei metrische Variablen wie in meinem Beispiel habe?
2. Ich bin mir nicht sicher, ob die Anwendung des Mann-Whitney-U-Test überhaupt korrekt wäre, weil dieser ja für den Vergleich von zwei unabhängigen Stichproben gedacht ist. Ich bin mir bei meinen Daten um ehrlich zu sein nicht sicher, was genau hier als Stichprobe zu betrachten ist.
Kann mir bitte jemand weiterhelfen?
Grüße