Hallo liebes Statistik-Forum,
ich sitze zur Zeit an einer Datenanalyse für meine Bachelorarbeit. Leider weiß nicht wohin ich noch mit meinen Fragen gehen soll, weshalb ich mich an euch wende.
Der letzte Statistik-Kurs ist leider auch schon einige Semester her und eine Datenanalyse habe ich noch nie durchgeführt. Ich würde einfach mal mein Problem hier darlegen und vielleicht findet sich ja jemand der sich meinem Problem annehmen könnte.
Zu meinem Datensatz:
Er enthält ca. 8700 Y-Variablen und ca. 6.3 Millionen Beobachtungen in diesen Y-Variablen. Insgesamt liegen 12 X-Variablen vor. Die Y-Variablen sind verschiedene Computerspiele, die in einem Zeitraum von 2015-2018 gemessen wurde, also zu jedem Tag gibt es Beobachtungen zu den 12 X-Variablen. Mein erster Gedanke war, dass der Datensatz eine Zeitreihe ist. Aber das ist Problematisch, da einige Spiele (Y-Variablen) z.B. nur in einem Zeitraum von 2016-2018 gemessen wurden. Das bedeutet, dass die verschiedenen Spiele unterschiedliche Zeiträume der Messung haben.
Aufgabe ist es einen Effekt von Updates auf das Verhalten von Spielern nachzuweisen. Dabei habe ich verschiedenen X-Variablen, wie z.B. die durchschn. Spielzeit eines Users, die Median Spielzeit eines Users, die täglichen Spieler, die Gesamtanzahl der Besitzer dieses Spiels und die Pos/Neg-Bewertung dieses Spiels an diesem Tag. In meinen Augen ist die wichtigste X-Variable die, in der die Größe des Updates (in Bytes) steht. Mein Prof. sagte zu mir, ich soll den Datensatz in eine Dummy Variable umformen und versuchen verschiedene Spiele in 2 Gruppen zu sortieren. Besonderen Wert legt er anscheinend auf die Update-Größe und auf die Anzahl der Updates eines Spieles.
Meine Frage dazu: Ist es möglich einen Zeitreihendatensatz so zu gruppieren, dass man eine Gruppe mit der dummy Variablen 0=Spiele mit großen Updates und 1=Spiele mit kleinen Updates erhält?
Wenn ich meinen Prof. richtig verstanden habe möchte er eher weniger ein Zeitreihenmodell.
Ich hoffe ihr könnt mein Problem verstehen bzw. mir Tipps geben wir ich diesen riesigen Datensatz bändigen kann und auf verwertbare Ergebnisse komme.
Falls ihr noch spezifischere Infos braucht sagt bitte bescheid, ich versuche mein Bestes.
Danke und viele Grüße
Chris