Hallo,
ich bin Anfänger möchte gern analysieren, welche Features in meinem Datensatz signifikanten Einfluss auf meine unabhänige Variable (Teilnehmerzahlen) haben. Konkret geht es um Teilnehmer an Fitnesskursen. Meine Variablen sind wie folgt:
- Club ("Club A", "Club B", ...)
- Programm ("Programm A", "Programm B", ...)
- Trainer ("Jens", "Thomas", "Sonja", ...)
- Tag ("Montag", "Dienstag", ...)
- Uhrzeit (11, 12, 13, ...)
- Anzahl Kursteilnehmer(0-50)
Dabei möchte ich gern Fragen beantworten wie:
1. Zieht Jens mehr Teilnehmer an als Sonja?
2. Zieht das Programm A mehr Teilnehmer an als das Programm B?
3. Welcher Tag zieht am meisten Teilnehmer an?
Ich würde versuchen, dies mit Hilfe einer linearen Regression zu lösen, bei der ich die Variablen in binäre dummy-Variablen umwandele. Ist das der richtige Weg? Gibt es ggfs. bessere Verfahren und worauf muss ich bei der Anwendung achten?
Danke im Voraus für Eure Hinweise!
Viele Grüße!
Kilian