im Rahmen meiner Masterarbeit analysiere ich aktuell die Daten aus einer Umfrage zum Thema 'Einfluss psychologischer Faktoren auf das Radfahren'. Konzeptionell orientiere ich mich an einem Paper (https://www.sciencedirect.com/science/article/pii/S1361920910001306).
Darin werden (u.a.) 6 Prädiktoren auf die dichotome Variable Radfahrer (R) = 1 oder Nicht-Radfahrer (NR) = 0 regressiert. Die 6 Prädiktoren sind: Gewohnheit (G), subjektive Norm (SN), wahrgenommene Verhaltenskontrolle (WVK) und 3 Faktoren (FAC 1-3), die Einstellungen darstellen und aus einer Faktoranalyse mit 14 Items entstammen.
Nach der Datenbereinigung habe ich N=451, wobei R = 344 und NR = 107.
Meine Fragen betreffen a) die Voraussetzungen und b) die Auswertung.
a) Geprüft habe ich die Voraussetzungen:
- unabhängige Beobachtungen,
- UV intervallskaliert (alle Prädiktoren außer Gewohnheit über 5-stufige Likert Skala, daher ja;
- Ausreißer,
- Multikollinearität,
- Linearität
- Stichprobengröße,
- Y-Werteverteilung
Die ersten vier sind erfüllt, wobei es bei den Ausreißern je nach Bewertungskriterien (Cooks-Distanz, Hebel, SResid ...) unterschiedliche Ergebnisse gab. Nach Abwägung von Vor/Nachteilen habe ich mich entschieden, etwaige Ausreißer drin zu lassen.
Frage 1) Linearität: Angewandt habe ich den Box-Tidwell Test. Da die Werte der UV dabei logarithmiert werden und die Einstellungen bzw. die 3 Faktoren, die Einstellungen darstellen, auch negative Werte enthielten, habe ich FAC 1-3 transformiert, sodass min(FAC1-3)=1. also alle Werte positive sind. --> Kann ich das so machen und ist der Test damit noch aussagekräftig? Wenn ja, ist Linearität gegeben und die Voraussetzung erfüllt. Wenn nein - was kann ich stattdessen machen?
Frage 2) Stichprobengröße und Y-Werteverteilung: Als Fuastregel habe ich pro Prädiktor 10 Beobachtungen gefunden. Das wäre bei beiden Gruppen gegeben. Fraglich ist jedoch, ob die Y-Werteverteilung problematisch und zu unbalanciert ist? Dazu finde ich leider keine verlässlichen Quellen.
b) Auswertung in SPSS
Die erste Auswertung der Daten ist im Bildanhang zu sehen (Omnibus, Nagelkerkes R^2 und Hosmer-Lemeshow Test geprüft).
Der 1. Output unterscheidet sich stark von dem aus dem Paper, da nur 2 von 6 signifikant sind, während im Paper 5 von 6 signifikant. Ich habe einen ähnlichen Output erwartet, da in dem Paper eine Umfrage in den Niederlanden gemacht wurde und meine Umfrage in Münster stattfand, einer ebenfalls etablierten Fahrradstadt. Mir ist bewusst, dass so ein Ergebnis durchaus möglich ist - ich versuche allerdings, mögliche Erklärungen zu suchen.
Im 2. Output habe ich die WVK-Variable rausgenommen und für die übrigen UV signifikante Werte erhalten, die dem Original Paper ähneln (s. Anhang).
Frage 3) Wie soll ich damit umgehen? Kann ich genau so ein Vorgehen mit Outputs ein der Arbeit beschreiben und begründen? Fallen euch mögliche Erklärungen ein oder sind diese eher über den Inhalt und die Bedeutung der Variablen zu suchen?
Ich hoffe, meine Probleme sind soweit nachvollziehbar. Falls ihr weitere Angaben braucht, kann ich gerne Outputs oder Datensätze zur Verfügung stellen.
Vielen Dank im Voraus,
Nico
EDIT: Der Dateianhang hat nicht funktioniert, mein Kontingent ist scheinbar vollständig ausgenutzt (?)