Hallo,
ich rechne eine multiple lineare Regression im Rahmen einer Fragebogenstudie und prüfe dafür die Regressionsvoraussetzungen, deren Sinn ich (tatsächlich!) versuche zu verstehen:
1) Bei üblichen Listen der Voraussetzungen wird aufgeführt, dass auf "Lineare Beziehungen zwischen den Variablen" zu testen ist. Das verstehe ich nicht. Wenn das Ziel der Rechnung doch ist, zu ermitteln, ob ein linearer Zusammenhang vorhanden ist (Signifikanztest) und wie hoch dieser Effekt ist (R² und Gewichte), wie kann die Linearität dann notwendige Bedingung sein um diese Rechnung durchführen zu dürfen? Mir ist schon klar, dass ich das Vorhandensein eines nichtlinearen Zusammenhangs verpassen könnte. Aber wenn meine Hypothese lautet "Es gibt einen linearen Zusammenhang" und nur zu entscheiden ist, ob diese zutrifft oder nicht, dann muss ich diese Voraussetzung doch nicht testen um meine Rechnungen durchführen zu können, oder irre ich mich?
2) Mit dem Test auf Autokorrelation weiß ich auch noch nicht so ganz, wie ich damit umgehen soll. Ich habe gelesen, dass dies bei Zeitreihenanalysen und bei räumlicher Nähe der Beteiligten relevant ist. Ich habe nur einen Erhebungszeitpunkt, die befragten Schüler sitzen allerdings schon nebeneinander und könnten sich (obwohl Abschauen verboten war) gegenseitig beeinflusst haben. Meine VP-Nummern spiegeln die Sitzreihenfolge allerdings nur teilweise wieder, weil die Bögen teils durcheinander eingesammelt wurden. Muss ich auf Autokorrelation denn überhaupt testen?
Ich habe es mal getan. Dann muss ich allerdings entscheiden, welche Werte der Durbin-Watson Statistik noch ok sind und welche nicht mehr. Ich habe von Faustregeln mit "1,5 - 2,5 ist ok" gelesen und anderen Quellen, die davon überhaupt nichts hielten und auf die Tabellen verwiesen haben. Wenn ich mit diesen Tabellen aber streng rechne (Alpha=.05, bei N=150 und k=6 Prädiktoren), dann darf mein d schon nicht kleiner als 1.817 werden, um Autokorrelation noch ausschließen zu können. Ich kriege mit meinen Daten aber öfter mal Werte von d=1.776 oder einmal sogar 1.668. Ist die Existenz solcher Werte denn für die Regression ein Problem? Oder würde es vielleicht schon helfen, wenn ich die Daten einfach nach einem anderen Merkmal sortiere (und damit bessere Werte für d bekomme)? Oder ist es gar umgekehrt: Müsste ich eigentlich für sämtliche Sortierungen die Durbin-Watson Statistik prüfen und wenn es irgendwo einen niedrigen Wert gibt, hab ich schon verloren?
Vielen Dank für jede Bemühungen, die etwas Licht in meine Gedanken bringen!