daniel hat geschrieben:Was Dein Betreuer da im Sinn hat scheint mir relativ kompliziert. Ich weiß auch nicht wozu er/sie so vorgehen will. Macht er/sie denn im Alltag viel mit multivariaten Verfahren?
Sie hat mir gesagt, dass sie kein Experte ist. Also, sie hat schon lineare Modelle benutzt, ist aber kein Profi. Sie fragt jetzt nochmal für mich ein paar Kollegen des Instituts, aber die sind momentan alle sehr beschäftigt wegen Deadlines für Artikel. Sie selbst ist jetzt im Urlaub. Und ich will (und kann zeitlich gesehen) in der Zeit nicht warten und Däumchen drehen
Fanny hat geschrieben: Schritt 2: Finde Interaktionen zwischen den übriggebliebenen unabhängigen Variablen, wenn nötig. [ich bin mir nicht sicher, was das heißt. Ich gehe einmal davon aus, dass ich in diesem Fall Interaktionen zwischen den Variablen, die bei Schritt 1b übriggeblieben sind, als Prädiktoren in lm() verwenden soll.]daniel hat geschrieben: Verstehe ich auch nicht wirklich. Nur zur Sicherheit: Interaktionen werden als Multiplikation der Variablen umgesetzt. Ein Beispiel wäre folgendes. Du findest, dass "Sprechgeschwindigkeit" und "Position im Satz" jeweils einen (additiven) Effekt auf die Dauer haben. Eine Interaktion der beiden Variablen wäre gegeben, wenn die Sprechgeschwindigkeit sich stärker (oder schwächer) auf die Dauer auswirkt, je weiter hinten(oder vorn) im Satz das Wort steht -- und umgekehrt.
Sowas explorativ zu probieren, scheint mir super aufwändig bis nicht durchführbar, bedenkt man, dass auch Dreifachinteraktion, Quadrierte-Terme etc. getestet werden könnten (und sollen?) und Du einige nicht-metrische Variablen hast. Die Zahl der geschätzen Parameter wird bei einer Interaktion (oder gar Dreifachinteraktion) von "Sprecher", "Wortart" und "Wort" (solltest Du das als Kovariate einschließen wollen) schnell ins Unendliche schießen und selbst bei Deinen Fallzahlen problematisch werden. Des Weiteren gilt die Kritik unter 1a zur schrittweise "Signifikanzsuche". Vielleicht sollte ich dazu noch sagen, dass ich bei der Fallzahl erwarten würde, dass ohnehin nahezu alle Variablen aus Schritt 1 statistisch sigifikant werden.
Ja, das stimmt. Wenn ich für jeden Faktor eine einzelne Regression mache, dann sind sie alle signifikant, bis auf ein oder zwei.
daniel hat geschrieben:Insgesamt scheint mir das Vorgehen zu explorativ, aber es kann natrülich gut sein, dass die Theorie nicht viel hergibt, das weiß ich nicht. Sollte das so sein, bleibt einem häufig nicht viel anderes übrig, als explorativ vorzugehen.
Zur Theorie: Die einzelnen Faktoren hängen mit der Dauer eines Wortes zusammen. Hinzu kommt, dass in psycholinguistischen Studien bewiesen wurde, dass die Dauer die Interpretation als einsilbiges Wort oder Teil eines mehrsilbigen Wortes bestimmt. Dies wurde aber nur für wenige Fälle gemacht und es handelte sich um eigens dafür aufgenommene Sprachdaten. Meine Aufgabe ist es, zu testen, ob sich die Silbigkeit auch in normaler Alltagssprache auf die Dauer des einsilbigen Wortes bzw der ersten Silbe eines mehrsilbigen auswirkt. Das heißt also, solch ein exploratives Vorgehen wäre gar nicht notwendig, da die Faktoren theoretisch begründet sind, oder? Würde ich also in dem Falle direkt eine Regression mit allen Faktoren machen? Und dann könnte ich sehen, welchen Einfluss die Silbigkeit auf die Dauer hat, wenn man alle anderen Faktoren konstant hält. Könnte ich dadurch auch schauen, ob sich Wörter aufgrund ihrer Dauer in einsilbig oder als die erste Silbe eines mehrsilbigen Wortes klassifizieren lassen?
(Anmerkung, damit sich später nicht irgendjemand beschwert : Silbigkeit ist bestimmt kein fachlich richtiger Begriff, ich hab das hier mal so benannt, damit wir nicht immer "einsilbiges oder erste Silbe eines mehrsilbigen Wortes" schreiben müssen)