Was Dein Betreuer da im Sinn hat scheint mir relativ kompliziert. Ich weiß auch nicht wozu er/sie so vorgehen will. Macht er/sie denn im Alltag viel mit multivariaten Verfahren?
Scheint mir in Richting einer Instrumentenvariablenschätzung zu gehen. Sollte das der Fall sein muss man sich Gedanken über die Annahmen dahinter machen. Vielleicht kann noch jemand anders meine Kommentare kommentieren.
Fanny hat geschrieben:Schritt 1: Aus allen möglichen Faktoren (außer Silbigkeit), finde nur die Faktoren, die die Dauer beeinflussen, d.h. als Prädiktoren fungieren. (Benutze lm() mit jeweils einem Prädiktor gleichzeitig, also z.B. lm(dauer ~ sprechgeschwindigkeit, data: durationTable))
Das ist m.E. in zweierlei Hinsicht sub-optimal. Erstens ist eine Regression völlig überflüssig, wenn Du lediglich einen Prädikator hast, weil es da auch eine einfache Korrelation tut. Bei nicht-metrsichen Prädikatoren ist die Regression evtl. leichter umzusetzen, aber im Prinzip ist das überflüssig. Zweitens bin ich (wie viele andere) der Meinung, dass eine Schrittweise, explorative suche nach signifikanten Prädikatoren zu falschen Ergebnissen führen kann (Stichwort z.B. "multiple Tests").
Schritt 1b: Finde Korrelationen zwischen den möglichen Faktoren (so können dann Faktoren ausgeschlossen werden, die nur auf den Einfluss eines anderen signifikanten Faktors zurückzuführen sind) , füge Residuen hinzu zu z.B. lm(dauer ~ sprechgeschwindigkeit, data: durationTable). [Dieser Punkt mit den Residuen ist mir total unklar]
Ist mir auch unklar wozu man den Weg über Residuen gehen soll. Das ist m.E. viel zu kompliziert. Wenn Du alle theoretisch(!) wichtigen Faktoren in ein einziges Modell steckst bekommst Du das gleichze Ergebnis in einem Schritt.
Schritt 2: Finde Interaktionen zwischen den übriggebliebenen unabhängigen Variablen, wenn nötig. [ich bin mir nicht sicher, was das heißt. Ich gehe einmal davon aus, dass ich in diesem Fall Interaktionen zwischen den Variablen, die bei Schritt 1b übriggeblieben sind, als Prädiktoren in lm() verwenden soll.]
Verstehe ich auch nicht wirklich. Nur zur Sicherheit: Interaktionen werden als Multiplikation der Variablen umgesetzt. Ein Beispiel wäre folgendes. Du findest, dass "Sprechgeschwindigkeit" und "Position im Satz" jeweils einen (additiven) Effekt auf die Dauer haben. Eine Interaktion der beiden Variablen wäre gegeben, wenn die Sprechgeschwindigkeit sich stärker (oder schwächer) auf die Dauer auswirkt, je weiter hinten(oder vorn) im Satz das Wort steht -- und umgekehrt.
Sowas explorativ zu probieren, scheint mir super aufwändig bis nicht durchführbar, bedenkt man, dass auch Dreifachinteraktion, Quadrierte-Terme etc. getestet werden könnten (und sollen?) und Du einige nicht-metrische Variablen hast. Die Zahl der geschätzen Parameter wird bei einer Interaktion (oder gar Dreifachinteraktion) von "Sprecher", "Wortart" und "Wort" (solltest Du das als Kovariate einschließen wollen) schnell ins Unendliche schießen und selbst bei Deinen Fallzahlen problematisch werden. Des Weiteren gilt die Kritik unter 1a zur schrittweise "Signifikanzsuche". Vielleicht sollte ich dazu noch sagen, dass ich bei der Fallzahl erwarten würde, dass ohnehin nahezu alle Variablen aus Schritt 1 statistisch sigifikant werden.
Schritt 3: Sobald das beste Modell gefunden wurde, erzeuge ein Residuum der Dauer basierend auf dem besten Modell, dann benutze glm(Silbigkeit ~ residuum, familiy=binomial)
Scheint mir ebenfalls zu kompliziert. Vielleicht kann mir jemand sagen, wo der Vorteil der (aufwendigen) Verwendung der Residuen gegenüber einem einzigen (logit) Modell, das die Silbigkeit in abhängigkeit der Dauer und allen weiteren relevanten Variablen abbildet liegt?
Insgesamt scheint mir das Vorgehen zu explorativ, aber es kann natrülich gut sein, dass die Theorie nicht viel hergibt, das weiß ich nicht. Sollte das so sein, bleibt einem häufig nicht viel anderes übrig, als explorativ vorzugehen.
@Berrnhard
Wenn ich über die Vor- und Nachteile der Modelle nachdenke würde ich sagen, ein lineares Modell, mit Silbigkeit als Prädikator der Dauer (unter Kontrolle weiterer Kovariaten) hat den großen Vorteil, dass der Effekt der Silbigkeit nur dann durch vernachlässigte Variablen verzerrt wird, wenn diese Variablen sowohl mit Dauer als auch mit Silbigkeit korrelieren. Im Logit-Modell hast Du das Problem, dass jede Variable die mit Silbigkeit korreliert die Koeffizienten im Modell verzerrt. Zudem ist ein fixed effects Ansatz im linearen Modell leichter/intuitiver umzusetzen.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.