Anfänger und Datenanalyse

Fragen, die sich auf kein spezielles Verfahren beziehen.

Re: Anfänger und Datenanalyse

Beitragvon Fanny » Fr 14. Okt 2011, 13:38

daniel hat geschrieben:Was Dein Betreuer da im Sinn hat scheint mir relativ kompliziert. Ich weiß auch nicht wozu er/sie so vorgehen will. Macht er/sie denn im Alltag viel mit multivariaten Verfahren?

Sie hat mir gesagt, dass sie kein Experte ist. Also, sie hat schon lineare Modelle benutzt, ist aber kein Profi. Sie fragt jetzt nochmal für mich ein paar Kollegen des Instituts, aber die sind momentan alle sehr beschäftigt wegen Deadlines für Artikel. Sie selbst ist jetzt im Urlaub. Und ich will (und kann zeitlich gesehen) in der Zeit nicht warten und Däumchen drehen ;-)

Fanny hat geschrieben: Schritt 2: Finde Interaktionen zwischen den übriggebliebenen unabhängigen Variablen, wenn nötig. [ich bin mir nicht sicher, was das heißt. Ich gehe einmal davon aus, dass ich in diesem Fall Interaktionen zwischen den Variablen, die bei Schritt 1b übriggeblieben sind, als Prädiktoren in lm() verwenden soll.]

daniel hat geschrieben: Verstehe ich auch nicht wirklich. Nur zur Sicherheit: Interaktionen werden als Multiplikation der Variablen umgesetzt. Ein Beispiel wäre folgendes. Du findest, dass "Sprechgeschwindigkeit" und "Position im Satz" jeweils einen (additiven) Effekt auf die Dauer haben. Eine Interaktion der beiden Variablen wäre gegeben, wenn die Sprechgeschwindigkeit sich stärker (oder schwächer) auf die Dauer auswirkt, je weiter hinten(oder vorn) im Satz das Wort steht -- und umgekehrt.
Sowas explorativ zu probieren, scheint mir super aufwändig bis nicht durchführbar, bedenkt man, dass auch Dreifachinteraktion, Quadrierte-Terme etc. getestet werden könnten (und sollen?) und Du einige nicht-metrische Variablen hast. Die Zahl der geschätzen Parameter wird bei einer Interaktion (oder gar Dreifachinteraktion) von "Sprecher", "Wortart" und "Wort" (solltest Du das als Kovariate einschließen wollen) schnell ins Unendliche schießen und selbst bei Deinen Fallzahlen problematisch werden. Des Weiteren gilt die Kritik unter 1a zur schrittweise "Signifikanzsuche". Vielleicht sollte ich dazu noch sagen, dass ich bei der Fallzahl erwarten würde, dass ohnehin nahezu alle Variablen aus Schritt 1 statistisch sigifikant werden.


Ja, das stimmt. Wenn ich für jeden Faktor eine einzelne Regression mache, dann sind sie alle signifikant, bis auf ein oder zwei.


daniel hat geschrieben:Insgesamt scheint mir das Vorgehen zu explorativ, aber es kann natrülich gut sein, dass die Theorie nicht viel hergibt, das weiß ich nicht. Sollte das so sein, bleibt einem häufig nicht viel anderes übrig, als explorativ vorzugehen.

Zur Theorie: Die einzelnen Faktoren hängen mit der Dauer eines Wortes zusammen. Hinzu kommt, dass in psycholinguistischen Studien bewiesen wurde, dass die Dauer die Interpretation als einsilbiges Wort oder Teil eines mehrsilbigen Wortes bestimmt. Dies wurde aber nur für wenige Fälle gemacht und es handelte sich um eigens dafür aufgenommene Sprachdaten. Meine Aufgabe ist es, zu testen, ob sich die Silbigkeit auch in normaler Alltagssprache auf die Dauer des einsilbigen Wortes bzw der ersten Silbe eines mehrsilbigen auswirkt. Das heißt also, solch ein exploratives Vorgehen wäre gar nicht notwendig, da die Faktoren theoretisch begründet sind, oder? Würde ich also in dem Falle direkt eine Regression mit allen Faktoren machen? Und dann könnte ich sehen, welchen Einfluss die Silbigkeit auf die Dauer hat, wenn man alle anderen Faktoren konstant hält. Könnte ich dadurch auch schauen, ob sich Wörter aufgrund ihrer Dauer in einsilbig oder als die erste Silbe eines mehrsilbigen Wortes klassifizieren lassen?
(Anmerkung, damit sich später nicht irgendjemand beschwert ;-): Silbigkeit ist bestimmt kein fachlich richtiger Begriff, ich hab das hier mal so benannt, damit wir nicht immer "einsilbiges oder erste Silbe eines mehrsilbigen Wortes" schreiben müssen)
Fanny
Beobachter
Beobachter
 
Beiträge: 10
Registriert: Mi 12. Okt 2011, 14:19
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Anfänger und Datenanalyse

Beitragvon bele » Fr 14. Okt 2011, 15:20

@daniel: Danke für die Erläuterung. Ich werde in mich gehen und zu verstehen versuchen.

@Fanny:
Fanny hat geschrieben:Und dann könnte ich sehen, welchen Einfluss die Silbigkeit auf die Dauer hat, wenn man alle anderen Faktoren konstant hält. Könnte ich dadurch auch schauen, ob sich Wörter aufgrund ihrer Dauer in einsilbig oder als die erste Silbe eines mehrsilbigen Wortes klassifizieren lassen?
Die Regression ist keine Klassifikationsanalyse. Verstehe ich richtig, dass Du versuchen willst an einer Dauer von z. B. 200ms ohne weitere Information die "Silbigkeit" vorherzusagen? Einen Ansatz hierfür könnte Dir die Funktion rpart {rpart} geben. Diese ist dazu da, Klassifikationsbäume zu erstellen. Falls nicht einer der Statistiker hier was anderes sagt schlage ich vor:

- Teile Deinen Datensatz zufällig in eine Trainings- und einen Testdatensatz.
- Finde mit rpart den besten Cutoff-Wert im Trainingsdatensatz
- Berechne wie gut dieser Cutoff den Testdatensatz klassifiziert

Gruß,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5916
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1399 mal in 1385 Posts

Re: Anfänger und Datenanalyse

Beitragvon Fanny » Fr 14. Okt 2011, 16:30

bele hat geschrieben:Verstehe ich richtig, dass Du versuchen willst an einer Dauer von z. B. 200ms ohne weitere Information die "Silbigkeit" vorherzusagen? Einen Ansatz hierfür könnte Dir die Funktion rpart {rpart} geben.


Okay, danke. Das könnte ich dann hinterher auch mal probieren. Ich meinte aber nicht, ohne weitere Information vorhersagen, sondern unter Einbeziehung der Faktoren, da man ja 200ms nicht pauschal beurteilen kann (wegen der Sprechgeschwindigkeit usw.).
Ich glaube, ich werfe da noch einiges durcheinander. Es geht mir vorrangig schon um das Modell das ich mithilfe von Regression berechnen möchte. Das mit der Klassifizierung wäre ein zweiter Schritt, ist aber erstmal unwichtig.
Fanny
Beobachter
Beobachter
 
Beiträge: 10
Registriert: Mi 12. Okt 2011, 14:19
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Anfänger und Datenanalyse

Beitragvon daniel » Fr 14. Okt 2011, 16:44

Das wird/ist ja richtig interessant. Ich hoffe es wird nicht zu verwirrend für Dich. Ich bin jedenfalls noch immer sehr verwirrt, was die Forschungsfrage angeht und welches Modell ich dann (intuitiv) verwenden würde.

[...]Meine Aufgabe ist es, zu testen, ob sich die Silbigkeit auch in normaler Alltagssprache auf die Dauer des einsilbigen Wortes bzw der ersten Silbe eines mehrsilbigen auswirkt.

Also m.E. ist für diese Fragestellung ein lineares Modell, indem Dauer auf Silbigkeit unter Kontrolle weiterer Kovariaten regressiert wird, das passende.Du willst ja den Einfluss der Silbigkeit auf die Dauer schätzen.

Hinzu kommt, dass in psycholinguistischen Studien bewiesen wurde, dass die Dauer die Interpretation als einsilbiges Wort oder Teil eines mehrsilbigen Wortes bestimmt. Dies wurde aber nur für wenige Fälle gemacht und es handelte sich um eigens dafür aufgenommene Sprachdaten.

Da Du keine Interpretation gemessen hast, sondern ob es sich tatsächlich um ein einsilbiges oder ein mehrsilbiges Wort handelt, ist es für mich fraglich, wie man Fragen bezüglich der Interpretation mit diesem Daten beantworten soll. Dazu müsste man m.E. die Worte (oder Silben) Personen vorspeilen. Diese Personen müssten dann eine Klassifiziereung vornehmen. Diese Klassifizierung der VPs (ein - oder mehrsilbig) müsste dann das outcome sein, nicht die objektive Informationen, ob das Wort ein- oder mehrsilbig ist.
Kleine Anmerkung noch nebenbei: versuch das Wort "Beweis" nicht zu verwenden. Beweisen kann man etwas in der Mathematik. In den Naturwissenschaften ist das streng genommen schon nicht mehr möglich und von den Geistes- und Humanwissenschaften brauchen wir gar nicht reden. Schreib besser etws wie "Studien haben belegt ..." oder "es wurde empirisch nachgewiesen".

Zur Theorie: Die einzelnen Faktoren hängen mit der Dauer eines Wortes zusammen. [...] Das heißt also, solch ein exploratives Vorgehen wäre gar nicht notwendig, da die Faktoren theoretisch begründet sind, oder?

Das ist zwar nun weniger eine theoreigeleitete Begründung, als vielmehr ein Anknüpfen an bereits vorhandenen empirische Ergebnisse, aber dennoch ist m.E. ein exploratives Vorgehen dann nicht notwendig.

Würde ich also in dem Falle direkt eine Regression mit allen Faktoren machen? Und dann könnte ich sehen, welchen Einfluss die Silbigkeit auf die Dauer hat, wenn man alle anderen Faktoren konstant hält.

Jein. Ja zum ersten Teil, nein zum zweiten. Wie gesagt würde ich nicht Silbigkeit als outcome verwenden, sondern Dauer. Du spezifizierst also ein lineares Modell der Form

Dauer = b0 + b1*Silbigkeit + bX + e

wobei X alle weiteren Kovariaten (insb. "Wort") enthält.

Könnte ich dadurch auch schauen, ob sich Wörter aufgrund ihrer Dauer in einsilbig oder als die erste Silbe eines mehrsilbigen Wortes klassifizieren lassen?

Das ist, wie gesagt, m.E. eine andere Fragestellung. Siehe Antwort von Bernhard.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Anfänger und Datenanalyse

Beitragvon Fanny » Mo 17. Okt 2011, 10:43

Hallo,

erstmal danke für die Hinweise in Bezug auf Beweis usw. Obwohl mir das theoretisch klar ist, benutze ich die Begriffe praktisch doch oft falsch, Macht der (schlechten) Gewohnheit ;-) Werde das nochmal in meinem MA Texten kontrollieren.

Ich glaube, das Problem, warum ich meine Fragestellung nicht vernünftig erklären kann, ist, dass ich selbst nicht ganz sicher bin. Ich habe jedes Treffen mit meiner Betreuerin mitgeschrieben, und in Richtung der Forschungsfrage unterschiedliche Mitschriften:

Einmal: Gegeben seien eine Dauer und die anderen Faktoren (außer Silbigkeit), entscheide ob es ein einsilbiges oder die erste Silbe eines mehrsilbigen Wortes ist.
=> Das würde ja auf eine Klassifikation hinauslaufen, oder? Diese Fragestellung könnte dann, soweit ich euch richtig verstanden habe, ein zweiter Schritt sein, für den man ein Klassifikationsverfahren anwendet. Habe ich das richtig verstanden?

Oder ein anderes Mal: Werden einsilbige Wörter allein länger ausgesprochen als eingebettet in zusammengesetzten Wörtern?
Fanny hat geschrieben:[...]Meine Aufgabe ist es, zu testen, ob sich die Silbigkeit auch in normaler Alltagssprache auf die Dauer des einsilbigen Wortes bzw der ersten Silbe eines mehrsilbigen auswirkt.

daniel hat geschrieben:Also m.E. ist für diese Fragestellung ein lineares Modell, indem Dauer auf Silbigkeit unter Kontrolle weiterer Kovariaten regressiert wird, das passende.Du willst ja den Einfluss der Silbigkeit auf die Dauer schätzen.


Verstehe ich das richtig: Hier ist also ist ein lineares Modell zu verwenden, in das ich alle Faktoren aufnehme und dann schrittweise nicht signifikante Faktoren entferne, sodass sich die Aussagekraft des Modells nicht signifikant verschlechtert.


Bernhard schrieb weiter unten:
bele hat geschrieben:Es stehen verschiedene Modellierungswege im Raum, aber die Fragestellung ist doch eigentlich: Werden einsilbige Wörter allein länger ausgesprochen als in zusammengestetzten Wörtern?
Dazu kann man grundsätzlich ein Modell erstellen bei dem die Dauer aus den anderen Werten modelliert wird und man betrachtet, ob die Ein/Mehrsilbigkeit ein signifikanter Prädiktor ist oder man kann ein Modell erstellen in dem die Ein/Mehrsilbigkeit aus den anderen Werten modelliert wird und schauen ob die Dauer einen signifikanten Beitrag in diesem Modell leistet. Das erste eher als "einfaches" lineares, das zweite eher als logistisches Modell. Wäre denn für die Fragestellung eines der Verfahren dem anderen vorzuziehen?

Ich weiß gerade nicht 100% sicher, welches Modell besser wäre, tendiere aber eher zum ersten, da ja wie theoretisch angenommen die Anzahl der Silben kausal für die Dauer sein soll und nicht umgekehrt. Ich werde dahingehend nächste Woche noch einmal mit meiner Betreuerin sprechen. Ich denke aber, dass das lineare Modell mit der Dauer als outcome und der Silbigkeit als Prädiktor ganz gut passt und dass dann die Klassifikation ein zweiter Schritt wäre, wenn ich jetzt wirklich alles richtig verstanden habe.

Vielen, vielen Dank nochmal für die geduldige Hilfe! Ich wüsste nicht, wie ich sonst dahintersteigen würde!
Fanny
Beobachter
Beobachter
 
Beiträge: 10
Registriert: Mi 12. Okt 2011, 14:19
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Anfänger und Datenanalyse

Beitragvon daniel » Mo 17. Okt 2011, 13:32

Fanny hat geschrieben:[...]
=> Das würde ja auf eine Klassifikation hinauslaufen, oder? Diese Fragestellung könnte dann, soweit ich euch richtig verstanden habe, ein zweiter Schritt sein, für den man ein Klassifikationsverfahren anwendet. Habe ich das richtig verstanden?

Ich denke man kann einen solchen Schritt anschließen, ja.

Verstehe ich das richtig: Hier ist also ist ein lineares Modell zu verwenden, in das ich alle Faktoren aufnehme und dann schrittweise nicht signifikante Faktoren entferne, sodass sich die Aussagekraft des Modells nicht signifikant verschlechtert.

Ich würde wieder mit jein antworten. Du nimmst alle theoretisch relevanten Faktoren auf. Nicht-signifikante Faktoren im Nachhinein zu entfernen ist ein "backward-stepwise" Vorgehen, das ich nicht verwenden würde. Ich verstehe auch nicht, wieso sich die "Aussagekraft" (was auch immer man darunter versteht) des Modells verschlechtern soll, wenn nicht-signifikante (wie auch immer arbiträr definiert) Variablen im Modell sind.
Du kannst vielleicht schrittweise vorwärts gehen, allerdings ohne die Signifikanz der Kovariaten überzubewerten. Du beginnst mit einem Modell in dem nur Sikbigkeit die Dauer prognostiziert. Dann führst Du Schrittweise weitere Kontrollvariablen ein, um zu zeigen, dass die Korrelation zwischen Silbigkeit un Dauer (Schritt 1) nicht durch weitere Variablen erklärt werden kann und somit (eher) kausal interpretiert werden kann.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Anfänger und Datenanalyse

Beitragvon Fanny » Mo 17. Okt 2011, 20:50

@daniel:

danke schön, ich glaube, jetzt hab ichs kapiert. mal sehen, wie ich jetzt weiterkomme. :-)
Fanny
Beobachter
Beobachter
 
Beiträge: 10
Registriert: Mi 12. Okt 2011, 14:19
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Vorherige

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 9 Gäste

cron