STATISTIK-FORUM.de

Fanny · von **Fanny** » Mi 12. Okt 2011, 15:22

Hallo liebe Statistiker! :-)

Ich habe bisher nur einen Statistik-Kurs an der Uni gemacht, brauche die Statistik nun aber für meine Master-Arbeit. Hab jetzt schon versucht mich selber reinzuarbeiten, komme aber nicht weiter. Vielleicht kann mir hier jemand helfen, das wär schön!

Das Problem ist folgendes: Ich habe Daten extrahiert, für die ich nun ein statistisches Modell brauche um dann den Einfluss einer bestimmten Größe auf die abhängige Variable zu prüfen.

- abhängige Variable ist die Dauer eines Wortes (in ms, also metrisch)
- die abhängige V. wird von verschiedensten Parametern (Kovariablen) beeinflusst, darunter Sprecher (nominal), Sprechgeschwindigkeit (in Vokalen pro Satz, metrisch), Wortart (nominal), Position des Wortes im Satz (metrisch??) usw.
- die unabhängige Variable ist, ob das Wort ursprünglich einsilbig oder mehrsilbig ist (nominal, binär codiert)
Die Daten bestehen aus
1. einsilbigen Wörtern, die wirklich einsilbig sind, z.B. "Haus" und
2. den abgetrennten ersten Silben mehrsilbiger Wörter, z.B. "Haus" in "Haustier".
In den Daten ist codiert, was der wahre Ursprung des Wortes ist, in 0 (einsilbiges Wort) und 1 (Teil eines mehrsilbigen Wortes)

Beispiel der Tabelle

Sprechgeschwindigkeit Sprecher Wortart Position Ein-oder Mehrsilbig Wort Dauer
3.42 sp0023 N 5 0 Haus 0.16
2.76 sp0012 N 3 1 Haus 0.13

Die Annahme ist, dass man diese einsilbigen Wörter eindeutig aufgrund ihrer Dauer als Teil eines mehrsilbigen Wortes oder als wirkliches einsilbiges Wort klassifizieren kann. Das bedeutet, ich brauche kein Struktur-entdeckendes Verfahren, sondern ein Struktur-prüfendes Verfahren, da ich eben diese Annahme prüfen will.
Mein Ansatz wäre eine Kovarianzanalyse. d.h. als erstes würde ich die Kovariablen herausfiltern um dann den Einfluss der unabhängigen Variable zu testen. Wäre das korrekt? Ich weiß nur überhaupt nicht, wie ich jetzt anfange (ich mache das mit R). Es wäre nett, wenn mir jemand grob den Ablauf sagen könnte, mit dem das ganze funktioniert. :-)

Liebe Grüße,
Fanny

daniel · von **daniel** » Mi 12. Okt 2011, 18:06

Wenn es nur um R geht, dann bist Du im R-Forum besser bedient. Ich befürchte aber, das ist doch etwas komplexer. Ich hätte da auch noch ein zwei Nachfragen.

Fanny hat geschrieben:- abhängige Variable ist die Dauer eines Wortes (in ms, also metrisch)
[...]
Die Annahme ist, dass man diese einsilbigen Wörter eindeutig aufgrund ihrer Dauer als Teil eines mehrsilbigen Wortes oder als wirkliches einsilbiges Wort klassifizieren kann.

Wäre dann nicht die Wortart (ein- vs. mehrsilbig) das outcome und die Dauer der Prädikator?

Die Form der Daten ist mir leider auch noch gar nicht klar. Wo kommen die denn her, oder besser, wie wurden die erhoben? Das ist doch sicher irgendwie genestet, oder (bsp. Worte in Sprechern, oder Sprecher in Worten ...)?

Was sind die Fälle (Zeilen)? Sprecher? Worte?
Hat jeder Sprecher nur ein Wort gesprochen, oder meherer?
War die Zuteilung der Worte zu Sprechern zufällig?
Wie hoch ist die Fallzahl?

In diesem Zusammenhang ist mir auch völlig unklar wie das Wort an sich kontrolliert werden soll, das doch sicher auch einen Einfluss auf die Dauer hat? Ich meine, kann man "Haus" (oder "Haustier") mit "Dach" (oder "Dachterasse") vergleichen?

Inhaltlich ist mir nicht klar wozu man den Sprecher kontrollieren soll, wenn man bereits die Sprachgeschwindigkeit kontrolliert? Wie beeinflusst denn der Sprecher, troztz gleicher Sprachgeschwindigkeit, die Dauer des Worte?

bele · von **bele** » Do 13. Okt 2011, 08:19

Hallo Fanny,

nach Klärung von daniels Fragen klingt das vorläufig mal so, als wäre eine logistische Regression Dein Ziel. In R machst Du die mit der Funktion glm, spezieller mit glm(..., family="binomial"). Am Ende wird da also etwas in der Art wie folgendes stehen:

Code: Alles auswählen: glm( EinOderMehrsilbig ~ Sprechgeschw + Sprecher + Wortart + Position, data=Datensatz, family="binomial")

Kläre erst mal die Statistikfragen und dann kann man die genaue Umsetzung in R in einem der beiden deutschen Foren zu R klären.

Gruß,
Bernhard

Fanny · von **Fanny** » Do 13. Okt 2011, 11:15

Hallo!
Danke schonmal für die schnellen Antworten! Ich hab hier ins Forum geschrieben, weil es mir erstmal um die generelle Vorgehensweise ging und noch nicht um die Umsetzung mit R.

@daniel: Zu den Daten:

Die Daten habe ich aus einem großen Korpus (Sprachdatensammlung) automatisch extrahiert und die Dauer der Wörter berechnet. Die anderen Infos, z.B. Wortart des vorhergehenden und folgenden Wortes, Anzahl der Laute des Wortes, habe ich auch extrahiert. Alle Infos wurden von meinem Programm dann in eine Datei abgedruckt.

>Hat jeder Sprecher nur ein Wort gesprochen, oder meherer? War die Zuteilung der Worte zu Sprechern zufällig?
Das Korpus besteht aus den Aufnahmen verschiedener Sprecher, die je einen ganzen Text vorlesen (sind aber jeweils ganz verschiedene Texte). Das heißt, meine resultierenden Daten enthalten mehrere Wörter von jeweils demgleichen Sprecher. Die Wörter und Sprecherzuteilung ist dadurch zufällig, da ich nach Wörtern suche, die sowohl als einsilbiges als auch als eingebettetes mehrsilbiges Wort vorkommen.

>Wie hoch ist die Fallzahl?
Ich habe um die 15.000 Wörter insgesamt. Es sind 135 Sprecher. Es sind aber unterschiedliche viele Wörter je Sprecher (Bereich 6-240 Wörter) in der Zieldatei enthalten. Im Textkorpus sind es ähnlich viele Wörter, aber nicht exakt gleich.

>Inhaltlich ist mir nicht klar wozu man den Sprecher kontrollieren soll, wenn man bereits die Sprachgeschwindigkeit kontrolliert? Wie beeinflusst denn der
>Sprecher, troztz gleicher Sprachgeschwindigkeit, die Dauer des Worte?
Der Sprecher kann die Dauer der Worte durch individuelle Aussprachevariation beeinflussen, das heißt bei gleicher Sprechgeschwindigkeit könnten Sprecher trotzdem eine Präferenz für eine gewisse "Länge" des Wortes haben (ist aber noch zu testen, ob das wirklich signifikant ist).

>Wäre dann nicht die Wortart (ein- vs. mehrsilbig) das outcome und die Dauer der Prädikator?
Also, die Silbigkeit soll am Ende aufgrund der Dauer (Prädiktor) vorhergesagt werden können. Vorher möchte ich aber den Einfluss der anderen Faktoren auf die Dauer wissen, damit diese aus der Varianz herausnormalisiert sind und ich errechnen kann, wie groß der Einfluss der Silbigkeit (ein- oder mehr-) (in dem Falle dann Prädiktor) auf die Dauer ist. Wenn ich das habe, dann kann ich es ja auch umkehren, oder?
Mein Betreuer für die Arbeit hat mir gesagt, dass ich ein Modell der Dauer brauche, in dem außer der Silbigkeit alle signifikanten Faktoren schon enthalten sind, sodass ich nur den Einfluss der Silbigkeit untersuchen kann. Leider ist der Betreuer gerade nicht da, sodass ich ihn selbst nicht fragen kann. Ich will aber nicht zwei Wochen warten, da ich natürlich auch Zeitdruck habe. Daher wurschtel ich hier selber herum :-/

@Bernhard:
Soweit ich das im Gespräch mit meinem Betreuer der Masterarbeit richtig verstanden habe, soll ich ein Modell für die Dauer (ohne Silbigkeit) finden, und wenn dies gefunden ist, dann soll ich die unabhängige Variable (Silbigkeit) als Prädiktor dem Modell hinzufügen. Dann kann ich sehen, welchen Einfluss dies auf die Residuen des Modells hat, das ich zuvor erstellt ohne Silbigkeit habe. Klingt das so nachvollziehbar?

Viele Grüße,
Fanny

daniel · von **daniel** » Do 13. Okt 2011, 12:08

Auf die Gefahr hin simultan mit Bernhard zu antworten dennoch ein paar Gedanken.

Für mich stehen da immer noch zwei verschiedene Fragestellungen im Raum. Willst Du a)

die Silbigkeit [...] aufgrund der Dauer (Prädiktor)

modellieren, oder

ein Modell der Dauer [...] in dem außer der Silbigkeit alle signifikanten Faktoren schon enthalten sind

bauen, um dann

den Einfluss der Silbigkeit [zu] untersuchen

Das sind zwei verschiedene Fragen. Das ist aber eher fachlich als statistisch und daher von Dir zu entscheiden.

Da Du nur einen Statistikkurs hattest, bringst Du da vielleicht etwas durcheinander. Du brauchts nicht vorher (im zeitlichen Sinne) die Einfüsse der Kovariaten auf die Dauer analysieren. In multiplen Regressionsverfahren wird der Einfluss der Kovariaten simultan herausgerechnet. Bei einer Regression (Rückführung) von Silbigkeit auf Dauer, Sprecher, Sprachgeschwindigkeit, etc. kommt im Koeffizient für Dauer, der netto(!) Effekt der Dauer auf die Silbigkeit unter Kontrolle (i.e. stat. Konstanthaltung) von Sprecher, Sprachgeschwindigkeit, etc. zum Ausdruck.
Analog funktioniert das natürlich für das Alternativmodell, der Regression von Dauer auf Silbigkeit etc. Da bekommst Du dann den Netto-Effekt von Silbigkeit auf Dauer.

Ich finde es allerdings immer noch etwas verwirrend nicht für das Wort an sich zu kontrollieren. Wie ge(f)sagt: Ist die Länge von "Dach" mit "Haus" oder "Stuhl" direkt vergleichbar? Sollte man nicht lediglich "Haus" (einsilnig) mit "Haus[tier]" (mehrsilbig) vergleichen, statt "Haus" einsilbig mit "Dach[terasse]" (mehrsilbig)?

Vielleicht hab ich da aber auch gerade einen Denkfehler und das ist gar kein großes Problem.

Fanny · von **Fanny** » Do 13. Okt 2011, 13:02

Hallo Daniel!
Danke schonmal für deine Antwort und die Erklärung zur Regressionsanalyse. Ich glaube, ich verstehe das jetzt etwas besser.
Und in Bezug auf die theoretische Fragestellung mit dem Einfluss des Wortes selbst: Da muss ich nochmal drüber nachdenken, es ist nämlich schon sinnvoll was Du sagst. :-)

vielen Dank schonmal, ich meld mich nochmal, wenn ich weiter überlegt hab.

Liebe Grüße,
Fanny

bele · von **bele** » Do 13. Okt 2011, 17:40

daniel hat geschrieben:Auf die Gefahr hin simultan mit Bernhard zu antworten dennoch ein paar Gedanken.

Ich halte mich gerne zurück

daniel hat geschrieben:Für mich stehen da immer noch zwei verschiedene Fragestellungen im Raum.

Es stehen verschiedene Modellierungswege im Raum, aber die Fragestellung ist doch eigentlich: Werden einsilbige Wörter allein länger ausgesprochen als in zusammengestetzten Wörtern?

Dazu kann man grundsätzlich ein Modell erstellen bei dem die Dauer aus den anderen Werten modelliert wird und man betrachtet, ob die Ein/Mehrsilbigkeit ein signifikanter Prädiktor ist
oder
man kann ein Modell erstellen in dem die Ein/Mehrsilbigkeit aus den anderen Werten modelliert wird und schauen ob die Dauer einen signifikanten Beitrag in diesem Modell leistet.

Das erste eher als "einfaches" lineares, das zweite eher als logistisches Modell. Wäre denn für die Fragestellung eines der Verfahren dem anderen vorzuziehen?

Ich finde es allerdings immer noch etwas verwirrend nicht für das Wort an sich zu kontrollieren. [...]
Vielleicht hab ich da aber auch gerade einen Denkfehler und das ist gar kein großes Problem.

Da das Wort ja in den Daten vorliegt und da es genügend Datensätze gibt um beliebig viele Parameter zu schätzen, spricht doch in keinem Fall etwas dagegen, das Wort in das Modell mit aufzunehmen, oder?

Gruß,
Bernhard

daniel · von **daniel** » Fr 14. Okt 2011, 01:53

Für mich ist die Frage nach den Determinanten der Wortlänge von der Frage, ob einsilbige Worte in zusammengesetzen Worten länger oder kürzer ausgesprochen werden verschieden. Ich denke man kann prinzipiell beide Fragen mit beiden Modellen beantworten, aber je nach Frage scheint mir eines der Modelle intuitiver.

Für das Jeweilige Wort (nominal) zu kontrollieren wäre evtl. eine Möglichkeit, müsste ich nochmal drüber nachdenken (ist ja schon spät). Ich hätte da spontan an etwas in Richtung fixed effects model gedacht. Eben nur die Varianz innerhalb der selben Worte zur Schätzung verwenden. Im Grunde wollte ich nur mal nachfrageb, ob dieser Punkt überhaupt schon bedacht wurde.

Fanny · von **Fanny** » Fr 14. Okt 2011, 09:54

Hallo Daniel und Bernhard,

vielen Dank für die vielen hilfreichen Antworten.

Ich hab mir noch mal Gedanken gemacht, und das Wort selbst sollte auf jeden Fall als Prädiktor aufgenommen werden. Geben meine Daten auch problemlos her.

bele hat geschrieben:Es stehen verschiedene Modellierungswege im Raum, aber die Fragestellung ist doch eigentlich: Werden einsilbige Wörter allein länger ausgesprochen als in zusammengestetzten Wörtern?

Genau.

bele hat geschrieben:Dazu kann man grundsätzlich ein Modell erstellen bei dem die Dauer aus den anderen Werten modelliert wird und man betrachtet, ob die Ein/Mehrsilbigkeit ein signifikanter Prädiktor ist oder man kann ein Modell erstellen in dem die Ein/Mehrsilbigkeit aus den anderen Werten modelliert wird und schauen ob die Dauer einen signifikanten Beitrag in diesem Modell leistet.

Ich hab jetzt nochmal meine Unterlagen durchforstet und gefunden, was mein Betreuer mir gesagt hat, wie ich vorgehen soll.
Schritt 1: Aus allen möglichen Faktoren (außer Silbigkeit), finde nur die Faktoren, die die Dauer beeinflussen, d.h. als Prädiktoren fungieren. (Benutze lm() mit jeweils einem Prädiktor gleichzeitig, also z.B. lm(dauer ~ sprechgeschwindigkeit, data: durationTable))
Schritt 1b: Finde Korrelationen zwischen den möglichen Faktoren (so können dann Faktoren ausgeschlossen werden, die nur auf den Einfluss eines anderen signifikanten Faktors zurückzuführen sind) , füge Residuen hinzu zu z.B. lm(dauer ~ sprechgeschwindigkeit, data: durationTable). [Dieser Punkt mit den Residuen ist mir total unklar]
Schritt 2: Finde Interaktionen zwischen den übriggebliebenen unabhängigen Variablen, wenn nötig. [ich bin mir nicht sicher, was das heißt. Ich gehe einmal davon aus, dass ich in diesem Fall Interaktionen zwischen den Variablen, die bei Schritt 1b übriggeblieben sind, als Prädiktoren in lm() verwenden soll.]
Schritt 3: Sobald das beste Modell gefunden wurde, erzeuge ein Residuum der Dauer basierend auf dem besten Modell, dann benutze glm(Silbigkeit ~ residuum, familiy=binomial)

Das Problem ist, dass ich nur beschreibende Statistik und analytische Statistik gemacht habe, aber keine multivariaten Verfahren oder statistische Modelle (wurde plötzlich nicht mehr angeboten, Dozent war weg). Daher fällt mir die Modellbildung so schwer, weil es das erste Mal ist, dass ich damit zu tun habe und jetzt geht es direkt schon um meine MA. :-/ Ich hab mich natürlich eingelesen und weiß grob worum es geht, aber bei der Praxis hapert es ziemlich.

Viele Grüße,
Fanny

daniel · von **daniel** » Fr 14. Okt 2011, 12:03

Was Dein Betreuer da im Sinn hat scheint mir relativ kompliziert. Ich weiß auch nicht wozu er/sie so vorgehen will. Macht er/sie denn im Alltag viel mit multivariaten Verfahren?
Scheint mir in Richting einer Instrumentenvariablenschätzung zu gehen. Sollte das der Fall sein muss man sich Gedanken über die Annahmen dahinter machen. Vielleicht kann noch jemand anders meine Kommentare kommentieren.

Fanny hat geschrieben:Schritt 1: Aus allen möglichen Faktoren (außer Silbigkeit), finde nur die Faktoren, die die Dauer beeinflussen, d.h. als Prädiktoren fungieren. (Benutze lm() mit jeweils einem Prädiktor gleichzeitig, also z.B. lm(dauer ~ sprechgeschwindigkeit, data: durationTable))

Das ist m.E. in zweierlei Hinsicht sub-optimal. Erstens ist eine Regression völlig überflüssig, wenn Du lediglich einen Prädikator hast, weil es da auch eine einfache Korrelation tut. Bei nicht-metrsichen Prädikatoren ist die Regression evtl. leichter umzusetzen, aber im Prinzip ist das überflüssig. Zweitens bin ich (wie viele andere) der Meinung, dass eine Schrittweise, explorative suche nach signifikanten Prädikatoren zu falschen Ergebnissen führen kann (Stichwort z.B. "multiple Tests").

Schritt 1b: Finde Korrelationen zwischen den möglichen Faktoren (so können dann Faktoren ausgeschlossen werden, die nur auf den Einfluss eines anderen signifikanten Faktors zurückzuführen sind) , füge Residuen hinzu zu z.B. lm(dauer ~ sprechgeschwindigkeit, data: durationTable). [Dieser Punkt mit den Residuen ist mir total unklar]

Ist mir auch unklar wozu man den Weg über Residuen gehen soll. Das ist m.E. viel zu kompliziert. Wenn Du alle theoretisch(!) wichtigen Faktoren in ein einziges Modell steckst bekommst Du das gleichze Ergebnis in einem Schritt.

Schritt 2: Finde Interaktionen zwischen den übriggebliebenen unabhängigen Variablen, wenn nötig. [ich bin mir nicht sicher, was das heißt. Ich gehe einmal davon aus, dass ich in diesem Fall Interaktionen zwischen den Variablen, die bei Schritt 1b übriggeblieben sind, als Prädiktoren in lm() verwenden soll.]

Verstehe ich auch nicht wirklich. Nur zur Sicherheit: Interaktionen werden als Multiplikation der Variablen umgesetzt. Ein Beispiel wäre folgendes. Du findest, dass "Sprechgeschwindigkeit" und "Position im Satz" jeweils einen (additiven) Effekt auf die Dauer haben. Eine Interaktion der beiden Variablen wäre gegeben, wenn die Sprechgeschwindigkeit sich stärker (oder schwächer) auf die Dauer auswirkt, je weiter hinten(oder vorn) im Satz das Wort steht -- und umgekehrt.
Sowas explorativ zu probieren, scheint mir super aufwändig bis nicht durchführbar, bedenkt man, dass auch Dreifachinteraktion, Quadrierte-Terme etc. getestet werden könnten (und sollen?) und Du einige nicht-metrische Variablen hast. Die Zahl der geschätzen Parameter wird bei einer Interaktion (oder gar Dreifachinteraktion) von "Sprecher", "Wortart" und "Wort" (solltest Du das als Kovariate einschließen wollen) schnell ins Unendliche schießen und selbst bei Deinen Fallzahlen problematisch werden. Des Weiteren gilt die Kritik unter 1a zur schrittweise "Signifikanzsuche". Vielleicht sollte ich dazu noch sagen, dass ich bei der Fallzahl erwarten würde, dass ohnehin nahezu alle Variablen aus Schritt 1 statistisch sigifikant werden.

Schritt 3: Sobald das beste Modell gefunden wurde, erzeuge ein Residuum der Dauer basierend auf dem besten Modell, dann benutze glm(Silbigkeit ~ residuum, familiy=binomial)

Scheint mir ebenfalls zu kompliziert. Vielleicht kann mir jemand sagen, wo der Vorteil der (aufwendigen) Verwendung der Residuen gegenüber einem einzigen (logit) Modell, das die Silbigkeit in abhängigkeit der Dauer und allen weiteren relevanten Variablen abbildet liegt?

Insgesamt scheint mir das Vorgehen zu explorativ, aber es kann natrülich gut sein, dass die Theorie nicht viel hergibt, das weiß ich nicht. Sollte das so sein, bleibt einem häufig nicht viel anderes übrig, als explorativ vorzugehen.

@Berrnhard

Wenn ich über die Vor- und Nachteile der Modelle nachdenke würde ich sagen, ein lineares Modell, mit Silbigkeit als Prädikator der Dauer (unter Kontrolle weiterer Kovariaten) hat den großen Vorteil, dass der Effekt der Silbigkeit nur dann durch vernachlässigte Variablen verzerrt wird, wenn diese Variablen sowohl mit Dauer als auch mit Silbigkeit korrelieren. Im Logit-Modell hast Du das Problem, dass jede Variable die mit Silbigkeit korreliert die Koeffizienten im Modell verzerrt. Zudem ist ein fixed effects Ansatz im linearen Modell leichter/intuitiver umzusetzen.

STATISTIK-FORUM.de

Anfänger und Datenanalyse

Anfänger und Datenanalyse

Re: Anfänger und Datenanalyse

Re: Anfänger und Datenanalyse

Re: Anfänger und Datenanalyse

Re: Anfänger und Datenanalyse

Re: Anfänger und Datenanalyse

Re: Anfänger und Datenanalyse

Re: Anfänger und Datenanalyse

Re: Anfänger und Datenanalyse

Re: Anfänger und Datenanalyse

Wer ist online?