STATISTIK-FORUM.de

Samuel294 · von **Samuel294** » Sa 26. Nov 2022, 14:57

Hallo ich bin neu hier und hoffe das meine Frage nicht schon gestellt wurde. Ich habe mich hier schon etwas umgesehen aber leider keine befriedigende Antwort gefunden. Ich bin leider kein Statistik Profi und habe eher Erfahrung mit Regressionen als anderen statistischen Tests, muss mich im Rahmen meiner Masterarbeit jedoch mit Textanalysemethoden.

Folgendes Problem: Ich habe Texte von 2 verschiedenen Quellen und muss diese auf bestimmte Argumente überprüfen mein Datensatz hat folgende Form:

Eine Variable $X_i$ mit den Ausprägungen $"0", "1"$ soll auf Unabhängigkeit mit der Variablen $Y_i$ mit Ausprägungen $"0", "1", "2", [...] "5"$ getestet werden.

Soweit so gut. Nach Aufbereitung musste ich jedoch feststellen dass in speziell definierbaren Clustern (Argumente innerhalb ein und desselben Artikels) Abhängikeitsstrukturen zwischen den Ausprägungen von $Y_i$ vorhanden sind. Diese äußern sich in schwachen (aber teilweise signifikanten paarweisen Korrelationen der Ausprägungen (zwischen $-0,1$ und $0,1$ ). Ich gehe davon aus das diese meine Resultate nicht besonders beeinflussen sollten, deshalb Fände ich es super wenn es in diesem Falle irgendeine Möglichkeit gäbe für diese Autokorrelation (ähnlich wie zB Newey West für Regressionen) zu korrigieren ohne den Test komplett über Board zu werfen. Als Alternative würde ich natürlich auch einen anderen Test nehmen der mit dieser Korrelation gut umgehen kann, kenne mich jedoch da zu wenig aus mit den Verfahren.

Kann mit jemand weiterhelfen?

Danke schonmal für eure Antworten

bele · von **bele** » Sa 26. Nov 2022, 15:41

Hallo Samuel,

ich kann leider nicht sagen, dass ich das verstanden hätte. Weder verstehe ich Regression und Textanalyse als Gegensatzpaar, noch weiß ich, welches Skalenniveau $Y_i$ hat, noch was Abhängigkeitsstrukturen zwischen Ausprägungen einer Variablen sein sollen.

Für etwaige Antworten falle ich damit schonmal aus.

LG,
Bernhard

Samuel294 · von **Samuel294** » Sa 26. Nov 2022, 16:45

bele hat geschrieben:Hallo Samuel,

ich kann leider nicht sagen, dass ich das verstanden hätte. Weder verstehe ich Regression und Textanalyse als Gegensatzpaar, noch weiß ich, welches Skalenniveau $Y_i$ hat, noch was Abhängigkeitsstrukturen zwischen Ausprägungen einer Variablen sein sollen.

Für etwaige Antworten falle ich damit schonmal aus.

LG,
Bernhard

Hallo Bernhard,

danke für deine Antwort.

- Bei den Daten handelt es sich um Nominalskalierte Daten ("1" z.B. ein argument basierend auf Fairness, "2" Tradition, "3" Loyalität usw.)

- Die Abhängikeitsstruktur erschließt sich daraus, dass beim Auftreten mehrer Argumente innerhalb eines Artikels z.B. tendenziell öfter ein Argument Tradition auf Loyalität folgt. Dadurch sehe ich die Voraussetzung der Unabhängigkeit gefährdet. Zwischen den einzelnen Artikeln innerhalb der Quelle sollte diese jedoch gelten (falls das weiterhilft).

- Ich habe leider nur sehr wenig bis keine Erfahrung mit Textanalysen und arbeitete falls nötig eher mit Linearen-Zeitreihenanalysen stetiger normalverteilter Variablen. Ich haderte hier jedoch mit der Normalität der Residuen. Vermutlich habe ich deshalb in diesem Falle etwas zu eng gedacht und die Möglichkeit einer logistischen Regression aus den Augen verloren. Habe ich mir damit selbst schon die Antwort gegeben? Dann wäre nur noch die Frage gegeben welches Modell in diesem Fall am ehesten zu den erwähnten Problemen passt.

LG Samuel

bele · von **bele** » So 27. Nov 2022, 00:08

Hallo Samuel,

dass es innerhalb eines Textes mehrere Argumente geben kann ist für uns erst im letzten Post eingeführt worden. Wahrscheinlich sind es nicht in allen Dokumenten gleich viele Texte und vielleicht gibt es Texte, in denen sich die "Loyalität" eher als Thema anbietet und andere, in denen sich "Fairness" eher anbietet und dann stellt sich die Frage, was denn eigentlich die Beobachtungseinheit sein soll, der Text oder das Argument. Jedenfalls klingt zwischen Deinen Zeilen durch, dass die Unabhängigkeit der Beobachtungen wahrscheinlich verletzt sein wird. Ist übrigens "Text" um ersten Post das gleiche wie "Artikel" im zweiten? Ist die "Quelle" aus dem zweiten Post das gleiche wie $X$ aus dem ersten Post? Und was sind jetzt "paarweisen Korrelationen der Ausprägungen"?

Sorry, mir ist das alles zu abstrakt. Ich verstehe nichtmal, wie Du das jetzt mit der logistischen Regression angehen willst und kann daher sicher nicht sagen, ob Du Dir Deine Antwort selbst gegeben hast.

VG,
Bernhard

Samuel294 · von **Samuel294** » So 27. Nov 2022, 19:57

Hallo Bernhard,

ja bei den Texten handelt es sich um Artikel. War wohl leider etwas unpräzise formuliert, da ich dachte dies würde für die weitere Fragestellung keine Relevanz haben.

Hier noch ein paar Informationen zu der Methodik:

Die Texte/Artikel von den jeweiligen Quellen wurden durch bestimmte Suchbegriffe (welche nicht in Verbindung zu den jeweiligen Argumenten stehen) bezogen. Danach wurden von diesem Datensatz (an Artikeln) zufällig ohne Inhaltsbezug Dokumente ausgewählt deren Argumente manuell einer Kategorie (Fairness etc. siehe oben) zugeordnet.

Die Fragestellung ist jetzt wie folgt:

Es soll nun ein Zusammenhang zwischen der Art der genutzten Argumente und der Quelle hergestellt werden. Mir würde es prinzipiell schon ausreichen das ein signifikanter Unterschied in der Verteilung der Kateogrien vorliegt. Wenn mittels einer logistischen Regression auch Rückschlüsse von einzelnen Kategorien auf die Quelle zu machen wäre wäre dies natütlich super. Und ja die Unabhängikkeit der Argumente ist in diesem Falle der Hauptgrund für meine Bedenken. Clustering auf Artikel Ebene könnte hierbei vielleicht helfen wenn ich zwischen den Artikeln keine Verletzung der Unabhängugkeit sehe.

LG Samuel

STATISTIK-FORUM.de

Chi Quadrat oder doch anderes Testverfahren?

Chi Quadrat oder doch anderes Testverfahren?

Re: Chi Quadrat oder doch anderes Testverfahren?

Re: Chi Quadrat oder doch anderes Testverfahren?

Re: Chi Quadrat oder doch anderes Testverfahren?

Re: Chi Quadrat oder doch anderes Testverfahren?

Wer ist online?