Verteilung der abhängigen Variable bei linearer Regression

Alle Verfahren der Regressionanalyse.

Verteilung der abhängigen Variable bei linearer Regression

Beitragvon bleichmittel » Fr 30. Nov 2012, 14:20

Hallo!

Dieses Board hat mir zwar schon öfter weitergeholfen, ich sitze jetzt aber an meiner Magisterarbeit/Diplomarbeit und benötige doch konkretere Hilfe. Kurz worum es geht: Es geht im weiteren Sinn um politische Partizipation bzw. bestimmte politische Nutzungsformen im Social Web. Ich arbeite hauptsächlich mit klassischen politischen Partizipationsmodellen und mein Ziel ist im Grunde ein Modell mit dieser Nutzung des Social Web als abhängige Variable und diversen Prädiktoren (z. B. sozioökonomische Variablen, politisches Interesse etc.). Die Stichprobengröße liegt bei ~3.000.

Das Problem ist, dass meine abhängigen Variablen sehr viele Nicht-NutzerInnen haben. Bei den gesamten habe ich 30 % mit 0, nur aktive Nutzung sind es z. B. sogar 58 %. Die Verteilung sieht in etwa so aus:
https://www.dropbox.com/s/k1b69eoy2r8kenu/gesamt1.jpg

Bei nur aktiv:
https://www.dropbox.com/sh/e51a7zks53vptn1/5LvciLLU7-/aktiv1.jpg

Ich weiß, dass die lineare Regression keine Normalverteilung der abhängigen Variable voraussetzt, dennoch scheinen mir meine Daten suboptimal zu sein. Ich kann zwar lineare Regressionsmodelle rechnen und die Voraussetzungen dann überprüfen, aber mein Verständnis reicht nicht so weit, abzuschätzen, was genau meine Datenverteilung bedeutet. Daher, bevor ich beginne das lineare Modell zu berechnen: Ist das von vornherein zum Scheitern verurteilt?

Von meinem Professor habe ich einmal gehört, dass eine Faustregel besagt, dass es kritisch wird, wenn rund 80 % oder mehr der Fälle die gleiche Ausprägung haben (bei mir 0). Weil dann kaum noch Varianz aufgeklärt werden kann. Klingt das sinnvoll? Findet sich dazu Literatur?

Mit Alternativen kenne ich mich leider auch nicht wirklich aus, Variablentransformation oder andere Regressionsverfahren habe ich noch nie durchgeführt. Einzig bei Heteroskedastizität habe ich Modelle dann mit robusten Schätzer gerechnet (ohne wirklich genau zu verstehen, was die anders machen).
bleichmittel
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Fr 30. Nov 2012, 13:01
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Verteilung der abhängigen Variable bei linearer Regressi

Beitragvon Holgonaut » So 2. Dez 2012, 20:58

Hi,

du hast über die Art der AV nichts gesagt. Es sieht mir aus, als überlagern sich zwei AVs, nämlich a) nutze ich oder nicht und b) irgendeine Variable die ein Ausmaß (Häufigkeit) angibt.

Google mal nach hurdle-modell im Zusammenhang mit der count-regression. Das könnte passen.

Gruß
Holger
P.S. Und ja, es lohnt sich absolut, hier nicht blind eine OLS-Regression zu machen!
Holgonaut
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 767
Registriert: Do 2. Jun 2011, 18:20
Danke gegeben: 3
Danke bekommen: 207 mal in 198 Posts

folgende User möchten sich bei Holgonaut bedanken:
bleichmittel

Re: Verteilung der abhängigen Variable bei linearer Regressi

Beitragvon bleichmittel » So 2. Dez 2012, 23:05

Das Problem fängt ja schon mit meiner abhängigen Variable und ihrer Skalierung an (Ich habe auch hier was dazu gepostet, weil ich da erst mal von zwei getrennten Problemen ausgegangen bin: http://www.statistik-forum.de/allgemeine-fragen-f5/ordinale-variablen-als-quasi-metrische-skalenbildung-t2195.html Das ist jetzt aber Blödsinn, wenn wir sowieso über andere Regressionsarten sprechen - vielleicht sollte ich daher den anderen Thread schließen? Sorry, ich hätte das vermutlich alles gleich in ein Thema packen sollen)

Im Grunde habe ich verschiedene Tätigkeiten jeweils aktiv und passiv (z. B. politische Nutzung (schreibend/lesend) von Twitter, lesen/schreiben von politischen Kommentaren zu Online-Artikeln etc.). Diese konnten auf einer Skala von 0 (= tue ich nie) bis 7 (= so gut wie jeden Tag) bewertet werden. Ich arbeite nur mit den Daten und konnte/kann daher auch nichts am Fragebogen ändern. Die Skala sieht so aus:
0 - nie
1 - höchstens einmal pro Jahr
2 - ein paar Mal pro Jahr
3 - ungefähr einmal pro Monat
4 - mehrmals pro Monat
5 - einmal pro Woche
6 - mehrmals pro Woche
7 - so gut wie jeden Tag

Also insofern stimmt das, dass die Nutzung/Nicht-Nutzung und die Nutzungshäufigkeit enthalten sind. Aber im Grunde habe ich keine richtige Zählvariable hier (ich habe mir nur ganz kurz das Beispiel in der Dokumentation der R-Klasse zur von dir vorgeschlagenen Variante angeschaut, und da ist es eine wirkliche Zählvariable). Und ich muss daraus erst eine Skala bilden. Dazu habe ich als erstes einfach den Mittelwert gezogen und die Variablen als quasi-metrisch behandelt. Mir ist klar, dass das nicht korrekt ist. Aber im Grunde ist das die gängige Praxis, die uns vermittelt wurde - wobei es meistens Likert-Skalen oder Skalen, die nur an den Polen beschriftet sind, waren. In diesem Fall vermittelt die Beschriftung der Ausprägung ja auch noch, dass die Abstände eben nicht annähernd gleich sind. Ich sehe jetzt diese Möglichkeiten der Skalenbildung:

  • Dennoch Behandlung als quasi-metrisch und dann Mittelwert ziehen, bei einer solchen Skala wohl schwer zu argumentieren
  • Umwandeln der Beschriftungen in die entsprechende Anzahl an Tagen pro Jahr (nie = 0, höchstens einmal pro Jahr = 1, ein paar Mal pro Jahr = ?/6,5, ungefähr einmal pro Monat = 12, ..., so gut wie jeden Tag = 365), dann Mittelwert ziehen. Erscheint mir auch problematisch, außerdem entsprechen nicht alle Ausprägungen (ungefähr) einer Anzahl an Tagen, z. B. mehrmals pro Woche
  • Über eine Faktorenanalyse (für kategoriale/ordinale Variablen) (???) - diese Variante kann ich nicht einschätzen
  • Die Aktivitäten zählen, die gemacht werden (bzw. die z. B. zumindest einmal pro Monat gemacht werden) -> Das wäre dann ja wieder eine Zählvariable - also Hurdle-Modell.
  • Eine ja/nein Variable, ob zumindest irgendwas gemacht wird oder nicht

Argumentieren kann ich aber vermutlich nur die letzten zwei oder drei Varianten? Sehe ich da etwas falsch oder entgeht mir etwas? Und mit welcher Art von Regression es dann weitergeht, hängt vermutlich dann auch davon ab, wie ich meine abhängige(n) Variable(n) bilde?

Jedenfalls schon einmal danke!
bleichmittel
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Fr 30. Nov 2012, 13:01
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Verteilung der abhängigen Variable bei linearer Regressi

Beitragvon Holgonaut » Mo 3. Dez 2012, 10:41

Hi,

es ist keine klare Zählvariable, aber die Poisson - oder negativ-Binomialverteilung könnte dennoch die ädequate Residuenverteilung sein.

Neben dem hurdle-Modell ist vielleicht ein ZIP oder ZINB-model sinnvoll (zero-inflated poisson vs. zero-inflated negative binomial).

Aggregieren würd ich die einzelnen Variablen nicht, das gibt nur Brei. Was soll das denn für eine Variable sein ? ("ich mach was"?)

Der Zeileis-Artikel beschreibt m.E. auch, wie man verschiedene Modelle vergleicht (OLS, Poisson, NB, ZIP, ZINB, hurdle). Da siehst dann auch,
dass / ob die count-Modelle besser sind, auch wenn die Variable/n keine exakte count-Variable ist/sind.

Grüße
Holger
P.S. Kennst du das schon: http://www.ats.ucla.edu/stat/seminars/c ... count.html ?
Holgonaut
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 767
Registriert: Do 2. Jun 2011, 18:20
Danke gegeben: 3
Danke bekommen: 207 mal in 198 Posts

folgende User möchten sich bei Holgonaut bedanken:
bleichmittel

Re: Verteilung der abhängigen Variable bei linearer Regressi

Beitragvon bleichmittel » Mo 3. Dez 2012, 18:49

Hallo!

Vielen Dank für den Link! Eine wirklich gute Erklärung. Nach dem was ich gehört und gelesen habe, hast du vollkommen recht. Meine Daten entsprechen dem sehr gut und ein Hurdle-Modell wäre wohl das passende.

Nur bleibt für mich (insbesondere, wenn ich nicht aggregiere) das Problem, dass meine Daten ja ordinal sind und wenn ich mit denen jetzt ein ein Hurdle-Modell rechne, begehe ich damit ja einen Fehler. Das müsste ich dann begründen können (und Likert-Skalen sind es ja auch nicht, da hätte ich Begründungen gefunden).

Die aggregierte Variable soll im Grund die gesamte politische Nutzung des Social Webs einer Person abbilden, d. h. höherer Wert = stärkere Nutzung. Natürlich sagt mir die dann nicht mehr aus, ob die Person jetzt Foren oder soziale Netzwerke für politische Kommunikation nutzt.
bleichmittel
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Fr 30. Nov 2012, 13:01
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 11 Gäste