Linearisierung multiple Regression

Alle Verfahren der Regressionanalyse.

Linearisierung multiple Regression

Beitragvon Ma_rie » So 21. Sep 2014, 13:34

Hallo liebe Forumsmitglieder,

ich bin gerade dabei meine Masterarbeit zu schreiben und möchte dafür eine multiple Regression durchführen. Ich wäre euch unendlich dankbar, wenn ihr mit helft. Bitte verzeiht mir, wenn meine
Erläuterung vielleicht etwas holprig ist, denn so richtig verstanden habe ich wohl noch nicht alles.

Ich habe ca. 10 Variablen und habe jetzt ein paar Tests mit den Daten durchgeführt, da ich bereits befürchtet habe, dass die Prämissen nicht erfüllt sein werden.
Diese habe ich erstmal nur mit ein paar der Variablen durchgeführt, damit es vielleicht erstmal überschaubar bleibt.

Ich habe mir den Residuenplot angesehen und dieser weist eindeutig auf Heteroskedastizität hin. Ein sehr starkes Dreiecksmuster eben. Ich habe gelesen, dass man
da eventuell was über Transformation einer Variablen machen kann. Da es Studien gibt, die etwas ähnliches machen wie ich, habe ich deren Lösung ausprobiert und versucht
alle möglichen Variablen zu logarithmieren. Ich habe auch versucht mir das durch anlesen begreiflich zu machen, aber letztendlich ist es ein rumprobieren gewesen. Jedenfalls
sehen die Residuen sehr viel mehr nach einer zufälligen Punktewolke aus wenn ich zunächst mal die abhängige Variable logarithmiere. Wenn ich stattdessen nur die unabhängigen
logarithmiere, sieht es nicht viel besser aus. Am besten ist es aber nach meinem Verständnis, wenn ich sowohl die AV als auch die UVs logarithmiere.

Das ist ja jetzt ganz schön und gut mit den Punkten und den Wolken aber so richtig verstanden habe ich das offensichtlich leider nicht.. Kann ich das irgendwie vernünftig rechtfertigen
und vor allem überhaupt noch interpretieren, wenn ich das alles logarithmiere? Verfälsche ich damit eventuell auch die Zusammenhänge?

Es sieht so aus als ob die besagten Studien das genau so gemacht haben. Die abhängige Variable wurde logarithmiert und auch einige der UVS.

Ich bin jetzt auch auf die SPSS Funktion "Kurvenanpassung" gestoßen und habe für die verschiedenen UVs das jeweils mit der AV ausprobiert. Ich habe linear, exponentiell und logarithmisch ausprobiert.
Bei einigen Variablen sieht exponentiell gut aus. Bei manchen sieht einfach alles nach nichts aus.

Ich habe mir auch Streu/Punktdiagramme anzeigen lassen von der AV mit den verschiedenen UVs. Ohne Transformation, nur AV logarithmiert, beides logarithmiert, nur UV logarithmiert. Und da sieht die vorletzte Lösung immer ganz schön nach nem linearem Zusammenhang aus. Die anderen Lösungen sehen eher nach nichts aus. Das weißt auch auf einen exponentiellen Zusammenhang hin, so wie ich das verstanden habe?

Die Fragen nochmal zusammengefasst:

1.Woher weiß man, welche Variable man transformieren muss?
2.Habe ich das richtig verstanden, dass es dann sinnvoll ist, sowohl Uv als auch AVs zu logarithmieren, wenn der Zusammenhang exponentiell ist?
3.Wenn ich die abhängige Variable transformiere, wird ja der Zusammenhang mit allen unabhängigen Variablen verändert, oder? Kann das nicht problematisch sein, denn es ist ja möglich, dass die anderen UVs in einem anderen Zusammenhang zur AV stehen? Bin ich gezwungen für jede UV dann eine andere Transformation durchzuführen?
4.Manche Variablen können auch nicht einfach logarithmiert werden, weil sie den Wert 0 beinhalten. Was dann?
5.Kann man Dummy Variablen dann einfach unverändert lassen?

Ich habe wirklich versucht mir das mit Büchern und Googeln zu erkären. Aber meistens hören die Erklärungen dort auf, wo meine Fragen beginnen. Deshalb wäre ich wirklich sehr froh, wenn mir jemand helfen könnte/würde.

Viele hoffnungsvolle Grüße
Zuletzt geändert von Ma_rie am Sa 9. Mai 2015, 10:38, insgesamt 2-mal geändert.
Ma_rie
Mitglied
Mitglied
 
Beiträge: 27
Registriert: So 21. Sep 2014, 13:31
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Linearisierung multiple Regression

Beitragvon strukturmarionette » So 21. Sep 2014, 17:10

Hi,

Die Fragen nochmal zusammengefasst:

1.Woher weiß man, welche Variable man transformieren muss?

- Es MUSS nichts transformiert werden.

2.Habe ich das richtig verstanden, dass es dann sinnvoll ist, sowohl Uv als auch AVs zu logarithmieren, wenn der Zusammenhang exponentiell ist?


- Nein

3.Wenn ich die abhängige Variable transformiere, wird ja der Zusammenhang mit allen unabhängigen Variablen verändert, oder? Kann das nicht problematisch sein, denn es ist ja möglich, dass die anderen UVs in einem anderen Zusammenhang zur AV stehen? Bin ich gezwungen für jede UV dann eine andere Transformation durchzuführen?


- s.o.

4.Manche Variablen können auch nicht einfach logarithmiert werden, weil sie den Wert 0 beinhalten. Was dann?

- s.o.

5.Kann man Dummy Variablen dann einfach unverändert lassen?


s.o.

Ein Variablen- und Stichprobenbeschreibung an dieser Stelle wäre nützlich(er).

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4353
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

Re: Linearisierung multiple Regression

Beitragvon Ma_rie » So 21. Sep 2014, 18:36

Danke für die Antworten. Dann ist es ja so wie ich befürchtet habe und ich habe nichts verstanden.

Ich beschreibe gern alles so ausführlich wie nötig. Wenn eine Info fehlt, dann reiche ich die auch gerne nach. Ich brauche wirklich Hilfe..

Die abhängige Variable ist die metrisch und stetig. Dabei gibt es sehr viele Fälle bei denen der Wert der AV sehr niedrig ist und sehr wenige bei denen er hoch ist. Die Verteilung ist also rechtsschief.

Ich habe wie gesagt noch nicht alle UVS ins Modell eingefügt. Bisher habe ich immer mit ca. 3-4 UVs getestet. Die sind metrisch. Was wäre noch wichtig zu wissen?

Dabei habe ich dann eben im Residuenplot ein so starkes Muster entdeckt, dass ich vermutet habe, dass es sich nicht um einen linearen Zusammenhang handelt und dass die Annahme der Homoskedastizität verletzt ist.. ich denke also, wenn ich nicht transformiere, wird das Modell keine Aussagekraft haben.
Zuletzt geändert von Ma_rie am Sa 9. Mai 2015, 10:42, insgesamt 1-mal geändert.
Ma_rie
Mitglied
Mitglied
 
Beiträge: 27
Registriert: So 21. Sep 2014, 13:31
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Linearisierung multiple Regression

Beitragvon PonderStibbons » Mo 22. Sep 2014, 10:14

Um was geht es eigentlich inhaltlich bei der Studie?

Jedenfalls sehen die Residuen sehr viel mehr nach einer zufälligen Punktewolke aus wenn ich zunächst mal die abhängige Variable logarithmiere.

Das klingt danach, als wäre es ausreichend. Du kannst
es ja noch formal mal testen.

Ist die Heteroskedaszität nach wie vor stark, kommt die
Verwendung von "robusten Schätzern" der Standardfehler
(Huber-White Schätzer) in Frage. Das Problem bei
Heteroskedaszität besteht ja darin, dass die Standardfehler
verzerrt werden, was die Signifikanztests unzuverlässig
macht.

Von den UVs würde ich die Finger lassen, wie soll man das
sonst nachher interpretieren?

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Linearisierung multiple Regression

Beitragvon Ma_rie » Mo 22. Sep 2014, 12:03

Danke für deinen Input! Bin echt froh wenn ich mit jemand darüber sprechen kann.

Ich wollte das auch gerne so machen, dass ich nur die AV logarithmiere. Es sieht dann zwar etwas besser aus, aber nach meinem Verständnis nicht zufällig.
Zuletzt geändert von Ma_rie am Sa 9. Mai 2015, 10:43, insgesamt 1-mal geändert.
Ma_rie
Mitglied
Mitglied
 
Beiträge: 27
Registriert: So 21. Sep 2014, 13:31
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Linearisierung multiple Regression

Beitragvon PonderStibbons » Mo 22. Sep 2014, 13:58

Es geht um Filme AV sind die Kinobesucher

Etwas substanzieller wäre schön. "Ich möchte die Zahl der Besucher von
Kinovorstellungen vorhersagen. Zu diesem Zweck habe ich die Anzahl
bei 160 verschiedenen Vorstellungen erhoben. Vorhersagen möchte
ich die Besucherzahl durch Filmgenre, Wochentag, (...)" . So in der Art.
Und einen kurzen Überblick, wie sich die AV verteilt, wäre auch
nicht schlecht, mindestens Min/Max, Median, Mittelwert, SD.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Linearisierung multiple Regression

Beitragvon Ma_rie » Mo 22. Sep 2014, 15:08

OK das tut mir Leid.
So in etwa ist es. Ich möchte herausfinden, ob und wie viel Einfluss verschiedene Faktoren auf den Erfolg von Filmen im Kino haben. Wie gesagt hab ich dafür Daten von ca. 160 Filmen erhoben und Erfolg als Anzahl der Kinobesucher definiert. UVs sind einige metrische Variablen wie Kopienanzahl, Kritikerwertung, Zuschauerwertung, und verschiedenen Daten von Webseiten wie bspw Klickzahlen. Dann habe ich noch einige Dummy Variablen wie Genre, Altersbegrenzung, bekannte Namen im Cast/ unter den Regiesseuren/ Produzenten.
Zuletzt geändert von Ma_rie am Sa 9. Mai 2015, 10:43, insgesamt 1-mal geändert.
Ma_rie
Mitglied
Mitglied
 
Beiträge: 27
Registriert: So 21. Sep 2014, 13:31
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Linearisierung multiple Regression

Beitragvon PonderStibbons » Mo 22. Sep 2014, 21:02

Wie gesagt hab ich dafür Daten von ca. 160 Filmen erhoben und Erfolg als Anzahl der Kinobesucher definiert. UVs sind einige metrische Variablen wie Kopienanzahl, Kritikerwertung, Zuschauerwertung, und verschiedenen Daten von Webseiten wie bspw Klickzahlen. Dann habe ich noch einige Dummy Variablen wie Genre, Altersbegrenzung, bekannte Namen im Cast/ unter den Regiesseuren/ Produzenten.

Das scheint auf weit mehr als die ursprünglich erwähnten
10 Prädiktoren hinauszulaufen.

Vielleicht mildert sich das Problem, wenn Du Dein komplettes Modell
spezifiziert hast, also womöglich alle wichtigen Variablen und
eventuell nichtlineare (x²) oder Wechselwirkungs-Prädiktoren
enthält. Über logarithmierte Prädiktoren weiß ich leider nichts,
kann demnach auch nicht ausschließen, dass sie Sinn ergeben.

Robuste Standardfehler kann man sich in SPSS anfordern, wenn
man die Regression unter der Prozedur "generalisierte lineare
Modelle" (nicht zu verwechseln mit dem allgmeinen linearen
Modell) durchführt. Außerdem gibt es ein SPSS-Macro von Hayes
namens HCREG http://www.afhayes.com/spss-sas-and-mpl ... -code.html

HT

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Linearisierung multiple Regression

Beitragvon Ma_rie » Di 23. Sep 2014, 09:45

Erstmal vielen lieben Dank, dass für deine Antworten. Ich weiß was wirklich sehr zu schätzen

Du hast recht. Es sind mehr als 10 Prädiktoren. Die Zahl ist wohl noch veraltet vom Anfangsstand der Untersuchung. Und ich habe auch nicht berücksichtigt, dass es durch die Dummy Variablen mehr sind, als wenn man sie zusammengefasst aufzählt. Bei einer Stichprobe von 160 muss ich ja aufpassen, dass es nicht zu viele Uvs werden oder? Ich habe ganz verschiedene Richtwerte gesehen. Hast du da vielleicht einen Tipp?

Irgendwie stehe ich leider noch vor der Frage vom Anfang wie ich jetzt tatsächlich entscheiden kann, was die beste Transformation ist und ob transformiert werden soll. Bin ich da auf dem richtigen Weg mit der Schaubilder Betrachtung? Oder mit dieser Kurvenanpassungsfunktion?
Ich hab das ja so gemacht, dass ich zunächst das ganze Modell mit allen Variablen getestet habe. Da ist mir das mit der Heteroskedastizität aufgefallen. Dann wollte ich mich über die einzelnen Variablen vorantasten woran es liegt.. Könntest du mir vielleicht sagen, wie die richtige Vorgehensweise hier ist? Ich hätte/hatte es jetzt so gemacht:

1. Regression mit allen untransformieren UVs und der untransformieren AV
2. Residuen checken a) für alle Variablen (die ganze Regression?) b) partielle Diagramme --> Schaubilder weisen Muster auf
3. lineare Beziehungen der Uvs mit der Av checken über Streudiagramme --> Schaubilder weisen auf Nichtlinearität hin
4. Variablen transformieren
5. Regression mit transformierten Variablen
6. 2.-3. evtl 4.

Bei 4. bin ich dann eben ausprobierend vorgegangen. Erst die AV (->Schaubilder immernoch schlecht). Dann habe ich die einzenen Uvs transformiert und hab mich weiter an den Schaubildern orientiert und geschaut wann die Residuen eine Wolke und die Steudiagramme einen halbwegs linearen Zusammenhang ergeben. Aber ich bin mir auch nicht sicher ob man einfach so viel an den Variablen drehen darf, bis das halbwegs linear aussieht, oder ob das gar nicht Sinn der Sache ist?

Ich befürchte jedenfalls, dass es nicht nur an der Heteroskedastizität liegt, sondern dass die Zusammenhänge auch nicht linear sind. Dann würden ja die robusten Standardfehler glaube ich nicht genügen, oder?

Deinen Einschub mit den x² hab ich leider nicht ganz verstanden. Meintest du das einfach als Beispiel, dass sie statt linear quadratisch zusammenhängen können?

Es tut mir Leid das ich so viele Fragen habe, ich kann mir vorstellen, dass das anstrengend ist. Aber ich wäre wirklich sehr froh, wenn du mir weiter helfen würdest :o)
Zuletzt geändert von Ma_rie am Sa 9. Mai 2015, 10:45, insgesamt 1-mal geändert.
Ma_rie
Mitglied
Mitglied
 
Beiträge: 27
Registriert: So 21. Sep 2014, 13:31
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Linearisierung multiple Regression

Beitragvon PonderStibbons » Di 23. Sep 2014, 10:20

Ich befürchte jedenfalls, dass es nicht nur an der Heteroskedastizität liegt, sondern dass die Zusammenhänge auch nicht linear sind. Dann würden ja die robusten Standardfehler glaube ich nicht genügen, oder?

Wenn Du eine UV transformierst, kann es ja durchaus den
Effekt haben, dass die Beziehung dadurch linear wird.
Deinen Einschub mit den x² hab ich leider nicht ganz verstanden. Meintest du das einfach als Beispiel, dass sie statt linear quadratisch zusammenhängen können?

Du hast eine enorme Spannbreite von fast-Null Besuch bis zum super-Blockbuster,
sehr schief verteilt. Ob das mit Deinem set von Variablen gut vorhersagbar
ist, weiß ich nicht. Ich kann mir aber vorstellen, dass es auch Beziehungen
gibt der Art ln(Besuch) = b1*x1² oder ln(Besuch) = b2*ln(x2) . Aber
da kenne ich mich mit der Materie "Vorhersage von Kinobesuch" zu wenig aus.
Es tut mir Leid das ich so viele Fragen habe, ich kann mir vorstellen, dass das anstrengend ist. Aber ich wäre wirklich sehr froh, wenn du mir weiter helfen würdest

Der eigentliche Experte für Regressionsmodelle ist anscheinend
gerade nicht da. Ich selbst würde es mit einem wohlüberlegten
theoretischen Modell mit ca. 8 Prädiktoren versuchen, Besuch
logarithmieren, die UVs nur transformieren wenn ich dafür eine
theoretische Begründung hätte, und dann im Zweifel das Ergebnis
mit den robusten Standardfehler-Ergebnissen (SPSS generalized
linear model bzw. Hayes-Macro) vergleichen.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Ma_rie

Nächste

Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste

cron