Hauptkomponentenregression

Distanzmaße, Diskriminanzanalyse, graphische Analysen etc.

Hauptkomponentenregression

Beitragvon StatistikTom » Fr 4. Mär 2016, 22:22

Hallo zusammen,

ich möchte das Problem der Multikollinearität bei der linearen Regression mithilfe der Hauptkomponentenregression umgehen.
Diese besteht ja zunächst aus der Hauptkomponentenanalyse und einer darauf folgenden linearen Regression.
Mit SPSS kann ich zumindest eine Hauptkomponentenanalyse durchführen, die mir als Ergebnis Factorscores zurückgibt. Allerdings weiß ich nicht wie ich diese für meine lineare Regression verwenden kann.
Kann ich diese Factorscores als neue unabhängige Variablen für meine Regression verwenden? Das Problem dabei ist ja, dass die Factorscores standardisiert sind und somit einen komplett anderen Wertebereich abdecken als die ursprünglichen unstandardisierten Variablen?

Oder allgemein gefragt: Welche Werte oder Ergebnisse nach Durchführung der Hauptkomponentenanalyse kann ich als neue unabhängige Variablen verwenden, die ich dann in meiner Regression verwenden kann?

Ist dieses Verfahren überhaupt mit irgendeinem Statistikprogramm durchführbar?
Ich versuche es momentan mit SPSS und Matlab ;)

Ich hoffe es kann mir jemand helfen. falls mein problem nicht verständlich ist, gerne nachfragen :)

Viele Grüße
Tom
StatistikTom
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Fr 4. Mär 2016, 16:25
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Hauptkomponentenregression

Beitragvon PonderStibbons » Fr 4. Mär 2016, 23:55

ich möchte das Problem der Multikollinearität bei der linearen Regression mithilfe der Hauptkomponentenregression umgehen.

Wie ist denn der Sachverhalt (Thema der Studie, Fragestellung, Stichprobengröße, Zahl und Art der erhobenen Variablen)?

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Hauptkomponentenregression

Beitragvon StatistikTom » Sa 5. Mär 2016, 10:49

Hey,
ich möchte verschiedene Einflussfaktoren auf den Strompreis untersuchen, ich habe da ca. 10 verschiedene UVs, wovon 4 stark multikollinear sind.
Für alle Variablen habe ich eine rießige Stichprobengröße von ca. 35.000 Werten, da es sich um stündliche Werte über 4 Jahre handelt (ich weiß meine Stichprobe ist eigentlich zu groß ).

Mein erster Schritt war jetzt mit den 4 stark multikollinearen UVs eine Hauptkomponenetenanalyse durchzuführen, aber wie der nächste Schritt zur Verwendung dieser Ergebnisse für meine Regression ist, weiß ich leider nicht.

Viele Grüße
Tom
StatistikTom
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Fr 4. Mär 2016, 16:25
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Hauptkomponentenregression

Beitragvon PonderStibbons » Sa 5. Mär 2016, 14:34

ich möchte verschiedene Einflussfaktoren auf den Strompreis untersuchen, ich habe da ca. 10 verschiedene UVs, wovon 4 stark multikollinear sind.

Wenn sie derart redundant sind, dann schmeiß' doch welche raus.
Für alle Variablen habe ich eine rießige Stichprobengröße von ca. 35.000 Werten,

Dann würde Multikollinearität kein Problem darstellen.
da es sich um stündliche Werte über 4 Jahre handelt (ich weiß meine Stichprobe ist eigentlich zu groß ).

Stichproben können niemals zu groß sein.
Mein erster Schritt war jetzt mit den 4 stark multikollinearen UVs eine Hauptkomponenetenanalyse durchzuführen,
aber wie der nächste Schritt zur Verwendung dieser Ergebnisse für meine Regression ist, weiß ich leider nicht.

Na eben.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Hauptkomponentenregression

Beitragvon StatistikTom » Sa 5. Mär 2016, 16:33

Hey,
das Problem ist, dass meine Problemstellung so ist, dass ich den Einfluss aller UV, also auch den der 4 multikollinearen Variablen auf meine AV messen soll.
Das heißt, es ist klar, dass diese stark korrelieren aber trotzdem soll ich eine Regression durchführen, und zwar mit allen UV (stark korrelierende UVs einfach wegzulassen ist also nicht das was ich machen soll).
Und da diese 4 UVs so stark korrelieren, darf ich die Ergebnisse ja eigentlich nicht verwenden, da die Ergebnisse der linearen Regression dann verzerrt wären.
In der Literatur habe ich gelesen, dass das Problem der Multikollinearität bei der linaren Regression mithilfe der Hauptkomponentenregression gelöst werden kann, also dass ich die 4 UVs so transformiere, dass sie unabhängig voneinander sind.

"Mein erster Schritt war jetzt mit den 4 stark multikollinearen UVs eine Hauptkomponenetenanalyse durchzuführen,
aber wie der nächste Schritt zur Verwendung dieser Ergebnisse für meine Regression ist, weiß ich leider nicht."

Na eben.

Was meinst du mit dem na eben? ;)

Viele Grüße
Tom
StatistikTom
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Fr 4. Mär 2016, 16:25
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Hauptkomponentenregression

Beitragvon strukturmarionette » Sa 5. Mär 2016, 20:13

HI,

das Problem ist, dass meine Problemstellung so ist, dass ich den Einfluss aller UV, also auch den der 4 multikollinearen Variablen auf meine AV messen soll.

- dann ist Deine Problemstellung (so wie Sie von Dir aufgefassst wird) das eigentliche Problem.
- Beachte auch: Korrekte Spezifikation eines Regressionsmodell ist die Anwendunsgvoraussetzung dieses Nummer 1.

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4353
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

Re: Hauptkomponentenregression

Beitragvon PonderStibbons » Sa 5. Mär 2016, 22:47

StatistikTom hat geschrieben:Und da diese 4 UVs so stark korrelieren, darf ich die Ergebnisse ja eigentlich nicht verwenden, da die Ergebnisse der linearen Regression dann verzerrt wären.

Wie kommst Du darauf? Bzw. was genau soll verzerrrt sein? Bitte auch den Umstand dabei
einbeziehen, dass hier n=35.000 sein soll, nicht n=35 oder so.
In der Literatur habe ich gelesen, dass das Problem der Multikollinearität bei der linaren Regression mithilfe der Hauptkomponentenregression gelöst werden kann, also dass ich die 4 UVs so transformiere, dass sie unabhängig voneinander sind.

Das kann ich nicht nachvollziehen. Allenfalls wird auf Basis der Hauptkomponentenanaylse
aus den 4 Variablen 1 Konstrukt gebildet, eben die Hauptkomponente. Den Wert jedes
Stichprobenelementes auf dieser Hauptkomponente wäre eine Art gewichteter Summe
aus den 4 Einzelwerten des Stichprobenelementes auf den 4 Variablen.

Was meinst du mit dem na eben? ;)

Das für mich kein Sinn erkennbar ist. Woher stammt denn Deine Literatur und worauf bezieht sie sich?

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Hauptkomponentenregression

Beitragvon StatistikTom » So 6. Mär 2016, 16:04

Hi,
erstmal danke für eure Antworten:)

Eine bestimmte Literatur habe ich nicht aber wenn man Multikollinearität bei linearer Regression googelt, bekommt man als Lösungsvorschlag die Hauptkomponentenregression.
"Zum einen wird mit zunehmender Multikollinearität das Verfahren zur Schätzung der Regressionskoeffizienten instabil und Aussagen zur Schätzung der Regressionskoeffizienten zunehmend ungenau" (aus Wikipedia)
Und wenn dann bei meiner Regressionsanalyse bestimmte Grenzwerte für die Toleranz oder den VIF-Faktor überschritten sind, darf ich die Regression ja nicht durchführen.

Allerdings gebe ich euch Recht, dass die Hauptkomponentenregression evtl. nur dann auch Sinn macht, wenn ich die hoch korrelierenden UVs zu weniger Faktoren zusamenfasse.

Aber vllt könnt ihr mir noch bei dem Schritt von der Hauptkomponentenanalyse zu der nachfolgenden Regression helfen.
Wenn ich mit einem Faktor für die 4 UVs weiterrechne, welche Werte kann ich ich dann für die Regression verwenden? Die Factorscores sind ja standardisiert, sodass ich diese nicht wirklich verwenden kann.
Und gibt es eine Möglichkeit den Einfluss der UVs auf den Faktor zu gewichten? oder wie gehe ich da weiter vor?

Viele Grüße
Tom
StatistikTom
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Fr 4. Mär 2016, 16:25
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu weitere Verfahren

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste