Zentrierung und andere

Alle Verfahren der Regressionanalyse.

Zentrierung und andere

Beitragvon erichlebt » Mi 5. Sep 2012, 21:58

Hi Statis,

ich muss/darf 'ne Regressionsanalyse durchführen und bin mir recht unsicher, daher Fragen über Fragen:

Thema ist der Einfluss sozioökonomischer Faktoren auf die körperliche Verfassung (den body-mass-index) und die Daten stammen aus dem Allbus 2008.
AV ist natürlich der BMI.
Kann man bei einer Fallzahl von ca. 1500 Normalverteilung unterstellen oder muss ich das extra prüfen?

Eine der UVs ist das Alter und ich bin mir unsicher, ob ich das um den MW zentrieren sollte/muss. Mein Prof hat was ähnliches gerechnet und folgendes mit dem Alter (v539) angestellt:

comp agec = v539 - 47 .
comp agecsq = agec * agec .

(Median ist eigentlich 48 Jahre, MW 48,8 Jahre, aber die kummulierten Prozent liegen bei 47 Jahren bei 49,7% und bei 48 Jahren bei 51,3%. Daher -47?)

Aber wie gesagt: Wozu überhaupt das Zentrieren?

Vielen Dank im Voraus

Erich
erichlebt
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mi 5. Sep 2012, 21:28
Danke gegeben: 8
Danke bekommen: 0 mal in 0 Post

Re: Zentrierung und andere

Beitragvon Streuner » Mi 5. Sep 2012, 22:17

Nabend Erich,


genaueres könnte ich dir evtl sagen, wenn ich mich nochmal genauer einlesen aber beim ersten drüber fliegen kam mir etwas in den Sinn.

Wurde im späteren Verlauf der Varianzinflationsfaktor (VIF) berechnet ?
Der setzt nämlich ein zentriertes ( / skaliertes ) Modell vorraus.

Sicherlich gibt es noch andere Verfahren die ein solches Modell voraussetzen , aber mir ist grad spontan nur der VIF bekannt.


Vielleicht hat es ja damit was zu tun , falls nicht kann dir sicherlich ein kluger Kopf hier weiterhelfen.


Mit freundlichen Grüßen,

M.
Streuner
Power-User
Power-User
 
Beiträge: 58
Registriert: Di 25. Okt 2011, 17:28
Danke gegeben: 0
Danke bekommen: 14 mal in 14 Posts

folgende User möchten sich bei Streuner bedanken:
erichlebt

Re: Zentrierung und andere

Beitragvon erichlebt » Mi 5. Sep 2012, 22:57

Streuner hat geschrieben:Wurde im späteren Verlauf der Varianzinflationsfaktor (VIF) berechnet ?


Servus Streuner,

soweit ich das beurteilen kann nicht. Alles was dann mit dem Alter noch gemacht wurde war folgende Regression:

REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT tpimean
/METHOD=ENTER agec agecsq east female sy2008.

Ich weiß nicht, ob es danach noch irgendwie weiter analysiert wurde, aber in der Syntax tauchen agec oder agecsq später nicht noch mal auf.
Thema war grundsätzlich lineare und logistische (OLS-)Regression. VIF sagt mir leider gar nix.
erichlebt
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mi 5. Sep 2012, 21:28
Danke gegeben: 8
Danke bekommen: 0 mal in 0 Post

Re: Zentrierung und andere

Beitragvon Druss » Do 6. Sep 2012, 01:28

Hallo,

zentrieren von regressoren macht Sinn wenn:

- du den Intercept interpretieren möchtest/sollst
- du bsp. quadratische Effekte im Modell hast um so die strukturelle Multikolinearität in den Griff zu kriegen (sonst evtl. insignifikanter Effekt).

Die Normalverteilungsannahme die du an deine Residuen triffst kannst du anhand geeigneter Plots prüfen. Bps. QQ-Plot oder auch mit einem geeigneten Test testen.

Gruß
Druss
Druss
Power-User
Power-User
 
Beiträge: 92
Registriert: Mo 29. Aug 2011, 14:20
Danke gegeben: 0
Danke bekommen: 10 mal in 10 Posts

folgende User möchten sich bei Druss bedanken:
erichlebt

Re: Zentrierung und andere

Beitragvon Holgonaut » Do 6. Sep 2012, 08:50

Hi Leute,

zwei Anmerkungen:
a) ich wüsste nicht, warum der VIF zentrierte Variablen voraussetzt, da er ja auf den R-Quadrat der Regression des jeweiligen Prädiktors auf anderen Prädiktoren beruht...
b) Zentrieren hilft nicht gegen Multikollinearität, siehe
Echambadi, R., & Hess, J. D. (2007). Mean-centering does not alleviate collinearity problems in moderated multiple regression models. Marketing Science, 26(3), 438-445.

Wenn ein Effekt unterschiedlich n.s./sign. ist je nach Zentrierung oder nicht, dann liegt das daran, dass er was anderes bedeutet.

Was Sinn macht ist, bei Interaktionen/Moderator-Effekten zu zentrieren, weil - wie Druss sagte - die Effekte eine sinnvollere Bedeutung bekommen (google oder such im Forum mal nach first-order-Effekt) und auch Grafiken sinnvoller sind.

Für deinen Fall macht es keinen Sinn.

Kann man bei einer Fallzahl von ca. 1500 Normalverteilung unterstellen oder muss ich das extra prüfen?


Die Frage suggeriert, dass du glaubst, dass eine Normalverteilung der Variablen nötig ist. Das ist falsch. Die Residuen der Regression müssen normalverteilt und homoskedastisch sein.

Grüße
Holger
Holgonaut
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 767
Registriert: Do 2. Jun 2011, 18:20
Danke gegeben: 3
Danke bekommen: 207 mal in 198 Posts

folgende User möchten sich bei Holgonaut bedanken:
erichlebt

Re: Zentrierung und andere

Beitragvon PonderStibbons » Do 6. Sep 2012, 09:47

Kann man bei einer Fallzahl von ca. 1500 Normalverteilung unterstellen oder muss ich das extra prüfen?

Wie Holgonaut bereits angemerkt hat, es geht nicht um die Variablen, sondern um die
Verteilung der Residuen. Warum man bei hohen Fallzahlen unterstellen dürfen soll, dass
eine Verteilung normal wäre, ist mir allerdings nicht bekannt. Unabhängig davon, selbst
eine Normalverteilung der Residuen gilt bei solchen Stichprobengrößen als nicht mehr
von Belang für korrekte inferenzstatistische Testergebnisse.
Aber wie gesagt: Wozu überhaupt das Zentrieren?

Das fragst Du am besten direkt Deinen Professor. Im Falle dass man einen
Prädiktor zusätzlich noch quadriert, verbessert man durch vorheriges
Zentrieren die Interpretierbarkeit. Aber vielleicht hatte er anderes
im Sinn.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11363
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
erichlebt

Re: Zentrierung und andere

Beitragvon erichlebt » Do 6. Sep 2012, 13:33

Holgonaut hat geschrieben:Hi Leute,

zwei Anmerkungen:
a) ich wüsste nicht, warum der VIF zentrierte Variablen voraussetzt, da er ja auf den R-Quadrat der Regression des jeweiligen Prädiktors auf anderen Prädiktoren beruht...
b) Zentrieren hilft nicht gegen Multikollinearität, siehe
Echambadi, R., & Hess, J. D. (2007). Mean-centering does not alleviate collinearity problems in moderated multiple regression models. Marketing Science, 26(3), 438-445.

Wenn ein Effekt unterschiedlich n.s./sign. ist je nach Zentrierung oder nicht, dann liegt das daran, dass er was anderes bedeutet.

Was Sinn macht ist, bei Interaktionen/Moderator-Effekten zu zentrieren, weil - wie Druss sagte - die Effekte eine sinnvollere Bedeutung bekommen (google oder such im Forum mal nach first-order-Effekt) und auch Grafiken sinnvoller sind.

Für deinen Fall macht es keinen Sinn.

Kann man bei einer Fallzahl von ca. 1500 Normalverteilung unterstellen oder muss ich das extra prüfen?


Die Frage suggeriert, dass du glaubst, dass eine Normalverteilung der Variablen nötig ist. Das ist falsch. Die Residuen der Regression müssen normalverteilt und homoskedastisch sein.

Grüße
Holger



Erst mal danke an alle.

Ich wusste schon dass die Nummer schwierig wird. Das Problem ist, dass man überall was anderes liest.
Zur Fallzahl: In vielen Studien, Arbeiten etc. die ich gelesen habe wird genau die Normalverteilung der Variablen als Bedingung genannt. (Nur ein Beispiel von vielen: http://edoc.ub.uni-muenchen.de/5544/1/D ... ara_L..pdf , hierin Seite 4, Dokumentseite 8. Aber auch in vielen Lehrbüchern steht ähnliches.)

Auch im Seminar hieß es, dass eine Normalverteilung (insbesondere der AV) Grundbedingung ist und man bei einer genügend großen Fallzahl/Stichprobe Normalverteilung unterstellen kann. Wie gesagt: es handelt sich um eine Einführungsveranstaltung zur Regression, ist das vll. eine - zwar falsche aber für Anfänger leichter verständliche - Annahme? (Was ich zwar auch für schwachsinnig halten würde, da es dann eben zu genau der Verwirrung führt die gerade bei mir herrscht.)

Mit dem Prof sprechen ist so ne Sache: Er biete seine Hilfe nur denen an die in allen seinen Samstagstutorien anwesend sind/waren, was mir aus beruflichen und familiären Gründen nicht möglich ist/war.

Ich möchte aber meine Statistik/SPSS-Kenntnisse weiter ausbauen, da mich das Thema an sich interessiert.

Vielleicht mag mir ja jemand hier 'n bisschen auf die Finger schauen/unter die Arme greifen. Die Analyse erfolgt im Rahmen einer Hausarbeit, Umfang 10 bis maximal 15 Seiten. (Die Annahmen die ich im Folgenden äußere basieren auf meinem derzeitigen Statistikwissen, und können daher durchaus falsch sein ;) , bitte Fehler direkt ansprechen)

Was ich vorhabe, ist wie oben schon beschrieben eine Analyse des Einflusses sozioökonomischer Faktoren auf den BMI. Die Annahme ist, dass schlechte sozioökonomische Faktoren einen negativen Einfluss auf den BMI eines Menschen haben, diesen also erhöhen.

Als AV möchte ich den BMI nutzen. Der BMI ist ja verhältnisskaliert und daher ohne Transformation nutzbar. Der K-S-Test sagt die Variable ist normalverteilt, im Boxplot sieht man einige Ausreißer. Sollten diese eliminiert werden? Einerseits sind das ja auch die Fälle die interessieren, andererseits kann bei einem BMI von >40 aber auch eine Erkrankung vorliegen, was dann wiederum Auswirkungen auf das Einkommen, die körperliche Betätigungsfähigkeit etc, hat.

Als UV kommen viele Items in Frage:

Alter (verhältnisskaliert)
Schulbildungsgrad (ordinalskaliert, daher Rekodierung als Dummy-Variable)
Einkommen (verhältnisskaliert)
Fernsehdauer min/Woche (verhältnisskaliert)
Spaß an körperl. Betätigung (ordinal, Dummy nötig)
Oben-Unten Selbsteinstufung der Schichtzugehörigkeit (intervallskaliert, 1-10)
Mitgliedschaft Sportverein (nominal, Rekodierung in 1 Dummy: Aktives Mitglied ja/nein)

Übernehme ich mich mit so vielen UV? Viele sind ja auch miteinander korreliert (Bildungsgrad-Einkommen, Bildungsgrad-Selbsteinstufung, Alter-Einkommen usw.) Sollte ich mich auf weniger UV beschränken, oder ganz und gar nur zwei oder eine?
Das ganze möchte ich einer linearen Regression unterziehen.

Jetzt lass ich's mal gut sein, sonst wird die wot viel zu lang.

Bin für jede Hilfe/Anregung dankbar.

Grüße

Erich
erichlebt
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mi 5. Sep 2012, 21:28
Danke gegeben: 8
Danke bekommen: 0 mal in 0 Post

Re: Zentrierung und andere

Beitragvon PonderStibbons » Do 6. Sep 2012, 14:12

In vielen Studien, Arbeiten etc. die ich gelesen habe wird genau die Normalverteilung der Variablen als Bedingung genannt. (Nur ein Beispiel von vielen: http://edoc.ub.uni-muenchen.de/5544/1/D ... ara_L..pdf , hierin Seite 4, Dokumentseite 8. Aber auch in vielen Lehrbüchern steht ähnliches.)

In manchen steht es noch falsch. Meist aber nur mißverständlich. Da müssen alle
aber auch mal genau genug lesen. Auf Seite 4 des verlinkten Textes ist Sachs (2002) falsch
wiedergegeben, auf Seite 10 des Textes hingegen korrekt: unterm zweiten Spiegelstich
steht "normalverteilte Residuen", was aber die Doktorandin leider nicht daran hindert,
direkt darunter trotzdem weiter von normalverteilten Daten zu schreiben.
Auch im Seminar hieß es, dass eine Normalverteilung (insbesondere der AV) Grundbedingung ist und man bei einer genügend großen Fallzahl/Stichprobe Normalverteilung unterstellen kann.

Das erste ist falsch, und das zweite ist Unsinn. Wie soll sich eine nicht-normale
Verteilung in eine Normalverteilung verwandeln, wenn nur die Stichprobe groß
genug ist?

Bei hinreichend großen Stichproben sind manche Parameter dieser Stichproben
normalverteilt. Z.B: wenn ich aus einer extrem schiefen Grundgesamtheit immer wieder
Stichproben der Größe 200 ziehe, dann sind die Mittelwerte dieser 200er-Stichproben
normalverteilt. Nicht die jeweils 200 Rohwerte in den einzelnen Stichproben. Und die Verteilung
von Parametern ist es, was letztlich für die Signifikanztests zählt, nicht die Verteilungen der
Rohwerte.
ist das vll. eine - zwar falsche aber für Anfänger leichter verständliche - Annahme?

Nein, leicht verständlich wäre: "Sollte die Stichprobe groß genug sein, dann widmet
Eure Aufmerksamkeit ruhig anderen Dingen als der Normalverteilung [der Residuen]."
im Boxplot sieht man einige Ausreißer. Sollten diese eliminiert werden?

Normalerweise nicht.
Übernehme ich mich mit so vielen UV?

Sieht nach einem ziemlichen Kuddelmuddel aus sozioökonomischen, demografischen
und Lebensstilfaktoren aus. Wirkt eher beliebig und theoriefrei auf mich. Auch Wechselwirkungen werden nicht erwähnt. Aber das sind inhaltliche Fragen, keine statistischen. Es ist allerdings
zu bedenken, dass die Stichprobe in einer Regression mindestens 10x, besser mindestens
20x Anzahl der Prädiktoren betragen soll.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11363
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
erichlebt

Re: Zentrierung und andere

Beitragvon erichlebt » Do 6. Sep 2012, 16:34

Danke PonderStibbons.

PonderStibbons hat geschrieben:Das erste ist falsch, und das zweite ist Unsinn. Wie soll sich eine nichtnormale
Verteilung in eine Normalvetrteilung verwandeln, wenn nur die Stichprobe groß
genug ist?


Könnte es sein, dass die Aussage auf (sozialwissenschaftliche) Untersuchungen deren Grundgesamtheit die Bevölkerung eines Landes ist (wie z.B. im Allbus) abzielt? Für solche Daten sollte, bei ausreichender Stichprobengröße, die Annahme gelten, oder?

PonderStibbons hat geschrieben:Sieht nach einem ziemlichen Kuddelmuddel aus sozioökonomischen, demografischen
und Lebensstilfaktoren aus. Wirkt eher beliebig und theoriefrei auf mich. Auch Wechselwirkungen werden nicht erwähnt. Aber das sind inhaltliche Fragen, keine statistischen. Es ist allerdings
zu bedenken, dass die Stichprobe in einer Regression mindestens 10x, besser mindestens
20x Anzahl der Prädiktoren betragen soll.


Bildung, Einkommen, Fersehkonsum, Vereinsmitgliedschaft und Oben-Unten Einstufung sind sozioökonomische Faktoren.?
Ich suche gerade noch nach den Variablen die überhaupt einen Effekt haben könnten, daher hab ich einfach mal 'ne Liste von möglichen Einflussfaktoren zusammengesucht. Dass diese untereinander korrelieren habe ich doch erwähnt, oder meinst Du mit Wechselwirkungen was anderes?

Ernst gemeinte Frage: Was heißt theoriefrei? Dass ich mich nicht auf eine existierende Theorie berufe und diese prüfe? Kann ich nicht selbst eine Theorie aufstellen (die natürlich viel besser ausformuliert und begründet sein muss als oben) und diese testen?

Mit den Allbus-Daten komme ich auf mindestens 1200 Fälle, das heißt an sich wäre gegen so viele Prädiktoren nichts einzuwenden?

Merci

Erich
erichlebt
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mi 5. Sep 2012, 21:28
Danke gegeben: 8
Danke bekommen: 0 mal in 0 Post

Re: Zentrierung und andere

Beitragvon Holgonaut » Do 6. Sep 2012, 17:34

Moin,

Könnte es sein, dass die Aussage auf (sozialwissenschaftliche) Untersuchungen deren Grundgesamtheit die Bevölkerung eines Landes ist (wie z.B. im Allbus) abzielt? Für solche Daten sollte, bei ausreichender Stichprobengröße, die Annahme gelten, oder?


Was genau die Population ist, ist völlig irrelevant für die statistischen Implikationen für eine unverzerrte und effiziente Schätzung von Parametern.

Ich suche gerade noch nach den Variablen die überhaupt einen Effekt haben könnten, daher hab ich einfach mal 'ne Liste von möglichen Einflussfaktoren zusammengesucht.


Find ich sinnvoll. Vielleicht sieht Ponder das anders, aber das ist eine (rudimentäre) Theorie.

Die Anzahl der einzubeziehenden Variablen sollte auch m.E. nicht nach der Stichprobengröße erfolgen, sondern nach ihrer Relevanz. Fehlen wichtige - und mit anderen Prädiktoren korrelierende Prädiktoren,
kannst du die Regressionkoeffizienten schlecht interpretieren, weil sie verzerrt sind, egal wie groß die Stichprobe ist.

Gruß
Holger
Holgonaut
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 767
Registriert: Do 2. Jun 2011, 18:20
Danke gegeben: 3
Danke bekommen: 207 mal in 198 Posts

folgende User möchten sich bei Holgonaut bedanken:
erichlebt

Nächste

Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 12 Gäste