Holgonaut hat geschrieben:Hi Leute,
zwei Anmerkungen:
a) ich wüsste nicht, warum der VIF zentrierte Variablen voraussetzt, da er ja auf den R-Quadrat der Regression des jeweiligen Prädiktors auf anderen Prädiktoren beruht...
b) Zentrieren hilft nicht gegen Multikollinearität, siehe
Echambadi, R., & Hess, J. D. (2007). Mean-centering does not alleviate collinearity problems in moderated multiple regression models. Marketing Science, 26(3), 438-445.
Wenn ein Effekt unterschiedlich n.s./sign. ist je nach Zentrierung oder nicht, dann liegt das daran, dass er was anderes bedeutet.
Was Sinn macht ist, bei Interaktionen/Moderator-Effekten zu zentrieren, weil - wie Druss sagte - die Effekte eine sinnvollere Bedeutung bekommen (google oder such im Forum mal nach first-order-Effekt) und auch Grafiken sinnvoller sind.
Für deinen Fall macht es keinen Sinn.
Kann man bei einer Fallzahl von ca. 1500 Normalverteilung unterstellen oder muss ich das extra prüfen?
Die Frage suggeriert, dass du glaubst, dass eine Normalverteilung der Variablen nötig ist. Das ist falsch. Die Residuen der Regression müssen normalverteilt und homoskedastisch sein.
Grüße
Holger
Erst mal danke an alle.
Ich wusste schon dass die Nummer schwierig wird. Das Problem ist, dass man überall was anderes liest.
Zur Fallzahl: In vielen Studien, Arbeiten etc. die ich gelesen habe wird genau die Normalverteilung der Variablen als Bedingung genannt. (Nur ein Beispiel von vielen:
http://edoc.ub.uni-muenchen.de/5544/1/D ... ara_L..pdf , hierin Seite 4, Dokumentseite 8. Aber auch in vielen Lehrbüchern steht ähnliches.)
Auch im Seminar hieß es, dass eine Normalverteilung (insbesondere der AV) Grundbedingung ist und man bei einer genügend großen Fallzahl/Stichprobe Normalverteilung unterstellen kann. Wie gesagt: es handelt sich um eine Einführungsveranstaltung zur Regression, ist das vll. eine - zwar falsche aber für Anfänger leichter verständliche - Annahme? (Was ich zwar auch für schwachsinnig halten würde, da es dann eben zu genau der Verwirrung führt die gerade bei mir herrscht.)
Mit dem Prof sprechen ist so ne Sache: Er biete seine Hilfe nur denen an die in allen seinen Samstagstutorien anwesend sind/waren, was mir aus beruflichen und familiären Gründen nicht möglich ist/war.
Ich möchte aber meine Statistik/SPSS-Kenntnisse weiter ausbauen, da mich das Thema an sich interessiert.
Vielleicht mag mir ja jemand hier 'n bisschen auf die Finger schauen/unter die Arme greifen. Die Analyse erfolgt im Rahmen einer Hausarbeit, Umfang 10 bis maximal 15 Seiten. (Die Annahmen die ich im Folgenden äußere basieren auf meinem derzeitigen Statistikwissen, und können daher durchaus falsch sein
, bitte Fehler direkt ansprechen)
Was ich vorhabe, ist wie oben schon beschrieben eine Analyse des Einflusses sozioökonomischer Faktoren auf den BMI. Die Annahme ist, dass schlechte sozioökonomische Faktoren einen negativen Einfluss auf den BMI eines Menschen haben, diesen also erhöhen.
Als AV möchte ich den BMI nutzen. Der BMI ist ja verhältnisskaliert und daher ohne Transformation nutzbar. Der K-S-Test sagt die Variable ist normalverteilt, im Boxplot sieht man einige Ausreißer. Sollten diese eliminiert werden? Einerseits sind das ja auch die Fälle die interessieren, andererseits kann bei einem BMI von >40 aber auch eine Erkrankung vorliegen, was dann wiederum Auswirkungen auf das Einkommen, die körperliche Betätigungsfähigkeit etc, hat.
Als UV kommen viele Items in Frage:
Alter (verhältnisskaliert)
Schulbildungsgrad (ordinalskaliert, daher Rekodierung als Dummy-Variable)
Einkommen (verhältnisskaliert)
Fernsehdauer min/Woche (verhältnisskaliert)
Spaß an körperl. Betätigung (ordinal, Dummy nötig)
Oben-Unten Selbsteinstufung der Schichtzugehörigkeit (intervallskaliert, 1-10)
Mitgliedschaft Sportverein (nominal, Rekodierung in 1 Dummy: Aktives Mitglied ja/nein)
Übernehme ich mich mit so vielen UV? Viele sind ja auch miteinander korreliert (Bildungsgrad-Einkommen, Bildungsgrad-Selbsteinstufung, Alter-Einkommen usw.) Sollte ich mich auf weniger UV beschränken, oder ganz und gar nur zwei oder eine?
Das ganze möchte ich einer linearen Regression unterziehen.
Jetzt lass ich's mal gut sein, sonst wird die wot viel zu lang.
Bin für jede Hilfe/Anregung dankbar.
Grüße
Erich