Regressionsanalyse mit ~95% Stichprobe

Alle Verfahren der Regressionanalyse.

Regressionsanalyse mit ~95% Stichprobe

Beitragvon Niviella » So 4. Feb 2018, 23:25

Hallöchen!

Das ist mein erster Thread und ich bin kein Genie in Sachen Statistik, also bitte seid gnädig ;)
Ich versuche, alles, so gut es mir als Laie möglich ist, darzustellen.

Ich untersuche die Auswirkungen verschiedener Faktoren auf Verkaufszahlen eines Investitionsgutes.
Meine UV sind also ca. 50 Faktoren, z.B. Ärzte pro 1000 Einwohner (EW), Gesundheitsausgaben pro EW, jährliche Operationen pro 100.000 EW, etc., meine AV sind die gemittelten Verkaufszahlen der vergangenen Jahre pro eine Million EW (Mittelwert, weil stark schwankend) in den Segmenten High-End, Middle und Low-End.
Die Faktoren sind alle auf "pro x EW" normiert, weil mir sonst Extremwerte in den Bevölkerungszahlen (bspw. Indien und China mit großem Abstand mit >1 Milliarde EW) die Ergebnisse verzerren würden.

Diese Daten sind jeweils für möglichst alle Länder der Erde erfasst, teilweise auch für einzelne Regionen gesplittet, insgesamt 202 Stück, mit einer Ausbeute zwischen 140 und meist zwischen 190 und 200 Länderangaben pro Faktor.
Mein n ist also 140 bis 200 pro Faktor, meine Gesamtpopulation, wenn man so sagen will, 202.
Für alle Faktoren wurde ein Jahr als Basis festgelegt, nicht vorhandene Daten aus vergangenen Daten extrapoliert.

Mein Ziel ist es, die Einflüsse dieser Faktoren auf die Verkaufszahlen zu beschreiben, um dann mittels zusätzlicher Recherche, eventuell mit Extrapolation vergangener Daten, künftige Entwicklungen der UV zu prognostizieren, um die künftigen Verkaufszahlen abschätzen zu können.
Natürlich wirken sich nicht alle Faktoren auf die Verkaufszahlen aus, das soll mit einer ersten Korrelationsmatrix getestet werden und die einflussreichsten Variablen ermittelt werden.

Mein erstes Problem ist nun, dass keine der AV und nur wenige der UV normalverteilt sind, auch die Residuen nicht (denn, wie ich herausgefunden habe, ist das ja das eigentlich Relevante). Bei großen Fallzahlen kann man aber wohl auch das vernachlässigen, hier findet man oft die Regel n>=30. Da wäre ich ja tatsächlich um einiges darüber.

Nun frage ich mich aber, wie es sich verhält, wenn ich eine so große Stichprobe der "Gesamtpopulation" habe, die Gesamtpopulation ist ja außerdem mit großer Wahrscheinlichkeit auch nicht normalverteilt.
Muss ich dann etwas beim Interpretieren der Ergebnisse der Regressionsanalyse beachten? Ist R² noch ein verlässliches Maß, und wie muss ich mit der Signifikanz umgehen? Prinzipiell sage ich dann ja nicht mehr "Meine Ergebnisse können so auf die Gesamtpopulation übertragen werden", sondern "Meine Ergebnisse beschreiben (fast) die (gesamte) Population".

Grundsätzliche Frage: Ist mein Vorgehen überhaupt soweit korrekt oder habe ich etwas Wichtiges nicht bedacht?

Zusatzfrage:
Eine Variable (UV1), die sich vergleichsweise stark auf meine Verkaufszahlen (AV1) auswirkt, ist relativ lückenhaft, deswegen möchte ich die UV1 in einem vorgelagerten Verfahren zur AV (AV2) machen (UV1=AV2) und durch eine Regression mit einer anderen UV (UV2) die Lücken füllen. Diese UV2 sollte ich dann aber nicht mehr für die Regression für AV1, die Verkaufszahlen, verwenden, oder? Könnte ich ohnehin nicht, weil sonst Multikollinearität bestünde (R von UV1 und UV2 = 0,7). Oder ist 0,7 ein generell zu kleiner Wert für eine Regression? (Ich bin leider zu unerfahren, um einige Werte wirklich einschätzen zu können, ich hangle mich hauptsächlich mit Youtube-Tutorials und Nachschlagen in der Literatur meiner Bib voran.)

Zur Verfügung habe ich übrigens SPSS, habe damit aber noch keine tiefgehenden Analysen durchgeführt, weil ich erst morgen wieder Zugriff darauf habe.

Ich hoffe meine Fragen waren nicht zu naiv und unwissend, und ich weiß, dass hier bestimmt tagtäglich solche und ähnliche Threads auftauchen.
Vielen Dank trotzdem an die, die sich mit meiner Thematik beschäftigen und vielleicht auch die ein oder andere Antwort parat haben!

Grüße,
N.
Niviella
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mi 17. Jan 2018, 16:43
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Regressionsanalyse mit ~95% Stichprobe

Beitragvon strukturmarionette » Mo 5. Feb 2018, 02:07

Hio,

Auswirkungen verschiedener Faktoren auf Verkaufszahlen eines Investitionsgutes.
Meine UV sind also ca. 50 Faktoren

Mein erstes Problem ist nun, dass keine der AV und nur wenige der UV normalverteilt sind,

- Welche und wie viele AVs sind es denn zusätzlich zu der eingans von Dir genannten (Verkauszahlen eine Gutes)?

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4352
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

Re: Regressionsanalyse mit ~95% Stichprobe

Beitragvon Niviella » Mo 5. Feb 2018, 08:08

Hallo,

tut mir leid, da habe ich mich wohl undeutlich ausgedrückt.
Die Verkaufszahlen habe ich separat erfasst für High-End-, Middle- und Low-End-Märkte, wobei gilt: High-End + Middle + Low-End = Gesamtmarkt.
Jedes dieser Marktsegmente zählt als eigene AV.
Den Gesamtmarkt zähle ich aber nur bedingt als AV, denn wichtiger sind mir die Erkenntnisse der einzelnen Segmente, da ich davon ausgehe, dass sich die verschiedenen UVs in den jeweiligen Segmenten unterschiedlich (stark) auswirken.

Grüße,
N.
Niviella
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mi 17. Jan 2018, 16:43
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Regressionsanalyse mit ~95% Stichprobe

Beitragvon klarakroft » Di 6. Feb 2018, 10:07

Also erstmal vorweg, ich benutze kein SPSS sondern R (was ich jedem empfehlen würde aber das ist wohl Geschmackssache). Ich kann dir also leider keine konkreten Vorschläge geben.

Ich gehe aus du möchtest ein lineares Regressionsmodell mittels OLS schätzen, stimmt das? Meine Ausführungen beziehen sich darauf:

So. Deine Daten selbst müssen nicht normalverteilt sein, ist per se erstmal egal. Worauf sich andere Verteilungen aber auswirken können ist, dass die Zusammenhänge eventuell nicht mehr linear sind, sodass ein lineares Regressionsmodell (was du denke ich mal "zusammenbasteln" möchtest) nicht mehr vorteilhaft ist. Wenn du der Meinung bist, dass deine Stichprobe ausreicht dann kannst du für eine inferenzstatistische Auswertung deiner Ergebnisse auf die asymptotischen Eigenschaften "zurückweichen" - Konsistenz und Effizienz (Konsistenz sollte im Minimum erfüllt sein). Hierfür müssen auch die Residuen nicht mehr normalverteilt sein.

Und nochmal generell: Wenn dein Ziel letztlich eine Vorhersage von Werten ist - stehen dir entsprechende Werte für die UV zur Verfügung und du sollst auf deren Basis die AV schätzen? Was ich auch noch nicht ganz herauslesen konnte - hast du Zeitreihen oder Cross-sectional Daten?


Deine Ausführungen zu Mulitkollinearität verstehe ich nicht ganz. Vielleicht könntest du das noch einmal kurz erläutern. Und wegen der Werte für eine Regression - auch ein Rquadrat von 0.2 kann "gut" sein. Es kommt eben drauf an. Und das Rquadrat sollte man an sich auch nicht überbewerten. Häufig wird das Maß als non plus ultra angesehen aber das ist es beim besten Willen nicht (Overfitting lässt grüßen). Speziell nicht wenn du Sachen forecasten möchtest mMn..
klarakroft
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Sa 21. Okt 2017, 14:13
Danke gegeben: 0
Danke bekommen: 1 mal in 1 Post

Re: Regressionsanalyse mit ~95% Stichprobe

Beitragvon Niviella » Mi 7. Feb 2018, 21:22

Hallo klarakloft,

danke für deine Antwort. Ich hab mich erst noch ein wenig zu deinen Ausführungen belesen und hoffe, ich habe alles richtig verstanden, wenn ich jetzt antworte.

klarakroft hat geschrieben:Ich gehe aus du möchtest ein lineares Regressionsmodell mittels OLS schätzen, stimmt das?


Richtig.

klarakroft hat geschrieben:Worauf sich andere Verteilungen aber auswirken können ist, dass die Zusammenhänge eventuell nicht mehr linear sind, sodass ein lineares Regressionsmodell (was du denke ich mal "zusammenbasteln" möchtest) nicht mehr vorteilhaft ist.


Wenn ich das jetzt richtig verstehe: Die einzelnen Korrelationen (Pearson und aus Neugier Spearman) habe ich vorab schon mal getestet. Heißt, ich habe in SPSS einfach mal alle UV und AV zusammengeschmissen und eine riesige Korrelationstabelle erstellt. Manche Zusammenhänge sind relativ eindeutig linear (Pearson um die 0,7), viele aber auch nicht, oft dümple ich hier bei 0,3 herum.
Andere Zusammenhänge als lineare kann ich aus den Streudiagrammen nicht wirklich erkennen. Entweder linear oder zu große Streuung für eindeutige Aussagen.
(Das ist aber auch kein Problem für mich, so sehe ich nämlich, dass sich die verschiedenen Marktsegmente teilweise komplett unterschiedlich verhalten, wenn sich einzelne UVs ceteris paribus verändern.)

klarakroft hat geschrieben:Wenn du der Meinung bist, dass deine Stichprobe ausreicht dann kannst du für eine inferenzstatistische Auswertung deiner Ergebnisse auf die asymptotischen Eigenschaften "zurückweichen" - Konsistenz und Effizienz (Konsistenz sollte im Minimum erfüllt sein). Hierfür müssen auch die Residuen nicht mehr normalverteilt sein.


Das hatte ich gehofft, ich fürchte allerdings, dass Konsistenz und Effizienz bei vielen UVs nicht ausreichend erfüllt sein werden, weil die Streuung zu groß ist. Müsste ich mich aber noch mal genauer informieren und das dann testen.

klarakroft hat geschrieben:Und nochmal generell: Wenn dein Ziel letztlich eine Vorhersage von Werten ist - stehen dir entsprechende Werte für die UV zur Verfügung und du sollst auf deren Basis die AV schätzen? Was ich auch noch nicht ganz herauslesen konnte - hast du Zeitreihen oder Cross-sectional Daten?


Ich habe beides, also zum Beispiel die Ärzte pro EW meiner Länder (cross-sectional) für Jahre seit 2000 (Zeitreihen). Natürlich bestehen da Lücken, deshalb habe ich alle Daten auf 2015 gebracht (entweder schon angegeben oder aus bekannten Daten extrapoliert) und arbeite in der Regression mit den aktuellsten Daten von 2015.
Wenn ich dann herausgefunden habe, welche Faktoren sich in welchem Maße auf meine Verkaufszahlen auswirken, möchte ich eventuell die Zeitreihen weiter extrapolieren und auf jeden Fall durch weitere Recherche begründen, wie sich die UVs in bestimmten Ländern wahrscheinlich zukünftig verändern und dann daraus ableiten, welche Länder in Zukunft am erfolgsversprechendsten sein werden.

klarakroft hat geschrieben:Deine Ausführungen zu Mulitkollinearität verstehe ich nicht ganz. Vielleicht könntest du das noch einmal kurz erläutern. Und wegen der Werte für eine Regression - auch ein Rquadrat von 0.2 kann "gut" sein. Es kommt eben drauf an. Und das Rquadrat sollte man an sich auch nicht überbewerten. Häufig wird das Maß als non plus ultra angesehen aber das ist es beim besten Willen nicht (Overfitting lässt grüßen). Speziell nicht wenn du Sachen forecasten möchtest mMn..


Mein Gedankengang am konkreten Beispiel erklärt:
Die Anzahl der Allgemeinärzte pro EW korreliert mit der Anzahl der Chirurgen pro EW (Pearson 0,77). Die Daten der Chirurgen haben aber Lücken. Wenn ich jetzt die Daten für die Chirurgen aus den Daten der Ärzte ableite und dann die Chirurgen als UV für meine Verkaufszahlen hernehme, dann sollte ich die Ärzte nicht mehr als UV für die Verkaufszahlen verwenden, weil erstens mein "Gefühl" :roll: mir sagt, dass das unschöne Arbeitsweise wäre. Und zweitens wäre der Mehrwert durch Hinzunahme der Ärzte aufgrund der Multikollinearität so gering, dass ich mir das gleich sparen kann und mich auf die Chirurgen und andere Faktoren konzentrieren sollte.
Soweit zumindest meine Idee, aber stimmt das auch?
Niviella
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mi 17. Jan 2018, 16:43
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron