Hallöchen!
Das ist mein erster Thread und ich bin kein Genie in Sachen Statistik, also bitte seid gnädig
Ich versuche, alles, so gut es mir als Laie möglich ist, darzustellen.
Ich untersuche die Auswirkungen verschiedener Faktoren auf Verkaufszahlen eines Investitionsgutes.
Meine UV sind also ca. 50 Faktoren, z.B. Ärzte pro 1000 Einwohner (EW), Gesundheitsausgaben pro EW, jährliche Operationen pro 100.000 EW, etc., meine AV sind die gemittelten Verkaufszahlen der vergangenen Jahre pro eine Million EW (Mittelwert, weil stark schwankend) in den Segmenten High-End, Middle und Low-End.
Die Faktoren sind alle auf "pro x EW" normiert, weil mir sonst Extremwerte in den Bevölkerungszahlen (bspw. Indien und China mit großem Abstand mit >1 Milliarde EW) die Ergebnisse verzerren würden.
Diese Daten sind jeweils für möglichst alle Länder der Erde erfasst, teilweise auch für einzelne Regionen gesplittet, insgesamt 202 Stück, mit einer Ausbeute zwischen 140 und meist zwischen 190 und 200 Länderangaben pro Faktor.
Mein n ist also 140 bis 200 pro Faktor, meine Gesamtpopulation, wenn man so sagen will, 202.
Für alle Faktoren wurde ein Jahr als Basis festgelegt, nicht vorhandene Daten aus vergangenen Daten extrapoliert.
Mein Ziel ist es, die Einflüsse dieser Faktoren auf die Verkaufszahlen zu beschreiben, um dann mittels zusätzlicher Recherche, eventuell mit Extrapolation vergangener Daten, künftige Entwicklungen der UV zu prognostizieren, um die künftigen Verkaufszahlen abschätzen zu können.
Natürlich wirken sich nicht alle Faktoren auf die Verkaufszahlen aus, das soll mit einer ersten Korrelationsmatrix getestet werden und die einflussreichsten Variablen ermittelt werden.
Mein erstes Problem ist nun, dass keine der AV und nur wenige der UV normalverteilt sind, auch die Residuen nicht (denn, wie ich herausgefunden habe, ist das ja das eigentlich Relevante). Bei großen Fallzahlen kann man aber wohl auch das vernachlässigen, hier findet man oft die Regel n>=30. Da wäre ich ja tatsächlich um einiges darüber.
Nun frage ich mich aber, wie es sich verhält, wenn ich eine so große Stichprobe der "Gesamtpopulation" habe, die Gesamtpopulation ist ja außerdem mit großer Wahrscheinlichkeit auch nicht normalverteilt.
Muss ich dann etwas beim Interpretieren der Ergebnisse der Regressionsanalyse beachten? Ist R² noch ein verlässliches Maß, und wie muss ich mit der Signifikanz umgehen? Prinzipiell sage ich dann ja nicht mehr "Meine Ergebnisse können so auf die Gesamtpopulation übertragen werden", sondern "Meine Ergebnisse beschreiben (fast) die (gesamte) Population".
Grundsätzliche Frage: Ist mein Vorgehen überhaupt soweit korrekt oder habe ich etwas Wichtiges nicht bedacht?
Zusatzfrage:
Eine Variable (UV1), die sich vergleichsweise stark auf meine Verkaufszahlen (AV1) auswirkt, ist relativ lückenhaft, deswegen möchte ich die UV1 in einem vorgelagerten Verfahren zur AV (AV2) machen (UV1=AV2) und durch eine Regression mit einer anderen UV (UV2) die Lücken füllen. Diese UV2 sollte ich dann aber nicht mehr für die Regression für AV1, die Verkaufszahlen, verwenden, oder? Könnte ich ohnehin nicht, weil sonst Multikollinearität bestünde (R von UV1 und UV2 = 0,7). Oder ist 0,7 ein generell zu kleiner Wert für eine Regression? (Ich bin leider zu unerfahren, um einige Werte wirklich einschätzen zu können, ich hangle mich hauptsächlich mit Youtube-Tutorials und Nachschlagen in der Literatur meiner Bib voran.)
Zur Verfügung habe ich übrigens SPSS, habe damit aber noch keine tiefgehenden Analysen durchgeführt, weil ich erst morgen wieder Zugriff darauf habe.
Ich hoffe meine Fragen waren nicht zu naiv und unwissend, und ich weiß, dass hier bestimmt tagtäglich solche und ähnliche Threads auftauchen.
Vielen Dank trotzdem an die, die sich mit meiner Thematik beschäftigen und vielleicht auch die ein oder andere Antwort parat haben!
Grüße,
N.