Das Ganze ist erstmal nur eine Übung, damit ich langsam lerne mit der Statistik umzugehen.
Erhebungsdesign, Messverfahren erstmal auch.
Ohne Erhebungsdesign und verwendete Messungen zu kennen, lässt
sich ein statistisches Verfahren doch gar nicht sachgerecht bestimmen!
Wenn Messwiederholungen vorliegen oder Klumpenbildungen in Firmen
oder Abteilungen, dann muss das natürlich berücksichtigt werden.
Aber gut, dann nehme ich der Einfachheit halber mal für Dich mit an: es
handelt sich um eine Querschnittserhebung mit einer Zufallsauswahl von
Mitarbeitern ein und desselben Unternehmens.
Die Stichprobe hat eine Größe von knapp 1000. Alle Variablen sind intervallskaliert.
Ausbildungsstand als Intervallskala ist zwar eher unrealistisch,
aber es erleichtert die Sache. Wenn zwei intervallskalierte
Variablen simultan eine dritte vorhersagen sollen, wäre eine
multiple lineare Regression denkbar. Normalverteilung von
Variablen ist dabei irrelevant. Gefordert wird für den
inferenzstatistischen Test eine Normalverteilung der
Vorhersagefehler, aber auch die ist bei einer Stichprobengröße
von 1000 nicht mehr wichtig. Modelle mit logarithmiertem
Einkommen sind allerdings häufig besser, da Einkommen meist
schief verteilt ist.
Mit freundlichen Grüßen
P.