Hallo,
achtung, hier kommt etwas Text. Ich wäre euch sehr dankbar, wenn ihr mal drüber gucken könntet, ob mein Kram so richtig ist.
Ich habe versucht es so übersichtlich wie möglich zu gestalten. Immer wenn mir etwas nicht ganz klar ist, habe ich in Klammern (richtig? oder Frage:) geschrieben. Alle Bilder, die ich gepostet habe, sind Vorschaubilder und können vergrößtert werden. Ich bedanke mich im Voraus bei jedem, der sich meinen Wisch hier komplett durchließt und gerne mal bei Statistik hilft
Hier mein Anliegen:
Ich habe ein paar Fragen zur multiplen Regressionsanalyse mit Excel. In unserer Vorlesung haben wir folgende Daten erhalten:
Dazu diese beiden Aufgaben:
1) Describe the data graphically and by using various statistical parameters. Please comment your results briefly.
2) What were the determinants of the annual renumeration package of DAX companies CEOs in 2006.
As determinants you can use market capitalization, ratio of free float (shares), ratio of foreign investments, number of employees as well as the price-earnings-ratio.
Da ich nicht so der Statistik-Crack bin, wollte ich mal abgleichen, ob mein Vorgehen korrekt ist.
1) Zuerst habe ich Management Remuneration als abhängige Variable festgelegt, da wir wissen wollen, welche der unabhängigen Variablen einen Einfluss auf das Gehalt haben könnte. Dann habe ich alle Kombinationen grafisch per Scatter-Diagramm aufgestellt und eine Regressionsgrade dazu erstellt. (z.B. Remuneration vs Employees etc.) Dies zeigt, dass für sich alleine genommen jede Variable ein niedriges Bestimmtheitsmaß R² hat. Jeweils zw. 4 und 7%.
Ich habe dann erklärt, was das Bestimmtheitsmaß ist (z.B. 7% der Stichprobenarianz werden durch unabhängige Variable X erklärt). Dann habe ich daraus den Korrelationskoeffizienten berechnet und die Korrelation dargestellt. (natürlich auch recht niedrig)
Frage: Kann ich anhand dieser Daten noch etwas rein grafisch interpretieren? Habe ich etwas vergessen? Unser Prof. ist leider sehr kritisch.
2) Bei 2 sollten wir das "beste" Modell mit der Analysefunktion von Excel suchen und beschreiben. Zur Not durch ausprobieren.
Anmerkung: Da unsere Daten nur eine kleine Stichprobe (niedriger 30) hat, kann keine Normalverteilung angewand werden. (richtig?)
Die 13,591 Remuneration der Deutschen Bank haben mich eine Annahme machen lassen, dass hier ein Ausreißer vorliegt. Da, wie oben bereits erwähnt, scheinbar Student-T Verteilung vorliegt, fallen jedoch die meisten der Ausreißertests weg.
Ich habe mich daher für die Quartilsmethode entschieden. Demnach wäre die deutsche Bank bei "Remuneration in Mio Euro" ein extremer Ausreißer. In allen anderen Kategorien jedoch nicht.
Frage: Darf ich die deutsche Bank jetzt entfernen oder nicht, weil sie ja in einer Kategorie ein extremer Ausreißer ist?
Danach habe ich erstmal ein Modell mit allen unabhängigen Variablen berechnet, da ich kein Freund von "ausprobieren" bin.
Meine Idee war es, die P-Werte anzuschauen und anhand dieser Information die besten unabhängigen Variablen auszuwählen.
Der Grund für diese Idee war, dass der P-Wert besagt, ob eine unabhängige Variable Einfluss auf die Qualität hat, oder nicht. (richtig?)
Beim P-Wert sind niedrige Werte besser, da diese mit dem Konfidenzintervall zu vergleichen sind. (richtig?)
Daher habe ich entschieden, dass die beiden Kategorien "Ratio of Shares public float" und "Ratio of foreign holdings" die abhängige Variable wohl am besten beschreiben.
Daraus habe ich dann ein Modell berechnet:
Hier meine Erklärung:
Das Bestimmtheitsmaß R² ist schlechter als im Modell mit allen Variablen. Dies hat jedoch den Grund, dass das R² mit jeder unabhängigen Variable niemals sinken sondern nur steigen oder unberührt (wenn gar kein Einfluss durch die zusätzliche Variable besteht, was unwahrscheinlich ist) bleiben kann. Das korrigierte Bestimmtheitsmaß verfügt über einen Strafparameter (p), der mit jeder zusätzlichen Variable um +1 ansteigt. Dieser Strafparameter stellt sicher, dass das korr. R² nur dann steigt, wenn der Erklärungsgehalt der zusätzlichen Variable den Strafparameter mehr als ausgleicht.
Daher muss das adjustierte Bestimmtheitsmaß betrachtet werden, welches bei meinem ersten Modell sehr schlecht war. In meinem zweiten Modell, ist es das höchste, welches ich beim testen finden konnte, was meine These mit dem P-Wert bestätigt (richtig?)
Frage: Kann ich bei nur 2 unabhängigen Variablen auch das normale R² anstelle des adjustierten nehmen? Oder vergleiche ich dann Äpfel mit Birnen? Kann ich das adjustierte genauso interpretieren wie das normale R²? Also in unserem Fall: 20% werden erklärt?
Dann habe ich noch die Standardabweichung erklärt. -> Streuung um den Mittelwert liegt bei 2,36
Habe außerdem die Regressionsgleichung erstellt:
y= 0,112679445*x1+(-0,09740515)*x2
Das bedeutet, je mehr Aktien ausgegeben sind und je weniger das Verhältnis der Auslandsbeteiligung, desto besser das Gehalt der Manager. (zumindest für die 30% - im Fall von R², nicht adjustiert - die dadurch erklärt werden)
Da wir die wissen wollen, ob überhaupt ein Einfluss der unabh. auf die abhängige Variable besteht, handelt es sich bei unserem Test um einen beidseitigen Test.
Daher lautet die H0: Es besteht kein Zusammenhang zw. dem Gehalt und den beiden unabh. Variablen. H1 bedeutet, es besteht ein Zusammenhang. (H0 richtig bestimmt?)
Betrachtet man die P-Werte, so kann man sagen, dass diese kleiner als 0,05 sind und die H0 daher abgelehnt wird.
Es besteht also ein, wenn auch geringer, Zusammenhang zw. dem Gehalt und Shares public float sowie foreign holdings.
Zuletzt habe ich noch erwähnt, dass dieser Zusammenhang auch nicht zufällig ist, da die Prüfgröße > F kritisch ist.
Wer es bis hier hin alles durchgelesen hat: DANKE!
Ich hoffe sehr, dass meine Erläuterungen weitgehend richtig waren.
Letzte Frage: Gibt es noch etwas, dass ich anhand dieser Daten beschreiben kann? Oder habe ich alles berücksichtigt?
Ich freue mich über jede Antwort
Viele Grüße
sn00ze