Lineare Mehrfachregression

Alle Verfahren der Regressionanalyse.

Lineare Mehrfachregression

Beitragvon Ahnungslose » Sa 17. Nov 2012, 12:56

Schönen Guten Morgen an alle!

Ich schreibe gerade an meiner Bachelorthesis und einen Teil davon bildet eine statistische Analyse einer Umfrage. Da ich im Rahmen meines Studiums keinerlei Kontakt zur Statistik hatte (Ich studiere Wirtschaftsrecht) bereitet dieser Teil mir ein wenig Sorgen. Darum war ich in der Bibliothek habe mir Bücher besorgt und auch bereits mehrere Tage im Internet verbracht aber ich bin noch nicht hunderprozentig davon überzeugt, ob das alles richtig ist was ich mache.

Zu meinem Fall:

In dieser Umfrage wird jährlich ein konzernweites Problem abgefragt. Die meisten Fragen sind mit Antwortvorgaben versehen, welche dann automatisch in Punkte umgerechnet werden. Anhand dieser Punkte ergibt sich dann das Gesamtergebnis in Prozent. Da ich überzeugt bin, dass nicht alle Fragen trennscharf sind, also manche Fragen den gleichen Indikator messen und somit aus Effizienzgründen (Die Umfrage wird nur durch CEOs beantwortet) vermieden werden könnten.
Dazu hab ich mir überlegt zunächst eine einfache Korrelationsanalyse zwischen den jeweiligen ausgewählten Fragen zu fahren und diese auf ihre SIgnifikanz im Rahmen eines T-Tests und dem P-Wert zu überprüfen. Besteht also eine signifikante Korreation zwischen zwei Fragen,messen diese den gleichen Indikator und eine Frage kann gestrichen werden. Weisen sie keinen Zusammenhang auf, sind beide Fragen berechtigt. Dies war auch kein Problem, ich habe einfach mit Excel den Korrelationskoeffizient R (=PEARSON) berechnet (Leider bin auf Excel angewiesen, da es auf der Arbeit kein SPSS/R gibt). Also konnte ich die Umfrage um nicht trennscharfen Fragen bereinigen.
Als nächstes hab ich mir überlegt, dass ich den in seinem Umfang nun verschlankten Fragebogen darauf untersuchen möchte, wieviel Einfluss bzw. welche Frage/Variable den größten Einfluss auf das Gesamtergebnis hat und bin dabei auf die Mehrfachregression gestoßen. Zur Mehrfachregression habe ich das Datenanalyse-Tool von Excel benutzt und habe nun Probleme anhand der Zahlen abzulesen, welche Frage den meisten Einfluss hat. Mein Betreuer stellt es sich so vor, dass ich quasi eine Rangreihenfolge nach Einfluss aufs Gesamtergebnis bilde. Soviel mal zur Theorie, ich hoffe ich bin bis hierhin nicht bereits auf dem Holzweg.
Ich habe dazu mal einen Screenshot eines Beispiels angehängt, vllt. kann mir ja jemand (Bitte mit so wenig Theorie und Formeln wie möglich) erklären, ob und woran ich dies ablesen kann, bzw. welche Werte wichtig für mich sind.
Laut meiner Recherche nimmt man dazu den T-Wert, welchen man mit einer T-Wert-Tabelle und seinem kritischen Punkt abgleicht. Ist dieser größer als der kritische Punkt, dann wird die Nullhypothese verworfen.
Alleine beim Abgleich mit der Tabelle hab ich schon Probleme, eine solche Tabelle hat ja die als eine Achse das Signifikanzniveau alpha (Bei mir 0,05) und die Freiheitsgrade (df). In meinem Beispiel hab ich für df jedoch 3 Auswahlmöglichkeiten:
-Regression 12,000
-Residual 439,000
-Total 451,000
Welchen Wert nehme ich für df? Ich habe mich für Residual entschieden und bekomme dann einen kritischen Wert von ca. 1,965 heraus, diesen vergleiche ich mit meinen berechneten T-Werten und dabei sind 9 von 12 größer als der kritische Wert. Ab jetzt verstehe ich gar nichts mehr :D
Das Thema Nullhypothese bereitet mir sowieso Verständnisprobleme, da ich zum korrelieren der Daten habe mir eine Liste an Hypothesen aufgeschrieben habe. Als einfaches, nicht umbedingt sinnvolles Beispiel könnte man z.B. zwei Umsatzzahlen aus verschiedenen Jahren korrelieren (Rein logisch müssen die alten Zahlen nicht abgefragt werden aber es ist ein anschauliches Beispiel). Eine Hypothese würde dann lauten "War der Umsatz eines Jahres hoch, ist auch der Umsatz des folgenden Jahres hoch". Eine Nullhypothese sagt ja aus, dass kein Unterschied zwischen zwei Werten besteht (Einfach ausgedrückt). Wäre diese formulierte Hypothese eine Nullhypothese?
Was bedeutet das verwerfen der Nullhypothese aufgrund des T-Werts bei der Regression? Ich wollte ja herausfinden, welche Variable den größten Einfluss auf das Endergebnis hat?
Wie ihr seht steh ich leider total auf dem Schlauch und ich hoffe jmd. erbarmt sich mir zu helfen, da ich mir es aus Büchern und dem Internet einfach nicht selbst erklären kann. Schonmal im Voraus ein dickes Dankeschön, falls sich jmd. die Zeit nimmt mir zu helfen. ;)
Dateianhänge
Statistik.JPG
Statistik.JPG (84.2 KiB) 1803-mal betrachtet
Ahnungslose
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Sa 17. Nov 2012, 11:55
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Lineare Mehrfachregression

Beitragvon strukturmarionette » So 18. Nov 2012, 11:27

Hi,

In dieser Umfrage wird jährlich ein konzernweites Problem abgefragt


Was wird denn hierbei wie abgefragt?

Dazu hab ich mir überlegt zunächst eine einfache Korrelationsanalyse zwischen den jeweiligen ausgewählten Fragen zu fahren und diese auf ihre SIgnifikanz im Rahmen eines T-Tests und dem P-Wert zu überprüfen. Besteht also eine signifikante Korreation zwischen zwei Fragen,messen diese den gleichen Indikator und eine Frage kann gestrichen werden. Weisen sie keinen Zusammenhang auf, sind beide Fragen berechtigt.


Items aus einem Itempool zu eliminieren, wenn sie korrelieren, würde ich mir vom Betreuer der Arbeit ´genehmigen´ lassen. Normalerweise gibt für diesen Zweck elegantere Verfahren.

Die Umfrage wird nur durch CEOs beantwortet


Was ist ein CEO?

Das Thema Nullhypothese bereitet mir sowieso Verständnisprobleme


Jedem Signifianztest liegt ein spezielle H0 zugrunden.
http://de.wikipedia.org/wiki/Hypothese_(Statistik)

Ich wollte ja herausfinden, welche Variable den größten Einfluss auf das Endergebnis hat?


Wenn Du mit ´Endergebnis´ die Abhängige Variable bei der multiplen Regression meinst, ist folgendes Vorgehen üblich:

Die Unabhängigen Variabeln können nach der absoluten Höhe des dazugehörigen Regressionskoeffizienten (in Deinem Excel-Output bei Dir: coefficients), soweit signifikant (bei Dir p-Values) in eine Reihenfolge gebracht werden.

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4352
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

folgende User möchten sich bei strukturmarionette bedanken:
Ahnungslose

Re: Lineare Mehrfachregression

Beitragvon Ahnungslose » So 18. Nov 2012, 18:18

Hallo und schonmal Danke für deine schnelle Hilfe Strukturmarionette, ich denke mit deinen Antworten kann ich bereits einiges anfangen. Du hast sie auch für mich als Laien sehr verständlich formuliert!

Items aus einem Itempool zu eliminieren, wenn sie korrelieren, würde ich mir vom Betreuer der Arbeit ´genehmigen´ lassen. Normalerweise gibt für diesen Zweck elegantere Verfahren.


Welche "eleganteren" Verfahren sprichst du dabei an? Bin für alles offen :)

Was ist ein CEO?


CEO= Chief Executive Officer. Ich wollte damit eig. nur verdeutlich, dass es wichtig ist die Umfrage so schlank wie möglich und gleichzeitig so aussagekräftig wie nötig zu halten, da die Beantworter ausschliesslich "Chefs" sind, welche wohl nicht sonderlich viel Zeit für eine Umfrage zu haben scheinen. Nur als Randnotiz.

Wenn Du mit ´Endergebnis´ die Abhängige Variable bei der multiplen Regression meinst, ist folgendes Vorgehen üblich:

Die Unabhängigen Variabeln können nach der absoluten Höhe des dazugehörigen Regressionskoeffizienten (in Deinem Excel-Output bei Dir: coefficients), soweit signifikant (bei Dir p-Values) in eine Reihenfolge gebracht werden.


Genau das habe ich gesucht! Vielen Dank!

Ich hab mein Beispiel mal nach dem obigen Verfahren sortiert (Also absteigend nach "coefficients"). Dabei ist mir aufgefallen, dass alle signifikant sind (P <= 0,05), bis auf diejenigen, die von der Rangreihenfolge her die drein schlechtesten Indikatoren sind und gleichzeitig deren T-Wert unterhalb des von mir bestimmten Wertes von 1,965 liegt . Gibt es dafür eine einfache Erklärung? Darf ich dabei behaupten, dass diese drei Indikatoren für das Gesamtergebnis unrelevant sind (da nicht signifikant) und damit in Zukunft nicht mehr erhoben werden müssen?
Eine letzte Frage: Ist es falsch, die "coefficients" in Prozentpunkten auszuweisen? Also die Summe aller "coeffizients" ziehen und jeden Wert dann ins Verhältnis zu setzen (also z.B. X2 trägt mit 24,64% am meisten zum Gesamtergebnis bei)?

Ich hoffe meine Fragen sind einigermaßen verständlich und ich bin wie immer sehr dankbar für eure schnelle Hilfe,

Grüße Ahnungslose! ;)
Dateianhänge
Statistik2.JPG
Statistik2.JPG (97.94 KiB) 1784-mal betrachtet
Ahnungslose
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Sa 17. Nov 2012, 11:55
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Lineare Mehrfachregression

Beitragvon strukturmarionette » Mo 19. Nov 2012, 01:05

Hi,

da die Beantworter ausschliesslich "Chefs" sind, welche wohl nicht sonderlich viel Zeit für eine Umfrage zu haben scheinen. Nur als Randnotiz.


Das ist nicht nachzuvollziehen. Warum sollten andere weniger ´Zeit´ haben?

Welche "eleganteren" Verfahren sprichst du dabei an? Bin für alles offen


Man müsste die Items im einzelnen kennen, deren Anzahl, auch die zu erklärende Variable. Und die Fragestellungen im einzelnen.
Normalerweise gehören zu Itemselektionen Fakortenanalysen und Reliabilitätsanalysen.
Aber wie genannt: Kenne den Hintergrund u.s.w. nicht.

Es ist nicht üblich, Regressionkoeffizienten als Prozente zu berichten.

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4352
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 3 Gäste

cron