STATISTIK-FORUM.de

Mikey · von **Mikey** » Di 2. Jul 2013, 10:42

Hallo zusammen,

derzeit sitze ich an der Auswertung einer Befragung und komme nicht so wirklich voran.

Meine These: Die Teilnahme an Schulungsmaßnahmen führt zu einer Reduzierung der Belastung am Arbeitsplatz.
Gemessen wurde die Anzahl der Schulungstage. Die Ermittlung der Belastung erfolgte durch eine Likert-Skala der entsprechende Punkte hinterlegt wurden.

Mein erster Ansatz ist die Auswertung des Streudiagramms mit entsprechender Regressionsanalyse.

Auswertung Regressionsanalyse:

y = -1,1123x + 63,792
R2 = 0,04458
r = -0,211
Signifikanz = 0,003

Meine Interpretation:
Es besteht ein geringer linearer Zusammenhang zwischen der Anzahl der Schulungstage und der Höhe der Belastung. Das geringe Bestimmtheitsmaß zeigt jedoch auf, das es andere Störgrößen gibt, die den Hauptteil der Belastung hervorrufen. (Ist in meinen Augen auch logisch). Dennoch würde ich die Nullhypothese auf Grundlage der vorliegenden verwerfen und die aufgestellte These als verifiziert ansehen, Ist dies so richtig, oder begehe ich dabei einen Fehler. Habe ich evtl. etwas wichtiges vergessen oder übersehen ?

Mein zweiter Ansatzpunkt ist der Mittelwertsvergleich der Belastung zwischen den Teilnehmern und den Nichtteilnehmern, also ohne Berücksichtigung der Anzahl der Schulungstage.
Mein Vorgehen:
1. Shapiro-Wilk-Test auf Normalverteilung der beiden Stichproben ( Signifikanz 0,920 = normalverteilt)
2. Levene-Test auf Varianzhomogenität (Signifikanz 0,556 = gleiche Varianzen)
3. T-Test: T-Wert: - 3,030 Signifikanz = 0,003

Interpretiere ich diesen Test richtig, wenn ich sage, das die Belastung der Teilnehmer im Mittel um -3,030 Punkte weniger ist, als bei den Teilnehmern (bezogen auf die Grundgesamtheit) ?

Da ich ein Laie auf diesem Gebiet bin, freue ich mich über jede erdenkbare Unterstützung.

Vielen Dank.

PonderStibbons · von **PonderStibbons** » Di 2. Jul 2013, 11:33

Dennoch würde ich die Nullhypothese auf Grundlage der vorliegenden verwerfen und die aufgestellte These als verifiziert ansehen,

Die Nullhypothese kannst Du verwerfen. Nur sagt das noch nichts über
die Gültigkeit Deiner kausalen These. Es kann auch sein, dass
Mitarbeiter mit geringerer subjektiver Belastung mehr Schulungstage
nehmen. Oder Zahl der Schulungstage und Belastung sind nicht
miteinander verbunden, sondern werden durch eine dritte Variable
(Führungsverhalten des Vorgesetzten o.a.) beeinflusst. Kausale Aussagen
werden durch ein (experimentelles) Forschungsdesign ermöglicht,
nicht durch das Analyseverfahren. Man könnte übrgens auch noch
Schulungstage² als Prädiktor einbeziehen, vielleicht gibt es eine
U-förmige Beziehung zwischen Schulung und Belastung.

Interpretiere ich diesen Test richtig, wenn ich sage, das die Belastung der Teilnehmer im Mittel um -3,030 Punkte weniger ist, als bei den Teilnehmern (bezogen auf die Grundgesamtheit) ?

Nein, das ist nur der t-Wert. Den Mittelwertsunterschied
in der Stichprobe entnimmst Du der Deskriptivstatistik.
Über den Mittelwertsunterschied in der Grundgesamtheit
weißt Du jetzt nur, dass Gruppe 1 > Gruppe 2.

Mit freundlichen Grüßen

P.

folgende User möchten sich bei PonderStibbons bedanken:
Mikey

Mikey · von **Mikey** » Di 2. Jul 2013, 15:32

Die Nullhypothese kannst Du verwerfen. Nur sagt das noch nichts über
die Gültigkeit Deiner kausalen These. Es kann auch sein, dass
Mitarbeiter mit geringerer subjektiver Belastung mehr Schulungstage
nehmen. Oder Zahl der Schulungstage und Belastung sind nicht
miteinander verbunden, sondern werden durch eine dritte Variable
(Führungsverhalten des Vorgesetzten o.a.) beeinflusst. Kausale Aussagen
werden durch ein (experimentelles) Forschungsdesign ermöglicht,
nicht durch das Analyseverfahren. Man könnte übrgens auch noch
Schulungstage² als Prädiktor einbeziehen, vielleicht gibt es eine
U-förmige Beziehung zwischen Schulung und Belastung.

-> Also wenn ich dich richtig verstehe, kann ich meine These nicht als verifiziert ansehen, obwohl ein geringer linearer Zusammenhang aus der Regressionsanalyse hervorgeht ? Sorry, aber kannst du mir das vielleicht nochmal mit etwas einfacheren Worten erklären ? Kann dir da leider nicht folgen.

Nein, das ist nur der t-Wert. Den Mittelwertsunterschied
in der Stichprobe entnimmst Du der Deskriptivstatistik.
Über den Mittelwertsunterschied in der Grundgesamtheit
weißt Du jetzt nur, dass Gruppe 1 > Gruppe 2.

-> Super, danke. Aber müsste es nicht sein Gruppe 1 < Gruppe 2, da der T-Wert (-3,030) negativ ist ?

Viel Grüße und danke für deine Geduld,

M

PonderStibbons · von **PonderStibbons** » Di 2. Jul 2013, 15:56

-> Also wenn ich dich richtig verstehe, kann ich meine These nicht als verifiziert ansehen, obwohl ein geringer linearer Zusammenhang aus der Regressionsanalyse hervorgeht ?

Es ging mir lediglich um Sorgfalt bei der Formulierung. Die These lautete:
"Meine These: Die Teilnahme an Schulungsmaßnahmen führt zu einer Reduzierung der Belastung am Arbeitsplatz. "
Diese Formulierung habe ich gelesen als "Teilnahme verursacht (zumindest partiell) Reduzierung".
So eine Ursachenbeziehung kann nicht durch diese Analyse geprüft werden, man kann allenfalls
sagen, dass sich das eine durch das andere statistisch vorhersagen lässt.

Aber müsste es nicht sein Gruppe 1 < Gruppe 2, da der T-Wert (-3,030) negativ ist ?

Ich weiß nicht, welche Gruppe was ist. Schau halt auf Deine Deskriptivstatistik,
welcher Mittelwert der höhere ist.

Mit freundlichen Grüßen

P.

Mikey · von **Mikey** » Di 2. Jul 2013, 16:35

Jetzt hab ichs verstanden. Besten Dank nochmal.

simkahn · von **simkahn** » Mo 8. Jul 2013, 15:04

Hallo zusammen!
Ich benötige die Hilfe eines der Experten aus dem Forum. Möchte mich schon vorab recht herzlich bedanken.
Ich möchte die Zuschauernachfrage in einer Fußballliga überprüfen. Dazu wurden über drei Spielzeiten Daten zu mehreren Vereinen gesammelt.

Die zentrale Hypothesen sind : Je höher die Gesamtannzahl an Superstars in einem Spiel, desto höher die Zuschauernachfrage.
und H2: Je höher die Anzahl der Superstars der Gastmannschaft, desto höher die Zuschauernachfrage.

Dazu wurde eine lineare Regression durchgeführt: abhängige Variable ist der Logarithmus der Zuschauernachfrage, dazu noch einige unabhängige Variablen. Zur Überprüfung der Hypothesen wurden zwei Regressionen durchgeführt, eine mit der Gesamtanzahl an Stars (PD_ALL_POT) beider Mannschaften pro Spiel und eine mit der getrennten Betrachtung (also Anzahl Stars der Heimmannschaft (DP_HOME_POT) und Anzahl Stars der Gastmannschaft (DP_GUEST_POT).

. reg log_spectators dp_home_pot dp_guest_pot game_day_rate stadium_soccer major_clubs_per_pop success_home success_opponent stadium_age season_
> 2006 season_2008 season_2012 i.club_id, robust
note: season_2012 omitted because of collinearity
note: 19.club_id omitted because of collinearity

Linear regression Number of obs = 725
F( 27, 697) = 36.62
Prob > F = 0.0000
R-squared = 0.4174
Root MSE = .30749

------------------------------------------------------------------------------
| Robust
log_specta~s | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
dp_home_pot | -.0325473 .0210354 -1.55 0.122 -.0738477 .008753
dp_guest_pot | .0638743 .0148888 4.29 0.000 .0346421 .0931065
game_day_r~e | .031997 .0371436 0.86 0.389 -.0409298 .1049238
stadium_so~r | .1736147 .0652815 2.66 0.008 .0454428 .3017865
major_club~p | -.6555693 .6058619 -1.08 0.280 -1.845102 .5339639
success_home | .0502443 .0549142 0.91 0.361 -.0575729 .1580614
success_op~t | .0428438 .0514253 0.83 0.405 -.0581233 .143811
stadium_age | .0013641 .0010603 1.29 0.199 -.0007178 .0034459
season_2006 | -.0132651 .0572138 -0.23 0.817 -.1255971 .0990669
season_2008 | .024639 .036347 0.68 0.498 -.0467238 .0960018
season_2012 | (omitted)
|
club_id |
2 | -.0285899 .2931847 -0.10 0.922 -.6042209 .5470412
3 | -.0963125 .1225493 -0.79 0.432 -.3369226 .1442976
4 | .548184 .1330619 4.12 0.000 .2869338 .8094342
5 | -.1870268 .1140352 -1.64 0.101 -.4109205 .0368669
6 | -.5057896 .0687155 -7.36 0.000 -.6407037 -.3708755
7 | -.3671871 .0812595 -4.52 0.000 -.5267297 -.2076444
8 | -.4939726 .075 -6.59 0.000 -.6412256 -.3467197
9 | -.6946389 .0975479 -7.12 0.000 -.8861619 -.5031159
10 | -.8649513 .24621 -3.51 0.000 -1.348353 -.3815492
11 | -.6204317 .0521891 -11.89 0.000 -.7228984 -.517965
12 | -.3474465 .157689 -2.20 0.028 -.6570488 -.0378442
13 | -.6819127 .1007598 -6.77 0.000 -.8797418 -.4840835
14 | -.5327278 .2120378 -2.51 0.012 -.9490372 -.1164185
15 | -.1147534 .1099318 -1.04 0.297 -.3305904 .1010837
16 | .065503 .2517593 0.26 0.795 -.4287945 .5598005
17 | -.7442474 .2555529 -2.91 0.004 -1.245993 -.2425018
18 | -.4048477 .0821286 -4.93 0.000 -.5660967 -.2435987
19 | (omitted)
|
_cons | 7.39925 1.94199 3.81 0.000 3.586398 11.2121
------------------------------------------------------------------------------

In dieser Regression wurden die Anzahl der Superstars der Heimmanschaft und der Gastmannschaft getrennt. Wie ich die Signifkanz und die Koeffizienten interpretiere ist mir bewusst. Die ID stellen die verschiedenen Vereine dar. Die Konstante ist auch ein Verein. Interpretiere ich die Koeffizienten der Vereine richtig, dass sie aussagen, dass z.B. Club 2 über den betrachteten Zeitraum von 725 SPielen eine durchschnittlich geringere Zuschauernachfrage von circa 3 Prozent gegenüber der Konstante(club 1) in seinen Heimspielen hatte? Und was sagt das Signifikanzniveau von 0,922 in diesem Fall aus?

. reg log_spectators dp_all_pot game_day_rate stadium_soccer major_clubs_per_pop success_home success_opponent stadium_age season_2006 season_2
> 008 season_2012 i.club_id, robust
note: season_2012 omitted because of collinearity
note: 19.club_id omitted because of collinearity

Linear regression Number of obs = 725
F( 26, 698) = 39.21
Prob > F = 0.0000
R-squared = 0.4058
Root MSE = .31031

------------------------------------------------------------------------------
| Robust
log_specta~s | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
dp_all_pot | .0332471 .0124523 2.67 0.008 .0087987 .0576954
game_day_r~e | .0255303 .0375363 0.68 0.497 -.0481674 .0992279
stadium_so~r | .1797393 .0664471 2.70 0.007 .0492791 .3101995
major_club~p | -1.42022 .5246929 -2.71 0.007 -2.450385 -.3900545
success_home | .0752834 .0561944 1.34 0.181 -.0350469 .1856136
success_op~t | .0400428 .051349 0.78 0.436 -.0607743 .1408598
stadium_age | .0018865 .0010474 1.80 0.072 -.0001699 .0039429
season_2006 | .0490156 .0533873 0.92 0.359 -.0558034 .1538346
season_2008 | .0545007 .0357761 1.52 0.128 -.015741 .1247424
season_2012 | (omitted)
|
club_id |
2 | .3191172 .2634021 1.21 0.226 -.1980382 .8362725
3 | .0601042 .1061986 0.57 0.572 -.1484027 .2686111
4 | .4156044 .1221127 3.40 0.001 .1758522 .6553566
5 | -.3149269 .1012418 -3.11 0.002 -.5137018 -.116152
6 | -.4243548 .0635963 -6.67 0.000 -.5492179 -.2994918
7 | -.2261455 .0645569 -3.50 0.000 -.3528945 -.0993964
8 | -.4066525 .0712683 -5.71 0.000 -.5465785 -.2667265
9 | -.5261013 .0903067 -5.83 0.000 -.7034065 -.348796
10 | -1.131103 .2203978 -5.13 0.000 -1.563825 -.6983805
11 | -.56871 .0526019 -10.81 0.000 -.671987 -.465433
12 | -.5488427 .1370022 -4.01 0.000 -.8178285 -.2798568
13 | -.7529443 .0956182 -7.87 0.000 -.940678 -.5652106
14 | -.7573106 .189107 -4.00 0.000 -1.128597 -.3860239
15 | .0636544 .0843777 0.75 0.451 -.1020103 .229319
16 | .4558877 .2166828 2.10 0.036 .0304595 .8813159
17 | -1.025439 .2259017 -4.54 0.000 -1.468967 -.5819108
18 | -.4448692 .0777016 -5.73 0.000 -.597426 -.2923124
19 | (omitted)
|
_cons | 6.58546 1.931488 3.41 0.001 2.793237 10.37768
------------------------------------------------------------------------------

Meine letzte Frage ist, warum ich in den beiden unterschiedlichen Regressionen so unterschiedliche Werte bekomme?Die beobachtete Anzahl an Spielen ist doch in beiden Analysen identisch! Warum ändert sich die Konstante? Und warum die Werte für die unabhängigen Variablen?

Danke!!!

PonderStibbons · von **PonderStibbons** » Di 9. Jul 2013, 10:21

Falls nicht 1050 unterschiedliche Clubs einbezogen wurden, also nicht
jede einzelne Begegnung mit Teilnehern stattfand, die in keine einzigen
anderen Begegnung auftreten, dann kannst Du die 725 Spiele, soweit
ich sehe, nicht als unabhängige Beobachtungen nehmen und es ist
eine Voraussetzung für die Durchführung der linearen Regression verletzt.

Mit freundlichen Grüßen

P.

simkahn · von **simkahn** » Di 9. Jul 2013, 12:29

Ich versuche es mal besser zu erläutern. Es wurden Paneldaten im Longformat gesammelt. Für jeden Verein eine ID und verschiedene Dummys und andere Variablen Berücksichtigt. Die Vereine wurden jeweils über N Spiele beobachtet, so dass sich die 725 beobachteten Spiele aus den Heimspielen der jeweiligen Vereine zusammensetzen. Es wurde eine linerare Regression mit der Variable DP_ALL_POT durchgeführt, die sich auf die Gesamtanzahl der Superstars in den beobachteten Spielen bezieht und in einer anderen Regression wurde diese Variable, quasi in ihre zwei Bestandteile DP_GUEST_POT und DP_HOME_POT aufgesplittet und die anderen Variablen so beibehalten.

Ich denke, dass es schon so seine Richtigkeit hat. Die Auswertung hat mein Dozent in der Uni mittels Stata übernommen, der die Sachen auf jeden Fall drauf hat. Die Interpretation muss ich jedoch übernehmen. Leider fällt mir das sehr schwer (hatten im Verlauf des Bachelors Statistik nur unwesentlich behandelt). Daher meine Frage zur Interpretation.

Aber Danke für deine Antwort. Vllt kann ja jemand anders weiterhelfen.

Gruß Simkahn

daniel · von **daniel** » Di 9. Jul 2013, 12:59

Die Auswertung hat mein Dozent in der Uni mittels Stata übernommen, der die Sachen auf jeden Fall drauf hat.

Ohne Deinem Dozenten zu nahe treten zu wollen, aber das hat er nicht. Ob technisch oder inhaltllich mag ich nicht beurteilen, aber er verwendet die Option -robust- die heteroskedastierobuste Standardfehler schätzt. Das ist nicht das Problem bei diesen Daten. Hier sind die Fehler autokorreliert. Die korrekte (oder: eine korrektere) Wahl wäre die -vce(cluster club_id)- Option zu wählen.

Wie wird denn die Zuschauernachfrage gemessen? Falls das, wie üblich, in verkauften Plätzen, dann hast Du ein Problem, weil unterschiedliche Stadien unterschiedlich groß sind, aber alle eine maximale Zuschaueranzahl haben. Die Daten sind damit gestutzt und ein lineares Modell kann hier irreführend sein.

Die Konstante ist auch ein Verein.

Jein. Die Konstante ist ein bestimmter Verein zu einer bestimmten Saison mit bestimmter ausprägung aller anderen Variablen im Modell. Die Konstante ist der erwartete Wert, wenn alle Variablen im Modell den Wert Null annehmen.

Wie ich die Signifkanz und die Koeffizienten interpretiere ist mir bewusst. [...] Interpretiere ich die Koeffizienten der Vereine richtig, dass sie aussagen, dass z.B. Club 2 über den betrachteten Zeitraum von 725 SPielen eine durchschnittlich geringere Zuschauernachfrage von circa 3 Prozent gegenüber der Konstante(club 1) in seinen Heimspielen hatte?

Die Interpretation der Koeffizienten ist Dir offenbar tatsächlich (zumindest in etwa) bewusst. Allerdings ist der Vergleich mit der Konstanten falsch. Die Differenz besteht zum ausgelassen Club. Vorsicht bei prozentualen Interpretationen bei logarithmiertem outcome (regressionanalyse-f11/interaktion-zwischen-dummy-variablen-interpretation-t2969.html).

Und was sagt das Signifikanzniveau von 0,922 in diesem Fall aus?

Wenn Dir die Interpretation von Signifikanztests bewusst ist, wesshalb dieser zweite Teil der Frage? Der t-Test sagt Dir, das der Unterscheid von ca. 3 Prozent bei "wahrer" Nullhypothese (kein Unterschied) in 99,2 Prozent der Stichproben rein zufällig gefunden wird. Demnach würde man, die üblichen Kriteiren zugrunde legend, schließen, dass sich die beiden besagten Vereine nicht unterscheiden.

Meine letzte Frage ist, warum ich in den beiden unterschiedlichen Regressionen so unterschiedliche Werte bekomme?Die beobachtete Anzahl an Spielen ist doch in beiden Analysen identisch! Warum ändert sich die Konstante? Und warum die Werte für die unabhängigen Variablen?

Seltsame Frage. Du schätzt zwei verschiedene Modelle. Wieso sollte die Koeffizienten gleich sein?

simkahn · von **simkahn** » Di 9. Jul 2013, 13:20

Danke für deine Antwort. Du wirst sicherlich gemerkt haben, dass ich keinerlei Ahnung von Statistik bzw. Stata habe. Daher meine laienhafte Interpretation. Ich bin davon ausgegangen, dass soweit alles korrekt ist, wie es berechnet wurde. Nunja ich muss es jetzt zumindestens als richtig annehmen.

Und ja die Zuschauernachfrage beläuft sich nach den verkauften Tickets, wobei die Stadien eig. nie ausverkauft sind. (außer bei Club nr 19. der "omitted" wurde). Habe ich es jetzt richtig verstanden, dass sich die unterschiedliche Zuschauernachfrage der Clubs 2-18 nicht auf die Konstante beziehen, sondern auf Club nr. 19 (Omitted)? das selbe gilt dann für die season_2006 und season-2008, wobei sich der Unterschied dann auf Season _2012(omitted) bezieht?

Wie gesagt, ich habe keine Ahnun und bin daher sehr froh, dass es dieses Forum hier gibt.

Danke nochmals!

STATISTIK-FORUM.de

richtige Interpretation der Regressionsanalyse ?

richtige Interpretation der Regressionsanalyse ?

Re: richtige Interpretation der Regressionsanalyse ?

Re: richtige Interpretation der Regressionsanalyse ?

Re: richtige Interpretation der Regressionsanalyse ?

Re: richtige Interpretation der Regressionsanalyse ?

Re: richtige Interpretation der Regressionsanalyse ?

Re: richtige Interpretation der Regressionsanalyse ?

Re: richtige Interpretation der Regressionsanalyse ?

Re: richtige Interpretation der Regressionsanalyse ?

Re: richtige Interpretation der Regressionsanalyse ?

Wer ist online?