hierarchische multiple lineare Regression

Alle Verfahren der Regressionanalyse.

hierarchische multiple lineare Regression

Beitragvon Gally » Fr 9. Feb 2018, 21:11

Hallo liebe Helfer,

ich schreibe gerade an meiner Masterarbeit und stecke bei der Auswertung der Daten fest. Vielleicht kann mir jemand helfen?

Um eine Theorie zu testen habe ich eine Mobilitätserhebung durchgeführt (N=122). Hier habe ich für verschiedene Verhaltensweisen (insgesamt 3 (Fuß, Rad, ÖPNV)) die tatsächliche Zeit an 7 Tagen gemessen und mit einem Fragebogen interne und externe Variablen erfasst. Nun wollte ich mit einer Regression die Theorie bzw. die Vorhersagekraft auf eine bestimmte Verhaltensweise überprüfen. Nachfolgend liste ich meine Vorgehensweise auf.

AV - durchschnittliche Minuten am Tag für die Verhaltensweise (Gehen, Radfahren, ÖPNV)
UV - direkte Determinanten der Theorie auf das Verhalten + Störvariablen

1. Die AV's sind metrisch und die UV's sind dichotom und metrisch. Deshalb habe ich mich für eine multivariate lineare Regression entschieden. Also für jedes Verhalten eine Regression.

2. Da jedoch die Verhaltensweisen von anderen Variablen (Störvariablen) nach der Literatur determiniert werden, habe ich mich für die hierarchische multivariate lineare Regression entschieden. 1 Schritt: Störvariablen 2. Schritt: Störvariablen + direkten Determinanten der Theorie auf das Verhalten.

3.Die Auswertung des zu Fuß Gehens hat auch gut funktioniert. Alle Voraussetzungen sind erfüllt. Bei den beiden Anderen Rad und ÖPNV, sind die Daten etwas eingeschränkt. Hier ist das Problem, dass nicht alle Probanden diese Verkehrsmittel benutzten. D.h. ich habe beim Rad 59 Probanden mit 0 Minuten und beim ÖPNV 74 Probanden mit 0 Minuten. Weshalb die AV-Rad und AV-ÖPNV nicht normalverteilt sind.

AV-Rad
4.Wenn ich also die gleiche Vorgehensweise auswähle wie beim zu Fuß gehen, habe ich bei der AV Rad direkt in der ANOVA-Tabelle im ersten Schritt keine Signifikanz und im zweiten Schritt schon. Außerdem haben die Daten nach der Graphik keine Homoskedastizität. Zumindest nehme ich das an, weil die Punkte nicht gleich verteilt sind und es ist zusätzlich quasi eine dunkle Punkte-Linie zu erkennen. Die Residuen sind annährend normalverteilt. (1AV und 11 UV's)

5. Wenn ich die Anzahl der unabhängigen Variablen auf 6 reduziere werden in der ANOVA-Tabelle beide Schritte signifikant. Fehlende Homoskedastizität bleibt jedoch.

6. Wenn ich nur die Probanden anschaue die tatsächlich auch Rad gefahren sind (N=63) entsteht bei der Prüfung auf Homoskedastizität ein Muster, dass ich nicht eindeutig beurteilen kann. Vor Allem, wenn es möglich ist würde ich schon gerne die anderen Probanden mit 0 Minuten einschließen.

AV-ÖPNV
7. Hier sind beide Schritte in der ANOVA signifikant. Jedoch zeigt hier die Graphik eine Art zwei Klumpen an (horizontal oben und unten). Der Klumpen oben sieht annährend nach Homoskedastizität aus der unten hat wieder eine Art Punkt-Linie drin.

8. Wenn ich hier nur die Probanden anschaue die tatsächlich auch ÖPNV gefahren sind (N=48) entsteht bei der Prüfung auf Homoskedastizität ein Muster, dass ich nicht eindeutig beurteilen kann. Die Punkte rechts sind dichter (mehr Pkt als links). Vor Allem, wenn es möglich ist würde ich schon gerne die anderen Probanden mit 0 Minuten einschließen.


weitere Theorieüberprüfung

Um die Theorie weiter zu überprüfen, weil es Determinanten gibt, die nicht direkt das Verhalten beeinflussen, muss ich weitere Regressionen durchführen. Hier ist die abhängige Variable eine mit dem Fragebogen erfragte latente singel Variable (unipolare Likert-Skala 1-5). Unabhängige Variablen sind: Störvariablen + weitere Determinanten der Theorie.

9. Man hat mir gesagt, dass man in den Sozialwissenschaften Likert-Skalen als metrisch ansehen darf. Gilt es auch für Ein-Item-Variablen?

10. Wenn ich hier gleich vorgehe wie in Pkt. 1 und 2 , klappt es super (Angenommen, man darf diese Variable als metrische bezeichnen). Allerdings kann mir niemand sagen, ob das Muster homoskedastisch ist oder nicht. Es sieht so aus: fünf schräge Linien von links oben nach rechts unten. Wenn man es wie eine Art Rechteck anschaut, würde ich sagen, es ist ok. Leider habe ich davon keine Ahnung und keine Erfahrung damit. Deshalb kann ich es nicht beurteilen.

11. Wenn die Annahme in 10 nicht korrekt ist, welches Regressionsmodell müsste ich dann anwenden?

Sonstiges

Gibt es in SPSS Test für die Berechnung der Homoskedastizität?
Wie kann man sich sicher sein, dass es es Homoskedastizität ist oder nicht? Gibt es konkrete feste Regeln?

So nun meine Fragen bzw. mein Anliegen an euch Lieben.
Es wäre echt so lieb von euch, wenn ihr mir sagen könnt inwiefern ich richtig oder falsch mit meiner Vorgehensweise liege. Aufgrund der Derzeit vorliegenden Unsicherheit - was ist richtig, was ist falsch - und dem Zeitdruck, würde es mich echt weiterbringen.

Für eure Mühe bereits an dieser Stelle 1000 Dank und liebe Grüße
Gally
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Fr 9. Feb 2018, 16:10
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: hierarchische multiple lineare Regression

Beitragvon PonderStibbons » Fr 9. Feb 2018, 23:21

Hier ist das Problem, dass nicht alle Probanden diese Verkehrsmittel benutzten. D.h. ich habe beim Rad 59 Probanden mit 0 Minuten und beim ÖPNV 74 Probanden mit 0 Minuten.

Dann ergibt es doch wenig Sinn, eine multiple lineare Regression über den Gesamtdatensatz zu rechnen?
Fast 2/3 der Probanden nutzen (fast) nie den ÖPNV, ca. die Hälfte (fast) nie das Fahrrad. Die geheimnisvolle
Theorie, die Du testest, ist womöglich eben keine zu der Frage "Nutzt jemand Verkehrsmittel X ja/nein", sondern eine,
die bei den tatsächlichen Nutzern die Nutzungsintensivität vorhersagt. Oder auch anders. Da man die Theorie und den
Kontext und die Zahl der Prädiktoren nicht kennt, ist man wie bei allem hier auf Spekulationen angewiesen.

9. Man hat mir gesagt, dass man in den Sozialwissenschaften Likert-Skalen als metrisch ansehen darf. Gilt es auch für Ein-Item-Variablen?

Likert-Items sind ordinalskaliert, Likert-Skalen quasi intervallskaliert.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Gally

Re: hierarchische multiple lineare Regression

Beitragvon Gally » Sa 10. Feb 2018, 12:03

PonderStibbons,
vielen Dank für die Anmerkungen. Nein die Theorie ist nicht geheim.
Vielleicht hilft der kleine Nachtrag das Problem, also mein Problem zu verdeutlichen.

Es handelt sich um die Theorie des geplanten Verhaltens. Und ich überprüfe mit meiner Arbeit, ob die Theorie des geplanten Verhaltens die nachhaltige Mobilität vorhersagen kann. Da jedoch die Verkehrsmittel der nachhaltigen Mobilität sich gegenseitig beeinflussen werden sie einzeln (Fuß, Rad, ÖPNV) untersucht. Hierzu habe ich die tatsächliche Mobilität von N=122 gemessen.

Schritt1: Bekannt ist, dass das Mobilitätsverhalten von Störvariablen (Demographie, Infrastruktur und Ausstattung der HH) beeinflusst wird, aktuell habe ich 8 unabhängige Variablen.
Schritt2: Nach der Theorie hat die Determinante Absicht ein bestimmtes Verkehrsmittel zu verwenden oder nicht (1 UV) und die Determinante wahrgenommene Verhaltenskontrolle (Fuß= 4 UV, Rad=2 UV, ÖPNV=1 UV) einen direkten Einfluss auf das Verhalten.

Des Weiteren besagt die Theorie, dass die Absicht ein Verhalten ausüben zu wollen von drei Determinanten (6-9 UV's) beeinflusst wird. In diesem Fall ist die Abhängige Variable Absicht (Fuß, Rad, ÖPNV) ein-Item-Variable (5 stufige Likert-Skala).

vielen Dank für die Mühe
Liebe Grüße
Gally
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Fr 9. Feb 2018, 16:10
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: hierarchische multiple lineare Regression

Beitragvon PonderStibbons » Sa 10. Feb 2018, 18:50

Da jedoch die Verkehrsmittel der nachhaltigen Mobilität sich gegenseitig beeinflussen werden sie einzeln (Fuß, Rad, ÖPNV) untersucht.

Das ist doch inhaltlich und methodisch widersinnig. Wenn sie sich beeinflussen, dann ist das ein Argument dagegen, sie einzeln zu betrachten. Wenn es für eine Person ein Kontingent an Strecken gibt, die er mit einem "nachhaltigen" Verkehrsmittel bewältigen könnte, dann nimmt sich das gegenseitig die Zeit weg. Zwangsläufig kommt es zu Null-Werten. Wenn die 3 Verkehrsmittel gemeinsam Nachhaltigkeit repräsentieren, dann können sie auch gemeinsam die abhängige Variable bilden. Möglich wäre eine Multivariate Varianzanalyse mit 3 abhägigen Variablen, intervallskalierte Prädiktoren kann man dabei ebenso wie kategoriale sowie die Wechselwirkungen verwenden. Allenfalls könnte man überlegen, jeweils die Verwendung von Verkehrsmittel A und B als zusätzliche Prädiktoren einzubauen, um C vorherzusagen. Aber ok, das ist auch der Punkt, wo ich gar nicht weiß, wie eigentlich die konkrete präzise Fragestellung aussieht.

Schritt1: Bekannt ist, dass das Mobilitätsverhalten von Störvariablen (Demographie, Infrastruktur und Ausstattung der HH) beeinflusst wird, aktuell habe ich 8 unabhängige Variablen.

8 "Störvariablen" oder insgesamt 8 Prädiktoren? Und wenn es nicht die üblichen "Kontrollvariablen" sind, sondern tatsächlich Störvariablen, dann müssten doch ihre Wechselwirkungen mit den theoretisch relevanten Variablen noch rein. Das statistische Modell wird bei gerade mal n=122 tendenziell überladen.
Schritt2: Nach der Theorie hat die Determinante Absicht ein bestimmtes Verkehrsmittel zu verwenden oder nicht (1 UV) und die Determinante wahrgenommene Verhaltenskontrolle (Fuß= 4 UV, Rad=2 UV, ÖPNV=1 UV) einen direkten Einfluss auf das Verhalten.

Ach so. Demnach geht es nicht um die Zeit, sondern überhaupt um die Nutzung? Das ginge jeweils mit einer logistischen Regression. Ich muss aber gestehen, dass ich sowohl die Fragestellung als auch die statistische Umsetzung nicht recht nachvollziehen kann.

(6-9 UV's)

Zusätzlich zu 8 "Störvariablen"? Das wäre sinnvoll vermutlich nicht mehr zu rechnen.

ein-Item-Variable (5 stufige Likert-Skala).

NB, ein einzelnes Item ist keine Likert-Skala und hat keine Likert-Skala. Es ist einfach ein Item vom Likert-Typ, mit Likert-Antwortformat. Aber eben keine "Skala" (die besteht aus mehreren solcher Items).

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste

cron