Datenaufbereitung für Regression (Vorauss., z-Transf.,etc.)

Alle Verfahren der Regressionanalyse.

Datenaufbereitung für Regression (Vorauss., z-Transf.,etc.)

Beitragvon Helpmewithstatistics » Do 11. Jun 2020, 16:27

Guten Tag zusammen,
ich möchte meine Hypothesen gerne mithilfe einer Hierarchischen multiplen Regression testen.
Da meine Uni leider aktuell keine Statistikberatung anbietet, richte ich mich einmal an euch, um mir Feedback einzuholen ! ;)

Hintergrundinformationen
- 279 Teilnehmer
- 1 metrische AV, 4 metrische UV
- Berechnung einer multiplen hierarchischen Regression in 3 Blöcken zur Testung meiner Hypothesen

Vorgehen

Schritt 1: Voraussetzungsprüfungen

(1) Normalverteilte Residuen (Kolmegorov, QQ)
(2) Multikollinearität (VIF, Tolerance, Korrelationen)
(3) Ausreißer (Cook's Distance)
(4) Autokorrelation (Durbin-Watson)
(5) Heteroskedastizität (Scatterplot)
(6) Linearität (Scatterplot)

Schritt 2: Ergebnisse Voraussetzungsprüfungen

- 2 der 4 Prädiktoren sind stark linksschief (Histogramm) und deren Residuen nicht normalverteilt (Voraussetzung NV Fehler verletzt)
- Bei 2 von 4 Prädiktoren findet man im Scatterplot lediglich eine horizontale Linie, kaum Steigung, sprich keinen sign. Zusammenhang zur AV (ist damit gleich die Linearität verletzt?)
- Des Weiteren scheinen die Varianzen teilweise ungleich zu sein (Heteroske. verletzt?), da mir im Scatterplot die Standardfehler in den Randbereichen größer angezeigt werden als in der Mitte der Linie
- anderen Voraussetzungen sind erfüllt

Schritt 3: Transformation der Daten

- Trial and Error diverser Transformationen, linksschiefe V. wurden zuvor gespiegelt: Quadratwurzel, Ln, Inverse, (BoxCox) - keine zufriedenstellende Annäherung an NV
- Mein Betreuer empfahl mir die Prädiktoren zugunsten ihrer Interpretierbarkeit zu z-standardisieren (standardnormalzuverteilen). Hierzu müssen die Daten aber meines Wissens bereits normalverteilt sein, was nicht auf alle alle meine Prädiktoren zutrifft. Ein non-parametrisches Verfahren hat er mir dabei nicht geraten.

Was würdet ihr empfehlen, sodass die Berechnungen auf einem möglichst hohen Niveau sind? Bzw., was ist in der Forschung in solchen Fällen üblich? Ich bin in den letzten Zügen der Arbeit und möchte die Berechnungen nicht komplett revidieren. Nutze Jamovi. Bin etwas ratlos! :|
Helpmewithstatistics
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 11. Jun 2020, 14:16
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Datenaufbereitung für Regression (Vorauss., z-Transf.,et

Beitragvon PonderStibbons » Do 11. Jun 2020, 17:50

Normalverteilung der Residuen ist bei ausreichender Stichprobengröße irrelevant (zentraler Grenzwertsatz).
n von 279 ist mehr als ausreichend.

Für alles andere müsste man wissen, wie die Fragestellung lautet, was es für Variablen sind und ganz genau, wie sie gemessen wurden.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Helpmewithstatistics

Re: Datenaufbereitung für Regression (Vorauss., z-Transf.,et

Beitragvon Helpmewithstatistics » Fr 12. Jun 2020, 15:28

Hallo, vielen Dank für deine so schnelle Antwort! ;)

Die zentrale Fragestellung ist, ob und inwiefern bestimmte Faktoren das Lernverhalten bzw. die Nutzungshäufigkeit ausgewählter (effektiver & weniger effektiver) Lernstrategien beeinflussen. Bei den 5 AV handelt es sich um die Nutzungshäufigkeit der einzelnen Lernstrategien (1-7), metrisch behandelt.

Folgende Variablen wurden als mögliche Einflussfaktoren ausgewählt (UV):

(1) Eingeschätzte Effektivität einer Lernstrategie (1-7, metrisch behandelt): Umso höher der Studierende die E. einer Lernstrategie einschätzt, desto häufiger nutzt er diese auch.
(2) Kognitionsbedürfnis (validierter Fragebogen, zusammengefasst zu einem Index): Umso höher das Kognitionsbedürfnis, desto höher die Nutzungsh. bestimmter Strategien
(3) Motivation (validierter Fragebogen, zusammengefasst zu einem Index): Umso höher die M., desto höher die Nutzungshäufigkeit bestimmter Lernstrategien
(4) Bewertung der Kursschwierigkeit (1 Frage zur Gesamtschwierigkeit des Kurses): Eher explorativ, weil bisher noch nicht untersucht.

Nochmal übersichtlich die offenen Fragen:

(1) Wie entscheide ich, welche Variablen ich in das Regressionsmodell mit aufnehme? Vor allem mit der Kursschwierigkeit tue ich mich schwer, weil diese weder wissenschaftlich im Zusammenhang mit Lernverhalten untersucht wurde noch meine Operationalisierung besonders valide scheint. Zudem entpuppt sich diese Variable bereits bei der Korrelation als bedeutungslos oder drinlassen, weil es "so geplant" war?
(2) Was mache ich mit den linksschiefen Daten? Wie dramatisch ist das? (Muss ja keine NV werden, wie du sagtest) Transfos helfen kaum.
(3) Vor den Berechnungen alle Prädiktoren z-transformieren?
(4) Für jede Lernstrategie (AV) wird eine Regression berechnet (5 Stück insgesamt) mit den oben genannten UV in blockweiser Form: Block 1: UV1; Block 2: Kognitionsbedürfnis & Motivation; Block 3: Kursschwierigkeit. Ich teste somit pro Regression immer mehrere Hypothesen und nutze dieselben Daten für 5 Regressionen, was bedeuten würde dass ich alpha-adjustieren müsste. Für jede Regression erhalte ich immer mehrere p-Werte, für die jeweiligen 3 Modelle, für jede UV einzeln durch den mir ausgespuckten t-test und für die Änderungen in R. Auf welchen p-Wert wende ich die Adjustierung dann an? Wenn ich mit den selben Daten auch noch andere Berechnungen durchführen würde (zb Anova und t-tests) muss ich dies auch noch mit berücksichtigen, richtig?
(5) Wie problematisch ist Heteroskedastizität? Und noch wichtiger, wie lässt sich diese erkennen? Der blaue Bereich im Scatterplot (siehe angehängtes Bild) stellt die Standardabweichungen dar und scheint nicht ebenmäßig. Kann ich dies hiervon ableiten, dass die Varianzen ungleich sind? Oder verwechsle ich etwas?

Viele liebe Grüße
Helpmewithstatistics
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 11. Jun 2020, 14:16
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Datenaufbereitung für Regression (Vorauss., z-Transf.,et

Beitragvon PonderStibbons » Fr 12. Jun 2020, 16:54

(1) Eingeschätzte Effektivität einer Lernstrategie (1-7, metrisch behandelt): Umso höher der Studierende die E. einer Lernstrategie einschätzt, desto häufiger nutzt er diese auch.

Nur zu Sicherheit: ich gehe davon aus, Du meinst JE höher die Einschätzung DESTO häufiger genutzt?
(1) Wie entscheide ich, welche Variablen ich in das Regressionsmodell mit aufnehme?

Nach Theorie, Fragestellung, Vorwissen.
drinlassen, weil es "so geplant" war?

Ja. Wobei ich das eher für einen Moderator gehalten hätte.
(2) Was mache ich mit den linksschiefen Daten? Wie dramatisch ist das? (Muss ja keine NV werden, wie du sagtest) Transfos helfen kaum.

Transformieren, um irgendwelche Modellvoraussetzungen mit Gewalt herbeizuführen, ist problematisch.
Es müsste schon inhaltlich Sinn ergeben und interpretierbar sein. Ln(Nutzung), ergibt das einen Sinn?
Im vorliegenden Fall ist die Sache ja bereits besprochen. Die Verteilungsform der Variablen ist unerheblich,
die der Residuen aufgrund der Stichprobengröße hier auch.
(3) Vor den Berechnungen alle Prädiktoren z-transformieren?

Zentrieren kann manchmal sinnvoll sein, z-Standardisieren vor der Regression kenne ich nicht.
(4) Für jede Lernstrategie (AV) wird eine Regression berechnet (5 Stück insgesamt) mit den oben genannten UV in blockweiser Form:

Wozu blockweise?
(5) Wie problematisch ist Heteroskedastizität?

Sehr.
Und noch wichtiger, wie lässt sich diese erkennen?

Residualplots. Breusch-Pagan Test (obwohl ich persönlich von Signfikanztests zur
Testung von Modellvoraussetzungen wenig halte, sie sind entweder zu empfindlich oder zu
unempfindlich, je nach Stichprobengröße).
Abhilfe: "Robuste Standardfehler" verwenden.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Helpmewithstatistics

Re: Datenaufbereitung für Regression (Vorauss., z-Transf.,et

Beitragvon Helpmewithstatistics » Sa 13. Jun 2020, 11:54

OK.
Zentrieren kann manchmal sinnvoll sein, z-Standardisieren vor der Regression kenne ich nicht.

Bei der Z-Standardisierung werden die Werte auch erstmal zentriert und anschließend noch durch die Standardabweichung geteilt. Was spricht denn gegen z? ;)

Ja. Wobei ich das eher für einen Moderator gehalten hätte.

Ja das sehe ich mich der Motivation eigentlich ähnlich. Denn nur weil ein Studi weiß, dass eine Lernstrategie effektiv ist, wird er sie nicht gleich anwenden, sondern nur bei entsprechender Motivation. Für beide könnte ich mir theoretisch neben den Haupteffekten auch die Interkationseffekte anschauen, aber das macht die Sache nicht weniger übersichtlich. Was sagst du?

Wozu blockweise?

Blockweise aus folgenden Gründen: Die Effektivität hat sich in einer Vorstudie bereits als wesentlicher Faktor herausgestellt, deshalb Block 1. Die Personencharakteristika folgen im zweiten Block (Kognitionsbedürfnis & Motivation) um zu sehen, ob diese über den ersten Block hinaus noch signifikant mehr Varianz erklären. Die Kursschwierigkeit wäre dann noch extra in Block 3. Macht das so Sinn?

Residualplots.

Habe ich mir ausgeben lassen. Leider kann ich hier keine Bilder anhängen (weil das Dateivolumen schon ausgenutzt ist?). Wirklich systematische Muster lassen sich nicht erkennen, jedoch ist dies teilweise schwierig zu beurteilen: da kaum Studierende die Schwierigkeit des Kurses mit einer 7 bewertet haben oder die Effektivität einer Lernstrategie mit 1, gibt es in diesen Randbereichen teils nur wenige Punkte (vielleicht darf ich sie auch als Ausreißer betrachten und es geht mehr um das Gesamtbild?). Wie kritisch geht man hier mit Mustern um? Vor allem wenn die Randbereiche geringe besetzt sind? Sog. robuste /heteroskedasticity-consistent (HC) standard errors sind bei jamovi schwierig einzusetzen.

Vielen, vieelen Dank schon mal PonderStibbons :)
Helpmewithstatistics
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 11. Jun 2020, 14:16
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Datenaufbereitung für Regression (Vorauss., z-Transf.,et

Beitragvon PonderStibbons » Sa 13. Jun 2020, 12:03

Helpmewithstatistics hat geschrieben:OK.
Zentrieren kann manchmal sinnvoll sein, z-Standardisieren vor der Regression kenne ich nicht.

Bei der Z-Standardisierung werden die Werte auch erstmal zentriert und anschließend noch durch die Standardabweichung geteilt. Was spricht denn gegen z? ;)

Warum sollte man die Standardabweichungen zwangsweise auf 1 bringen, ich
erkenne darin keinen Sinn.
Für beide könnte ich mir theoretisch neben den Haupteffekten auch die Interkationseffekte anschauen, aber das macht die Sache nicht weniger übersichtlich.

Finde ich auch, unübersichtlicher würde es nicht. Die ausschlaggebende Frage ist,
hat man ein theoretisches Konzept, aus dem sich das herleitet. Wenn ja, sollte man
sie hineinnehmen.
Wirklich systematische Muster lassen sich nicht erkennen

Dann gehe mal von ausreichender Homoskedaszität aus.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Helpmewithstatistics

Re: Datenaufbereitung für Regression (Vorauss., z-Transf.,et

Beitragvon Helpmewithstatistics » So 5. Jul 2020, 14:57

Vielen Dank nochmal für deine Antwort.

Zum theoretischen Konzept - jein. Literatur/ Studien gibts dazu bisher noch keine. Plausibel erscheint mir eine Interaktion aber dennoch. So viel Motivation ein Studierender mitbringt, wenn er nicht weiß dass eine Strategie effektiv ist, wird er sie wahrscheinlich auch nicht nutzen. Allerdings habe ich ja auch zur Variablen Kursschwierigkeit kaum Literatur gefunden und dennoch ist diese Variable in allen Modellen inkludiert. Verunsichert mich auch noch nach wie vor (wird auch in keinem Modell signifikant).

Würdest du also noch jeweils eine Interaktion berechnen bestehend aus den 3 Variablen: Eingeschätzte Effektivität * Kognitionsbedürfnis * Motivation?
Unübersichtlich vor allem deshalb, weil ich ja schon 5 Regressionen berechne, zu welchen ich jeweils noch einen weiteren Step (Interaktion) hinzufügen und reporten müsste ;)

LG
Helpmewithstatistics
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 11. Jun 2020, 14:16
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 15 Gäste

cron