Grundannahmen und Testauswahl

Fragen, die sich auf kein spezielles Verfahren beziehen.

Grundannahmen und Testauswahl

Beitragvon RandomBob » Do 22. Apr 2021, 03:22

Hallo zusammen,

ich sitze aktuell an meiner Masterarbeit und werte eine Umfrage mit geringer Stichprobe (N zwischen 7 und 9 pro Professionalisierungsgruppe) aus und habe einige Fragen. Da ich in diesem Forum bereits viele engagierte und hilfsbereite Beiträge gelesen habe, dachte ich, ich versuche mal mein Glück.
Kontext zum Verständnis meiner Daten: Ziel meiner Umfrage ist es vor allem, wahrgenommene und bewertete Relevanz von Nachhaltigkeit in drei verschiedenen Professionalisierungsgruppen (G1, G2, G3) zu untersuchen. Hauptteil meiner Umfrage besteht daher aus circa 20 Items, welche die bewertete Relevanz von Bereichen der Nachhaltigkeit (z.B. Ressourcennutzung) auf einer Skala von 1 (gar nicht relevant) bis 6 (sehr relevant) abfragen (keine neutrale Antwort, stattdessen "keine Antwort"-Option). Grundlegend wären diese Items meinem Verständnis nach also likert-skalierte Items, ist das korrekt?
Die bewertete Relevanz der Bereiche ist, wie zu erwarten, laut Kolmogorov für die meisten Bereiche nicht normalverteilt. Bei einem Bereich wird die Nullhypothese der Normalverteilung beibehalten (Sig = 0,181), jedoch würde ich auf Grundlage des Konstrukts in diesem Fall dennoch gegen eine Normalverteilung sprechen. Dies führt zu meiner zweiten Frage: Ist diese Argumentation schlüssig oder müsste ich dennoch von einer Normalverteilung in einem von ~20 Bereichen ausgehen?

Meine Ausführung bezüglich Cronbachs Alpha würden denke ich den Rahmen sprengen, ich denke, dass ich da aber gut mit meinen Betreuer*innen drüber sprechen kann bzgl. der inneren Konsistenz.

Jetzt habe ich über den Exakten Test nach Fisher erstmal nach Abhängigkeiten zwischen den Professionalisierungsgruppen geguckt und in ein paar wenigen Items diese auch gefunden. Mittels Mann-Whitney-U-Test habe ich dann geguckt, in wie fern diese Unterschiede paarweise signifikant sind und diese auch größtenteils signifikant (Teils nur asymp. mit geringer Stichprobe, also auch diskussionswürdig je nach Literatur) nachweisen können. Sind diese Testverfahren mit meinen obigen Annahmen die korrekten gewesen?

Bis hier hin bin ich mir eigentlich relativ sicher mit meinem Vorgehen (obgleich ich gerne, soweit möglich, Bestätigung hätte natürlich). Nun bin ich aber an einem Punkt, an dem ich methodisch zwei Sachen bisher nicht (zumindest mit SPSS) umsetzen kann:
1.) Ich habe mir die Mittelwerte aller Bereiche einzeln angeguckt und den Gesamtmittelwert aller ~20 Bereiche über alle Probanden. Ein Bereich liegt hierbei mit dem Mittelwert außerhalb des 95%igen Konfidenzintervalls um den allgemeinen Mittelwert. Bedeutet in Zahlen grob: Ich habe den allgemeinen Mittelwert bei circa 5 mit einer Standardabweichung von ~0,6 und der Mittelwert für einen Bereich liegt bei circa 3.8. Folgerung für mich wäre hierbei, dass dieser Mittelwert und somit die bewertete Relevanz dieses Bereiches signifikant vom allgemeinen Mittelwert und somit von der allgemein bewerteten Relevanz aller Bereiche abweicht, was zudem passend für eine meiner Hypothesen wäre. Hier bin ich mir jedoch recht unsicher jetzt: Kann ich so mit likert-skalierten Items umgehen (Stichpunkt: Ordinalskala mit Median vs. Mittelwert)? Gibt es eine Möglichkeit diese händische Variante mit einem SPSS Befehl zu überprüfen? Alles, was ich online finde, bezieht sich meistens auf einen Mittelwertvergleich unter Betrachtung einer Gruppierungsvariable (also suche ich quasi einen Mann-Whitney-U-Test ohne Gruppierung glaube ich, vermutlich irgendeine Kreuztabelle und ich stehe mega auf dem Schlauch...).
Jetzt sehe ich zudem viele potentielle Möglichkeiten, likert-skalierte Items über die Summe intervallskaliert zu nutzen. Wofür wäre das zum Beispiel gut?

2.) Habe ich in meiner Umfrage ein Ranking von verschiedenen Möglichkeiten durchführen lassen, Nachhaltigkeitsthemen stärker einzubinden. Datenoutput sind dementsprechend 10 Variablen (Rank 1 bis Rank 10), wobei jeder Proband einzelne Antwortmöglichkeiten (A1 bis A10) zugeordnet hat und eben die "beste" Möglichkeit, z.B. A5 bei der Variable Rank 1 eingetragen hat und so weiter. Wie könnte ich diese Daten transformieren, um sie vergleichbar zu machen? Müsste ich für jede Antwortmöglichkeit eine Variable konstruieren, die den jeweiligen (invertierten) Rank der Probanden beinhaltet, über welche ich dann Mittelwerte bilden und vergleichen könnte? Und wenn ja, gibt es dafür einen "schnellen" Weg mit SPSS oder muss ich das für jede Antwortmöglichkeit separat durchführen?

Okay ich glaube vorerst wären das alle Fragen, die mir so im Kopf rumschwirren. Verzeiht, wenn einzelne meiner Fragen für die erfahrenen Statistiker unter euch "dumm" sind, ich habe zwar einen mathematischen Hintergrund, bin jedoch eher stochastisch als statistisch ausgebildet worden.

PS: Die explorative Faktorenanalyse lief eher so geht so, wer da also Tipps und Tricks hat gerne her damit - das nur am Rande.
RandomBob
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Do 22. Apr 2021, 02:13
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Grundannahmen und Testauswahl

Beitragvon PonderStibbons » Do 22. Apr 2021, 07:36

Dies führt zu meiner zweiten Frage: Ist diese Argumentation schlüssig oder müsste ich dennoch von einer Normalverteilung in einem von ~20 Bereichen ausgehen?

Likert-Items sind ordinalskaliert, daher ist die Frage nach Normalverteilung oder nicht-Normalverteilung an sie gar nicht zu stellen.
Allenfalls der Summenscore könnte darauf hin betrachtet werden, aber es stellt sich dann die Frage wozu. Normalverteilte
Variablen sind für kein Verfahren eine Voraussetzung (außer dem Signifikanztest der Pearson-Korrelation).

Jetzt habe ich über den Exakten Test nach Fisher erstmal nach Abhängigkeiten zwischen den Professionalisierungsgruppen geguckt und in ein paar wenigen Items diese auch gefunden.

Wenn Du drei Gruppen hinsichtlich eines ordinalskalierten Merkmals vergleichen willst, dann ist der
Kruskal-Wallis H-Test angebracht. Verfahren für Kreuztabellen verschenken Informationen.

Es fehlt an einer Diskussion der Frage, warum 20 mal getestet wird und ob man nicht das Risiko
falsch-positiver Befunde begrenzen müsste.
1.) Ich habe mir die Mittelwerte aller Bereiche einzeln angeguckt und den Gesamtmittelwert aller ~20 Bereiche über alle Probanden. Ein Bereich liegt hierbei mit dem Mittelwert außerhalb des 95%igen Konfidenzintervalls um den allgemeinen Mittelwert. Bedeutet in Zahlen grob: Ich habe den allgemeinen Mittelwert bei circa 5 mit einer Standardabweichung von ~0,6 und der Mittelwert für einen Bereich liegt bei circa 3.8. Folgerung für mich wäre hierbei, dass dieser Mittelwert und somit die bewertete Relevanz dieses Bereiches signifikant vom allgemeinen Mittelwert und somit von der allgemein bewerteten Relevanz aller Bereiche abweicht, was zudem passend für eine meiner Hypothesen wäre.

Ich verstehe leider weder, wieso Du mit einemmal auf Itemebene Mittelwerte und Standardabweichungen betrachtet,
noch welcher (apriori- ?)Fragestellung Du hier nachgehst.
2.) Habe ich in meiner Umfrage ein Ranking von verschiedenen Möglichkeiten durchführen lassen, Nachhaltigkeitsthemen stärker einzubinden. Datenoutput sind dementsprechend 10 Variablen (Rank 1 bis Rank 10), wobei jeder Proband einzelne Antwortmöglichkeiten (A1 bis A10) zugeordnet hat und eben die "beste" Möglichkeit, z.B. A5 bei der Variable Rank 1 eingetragen hat und so weiter. Wie könnte ich diese Daten transformieren, um sie vergleichbar zu machen? Müsste ich für jede Antwortmöglichkeit eine Variable konstruieren, die den jeweiligen (invertierten) Rank der Probanden beinhaltet, über welche ich dann Mittelwerte bilden und vergleichen könnte? Und wenn ja, gibt es dafür einen "schnellen" Weg mit SPSS oder muss ich das für jede Antwortmöglichkeit separat durchführen?

Leider verstehe ich auch hier nicht, welcher konkreten Frage Du nachgehst. Willst Du ermitteln, welche Antwortmöglichkeiten
bevorzugt werden? Das sind die mit dem höchsten Median des Rankings. Oder geht es um etwas anderes?
PS: Die explorative Faktorenanalyse lief eher so geht so, wer da also Tipps und Tricks hat gerne her damit - das nur am Rande.

Wozu denn sowas? 20 Items, d.h. eine Korrelationsmatrix mit 190 Korrelationen, und weniger als 30 Probanden,
das ergibt nichts, worauf man sich verlassen könnte.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
RandomBob

Re: Grundannahmen und Testauswahl

Beitragvon RandomBob » Do 22. Apr 2021, 09:51

PonderStibbons hat geschrieben:Wenn Du drei Gruppen hinsichtlich eines ordinalskalierten Merkmals vergleichen willst, dann ist der
Kruskal-Wallis H-Test angebracht. Verfahren für Kreuztabellen verschenken Informationen.
Es fehlt an einer Diskussion der Frage, warum 20 mal getestet wird und ob man nicht das Risiko
falsch-positiver Befunde begrenzen müsste.

Den Kruskal-Wallis H-Test konnte ich nicht durchführen, da ich als output dabei immer "Die Testvariable ist nicht stetig." bekommen habe. In wie fern "warum 20 mal getestet wird"? Wie sollte ich sonst mit den 20 Items umgehen - über die Summen gehen? Edit: Ich gucke mir gleich den Krustal-Wallis H-Test nochmal genauer an, vielleicht war mein Input nur falsch.

PonderStibbons hat geschrieben:Ich verstehe leider weder, wieso Du mit einemmal auf Itemebene Mittelwerte und Standardabweichungen betrachtet,
noch welcher (apriori- ?)Fragestellung Du hier nachgehst.

Jedes Item fragt die Bewertung für einen Bereich ab, z.B. "Diversität und Inklusion" und "Ressourcennutzung". Mein Ziel ist es damit (hoffentlich), Aussagen über die einzelnen Bereiche zu treffen und diese in ihrer Gesamtheit vergleichen zu können. So ist eine Hypothese von mir, dass dem Bereich "Diversität und Inklusion" grundsätzlich (ohne Betrachtung der Professionalisierungsgruppen) eine deutlich geringere Relevanz bemessen wir. Daher dachte ich, dass der Mittelwert dieses Items (Bereichs) im Vergleich mit dem Mittelwert aller Items dieser Kategorie (aller Bereiche) ein "Maß" (schwierig bei ordinaler Skalierung) für die unterschiedliche Bewertung der Bereiche sein könnte. - Ergibt das Sinn von meiner Erklärung her?


PonderStibbons hat geschrieben:Leider verstehe ich auch hier nicht, welcher konkreten Frage Du nachgehst. Willst Du ermitteln, welche Antwortmöglichkeiten
bevorzugt werden? Das sind die mit dem höchsten Median des Rankings. Oder geht es um etwas anderes?

Jap, das wäre mein Ziel. Also "A3" wird für das beschriebene Ziel als "am sinnvollsten" betrachtet, "A5" am zweitsinnvollsten und so weiter. In einer Vorlesung hatte ich mal gelehrt bekommen, dass man für solch eine Ordinalskala durchaus den Mittelwert bilden kann (Vgl. Zeugnisnoten) und diese vergleichen kann, man jedoch darauf achten muss, dass auch diese Mittelwert-Information "nur" Ordinalskalenniveau hat, also auch nur Informationen über das Ranking ausgibt. Stimmt das oder ist das trotzdem ein no-go?

VIelen lieben Dank auf jeden Fall schonmal für die ausführliche Antwort! :)
RandomBob
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Do 22. Apr 2021, 02:13
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Grundannahmen und Testauswahl

Beitragvon PonderStibbons » Do 22. Apr 2021, 11:19

In wie fern "warum 20 mal getestet wird"? Wie sollte ich sonst mit den 20 Items umgehen - über die Summen gehen?

Ich kenne den Kontext und die ganz konkreten Fragestellungen nicht, die dahinterstehen, und kann
daher die Sinnhaftigkeit von Dutzenden Tests bei einer so kleinen Stichprobe nicht abschließend
beurteilen. Das Thema multiplen Testens sollte zumindest mal reflektiert werden.
Daher dachte ich, dass der Mittelwert dieses Items (Bereichs) im Vergleich mit dem Mittelwert aller Items dieser Kategorie (aller Bereiche) ein "Maß" (schwierig bei ordinaler Skalierung) für die unterschiedliche Bewertung der Bereiche sein könnte. - Ergibt das Sinn von meiner Erklärung her?

Für mich leider nicht.

Jap, das wäre mein Ziel. Also "A3" wird für das beschriebene Ziel als "am sinnvollsten" betrachtet, "A5" am zweitsinnvollsten und so weiter. In einer Vorlesung hatte ich mal gelehrt bekommen, dass man für solch eine Ordinalskala durchaus den Mittelwert bilden kann (Vgl. Zeugnisnoten) und diese vergleichen kann, man jedoch darauf achten muss, dass auch diese Mittelwert-Information "nur" Ordinalskalenniveau hat, also auch nur Informationen über das Ranking ausgibt. Stimmt das oder ist das trotzdem ein no-go?

Das ist eine 10stufige Rangordnung, da ist der Median doch gar kein Problem.

Anscheinend ist sowas basales wie Skalenniveaus in Deinem Kontext wenig relevant,
daher solltest Du das mit Deiner Betreuungsperson besprechen. Letztlich geht es ja
nur um deren Einschätzung.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
RandomBob

Re: Grundannahmen und Testauswahl

Beitragvon RandomBob » Do 22. Apr 2021, 13:36

Okay ich habe nochmal von vorne den Kruskal-Wallis-H-Test über "nicht parametrische Tests -> klassische Dialogfelder -> K unabhängige Stichproben" gemacht und kein Problem mit der Ausgabe mehr gehabt. Jetzt wollte ich den Test über "nicht parametrische Tests -> unabhängige Stichproben" nochmal machen mit dem gleichen Input(, um laut einem Erklärvideo die Möglichkeit für einen paarweisen Vergleich zu nutzen,) aber erhalte, dass der Test nicht durchgeführt werden konnte, da die Testvariable nicht stetig ist. Das bekomme ich sowohl bei der Auswahl "Verteilung zwischen Gruppen automatisch vergleichen" als auch "Analyse anpassen". Bei der Auswahl "Mediane zwischen Gruppen vergleichen" wird der Process ausgeführt, schließt aber scheinbar nicht ab. Zumindest bekomme ich auch nach längerem Warten keinen Output und beim Weiterarbeiten hängt sich SPSS auf. Kann ich in diesem Fall für einen paarweisen Vergleich den Mann-Whitney-U-Test verwenden?
Für die Überprüfung von nominalskalierten Items mit geringer Stichprobe (zu gering für Chi²) über 3 verschiedene Gruppen (auch für zwei andere Items relevant) würde ich aber den Exakten Test nach Fisher nutzen, korrekt? Wie würde ich hier für einen paarweisen vergleich weiter vorgehen müssen?

PonderStibbons hat geschrieben:Ich kenne den Kontext und die ganz konkreten Fragestellungen nicht, die dahinterstehen, und kann
daher die Sinnhaftigkeit von Dutzenden Tests bei einer so kleinen Stichprobe nicht abschließend
beurteilen. Das Thema multiplen Testens sollte zumindest mal reflektiert werden.

Achso - ja, das auf jeden Fall! Ist vermutlich bei zwei meiner Hits auch der Fall, wird also diskutiert. Danke aber für den Hinweis!

Ich versuche das mal konkreter zu beschreiben:
Ich habe für viele Bereiche (Globalisierung, Umwelt, Ressourcennutzung, Diversität und Inklusion, etc.) die bewertete Relevanz von 1-6 erfragt. Jetzt war eine Hypothese von mir, dass in einigen dieser Bereiche (z.B. Diversität und Inklusion) die Relevanz geringer bewertet wird als in anderen, genauer, dass diese Relevanz signifikant geringer bewertet wird als die Relevanz aller Bereiche (übertrieben: als die bewertete Relevanz von Nachhaltigkeit im Allgemeinen) zusammen. Die Mittelwerte (auch die Mediane) zeigen diese Annahme tendenziell, d.h. die Relevanz wird für Diversität und Inklusion über alle Probanden im Mittelwert/Median liegt bei 4 "etwas relevant" (Mittelwert ~3.8) und ist deutlich niedriger als eben alle anderen einzelnen Mittelwerte (wenn wir mal die Orientierung über Mittelwerte nutzen, wobei auch die meisten Mediane bei 5 und einige bei 6 liegen), während der allgemeine Mittelwert/Median über alle Bereiche über alle Probanden bei ~5 "relevant". Wie kann ich diese Diskrepanz nun vorzugsweise signifikant nachweisen? Eine Unterteilung der jeweiligen Professionalisierungsgruppen soll hier nicht vorgenommen werden, also über alle Probanden. Vielleicht machen diese Ausführungen mein Vorhaben und Gedankengang ein wenig deutlicher.

PonderStibbons hat geschrieben:Das ist eine 10stufige Rangordnung, da ist der Median doch gar kein Problem.

Das stimmt. Worst case bekomme ich über den Median aber mehrere Möglichkeiten, die alle als "am besten" bewertet werden. Beispiel: 2 Möglichkeiten erhalten den Median "Rang 2", die hypothetischen Mittelwerte sind aber für Möglichkeit 1 = 1.7 und für Möglichkeit 2 = 1.95. Würde ja bedeuten, dass Möglichkeit 1 dennoch als besser als Möglichkeit 2 bewertet wird. Lässt sich sowas umgehen mit Medianen oder muss ich da eher argumentativ ran?

PonderStibbons hat geschrieben:Anscheinend ist sowas basales wie Skalenniveaus in Deinem Kontext wenig relevant,
daher solltest Du das mit Deiner Betreuungsperson besprechen. Letztlich geht es ja
nur um deren Einschätzung.

Auf Grund des Konstruktes ist das nur begrenzt relevant, das werden vermutlich meine Betreuungspersonen ebenfalls so sehen. Ich würde dennoch gerne statistisch sinnvoll und korrekt arbeiten. Es ist mein eigener Anspruch hier korrekt zu arbeiten und zu argumentieren.
RandomBob
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Do 22. Apr 2021, 02:13
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste