Hallo liebe Freunde,
ich sitze gerade an meiner Bachelorarbeit und bin halb am Verzweifeln. Ich habe meine Hypothesen evtl. etwas ungünstig formuliert. Unsere Hypothesen wurden präregistriert, also kann ich daran nichts mehr ändern.
Es geht vor allem um meine zwei Hypothesen H1a und H1b. Ich erklär mal kurz die Randdaten:
Es geht um das untersuchen von "data sharing behavior" und Open Science badges (OSB) in gängigen journalen. Meine Hypothese 1 möchte prüfen ob Journale die OSB eingeführt haben eine signifikante Steigerung im data sharing zu vermerken hatten. Dafür habe ich 2 (mir zugeteilte) journale genommen. Habe jeweils 1-2 ausgaben eines Volumes zugeteilt bekommen die einen gewissen Zeitpunkt repräsentieren. 4 Zeitpunkte. 2013 (vor einführung der OSB in journal 1), 2015 (nach Einführung OSB), 2017 (genannt "short-term", also praktische Effekte mit etwas Zeitabstand), 2021 ("long-term", also aktuellster Zeitpunkt). Meine "testsubjekte" sind Zeitschriftenartikel. Stichprobengröße gesamt ist N = 116. Jeder Zeitabschnitt hat ca. 15 Artikel. Die kodierte Variable für Hypothese 1 is "data shared", kodiert als 1 (ja) oder 0 (nein). Theoretisch also entweder also kategoriale Variable zu verstehen ODER (bin mir hier nicht sicher) als Anzahl (ist das dann ordinal oder metrisch?) wenn man es als "Artikel die daten teilen / Artikel eines Zeitabschnittes" umkodiert (ich bin mir nicht sicher ob eine solche umkodierung das skalenverhältnis verändert und die Zahl brauchbar macht?).
Wie dem auch sei, Hypothesen waren folgende:
H1a: Since introduction of Open Science badges to journal 1, Data sharing rates (die oben erwähnte kodierte variable) have increased.
H1b: After Open Science Badges were introduced in journal 1, the mean difference of data sharing rates between journal 2 and journal 1 has increased significantly.
Meine ursrüngliche Idee war: Kodier die Variable in 1 und 0 (wurden daten im Artikel geteil ja/nein), relativiere das ganze and der zahl der Artikel im Zeitabschnitt (2013, 2015, 2017, 2021), prüfe das ganze mit einer ANOVA für H1a, und einer (M)ANOVA für H1b. Die Daten sind aber (aufgrund der limitierten Stichprobe) nicht Normalverteilt. Also muss ich auf nicht-parametrische daten zurückgreifen. Nicht-parametrische multifaktorielle Verfahren existieren aber nicht. Kruskal Wallis geht nur mit einem Faktor. Meine Zweite Idee war: hey, Mitterwertsunterschiede! Ich berechne den Unterschied der daten zwischen journals.
Also sagen wir journal 1 hat in 15/20 Artikeln Daten geteilt
-> data sharing rate = 0.75 or 75,0.
journal 2 hat in 8/20 Artikeln Daten geteilt
-> data sharing rate = 0.4 oder 40,0
0.75 - 0.4 = 0.35 -> Differenz
Berechne die Unterschiede zwischen den Differenzen, und teste sie auf Signifilanz!
Ich denke aber ich bin hier auf dem Holzweg.
Erstens sind meine daten nur nominalskaliert glaube ich. Ich kann nicht einfach eine Anzahl berechnen, sie an der Teil-/Gruppenstichprobe relativieren und dann erwarten dass aus nominal skalierten Variablen metrische werden.
Und selbst wenn das ginge, ich kann nicht einfach nur 4 einzelne (Differenz)Werte (2013, 2015, 2017, 2021) vergleichen und erwarten ein richtiges Signifikanztestergebnis zu bekomment. Man kann aus 4 einzelnen Lageparametern ohne Verteilungsstatistiken ja keinen gültigen Signifikaztest machen!
Ich hatte 2 Ideen diesbezüglich. Die erste war eine Änderung der Definition meiner "data sharing rate". Ich könnte den Informationsgehalt erhöhen und verschiedene Bewertungskriterien die aufeinander aufbauen (die ich sowieso erhoben habe) hinzunehmen. Also:
data sharing rate:
0 = no data was shared
1 = data sharing was declared, but only on request or no public location was stated
2 = data was publicly shared
3 = data was confirmed avaible at public location
ich habe eine andere hypothese zu data completeness, aber die arbeitet darüber hinaus auch mit der korrektheit der stichprobe und variablen im datensatz, da sollte also kaum Überlappung sein bis auf vllt. einen punkt (available/not available).
wäre eine 4-point scale. Nicht ganz 5-point, aber zumindest ordinalskalierte daten, mit denen kann man mehr anfangen.
Aber selbst dann weiss ich noch nicht wie ich in SPSS meine Differenzwerte (zwsichen journal 1 und 2) ausrechnen soll ohne Datengehalt zu verlieren. Ich möchte dass die Streu- und Lagemaße alle für jeden Artikel intakt bleiben (sodass die tests auch korrekt ausgeführt werden können. z.B. der Kruskal Wallis für die Differenzen zwischen journal 1 und 2 über 4 Faktorenstufen des Faktors Zeitabschnitt (timeframe)).
Oder mach ich mir da Gedanken um gar nichts und es ist einfach möglich 4 normale Lagemaße miteinander zu vergleichen und etwas brauchbares herauszubekommen ohne dass ich jedes einzelne Testsubjekt (also jeden Artikel) in die Analyse mitaufnehmen muss?
Wie gesagt, ich bin etwas am verzweifeln. Das ist die EINFACHSTE Hypothese (zugegebenermaßen auch mit der einfachsten / niedrigstufigsten AV) meiner ganzen Arbeit und es bereitet mir die meisten Schwierigkeiten. Ich habe mich lange umgesehen zu Skalenniveaus, Testalternativen, etc, etc bin aber noch keinen deut schlauer.
Ich möchte nur einen Weg zu vergleichen ob sich der UNTERSCHIED zwsichen der "data sharing rate" (also dem Anteil geteilter daten an der gesamtzahl der Artikel) von journal 1 und journal 2 über die Zeit hinweg signifikant vergrößert.
Mit freundlichen Grüßen
ein verzweifelter gestresster Student