STATISTIK-FORUM.de

statistik0 · von **statistik0** » Fr 2. Okt 2015, 16:36

Hallo! =)
Ich bräuchte dringend Hilfe von euch. Folgendes Problem:
Ich evaluiere einen Fragebogen, der ein dichotomes Ergebnis ausspuckt: ja, gehört in die Gruppe und nein, gehört nicht in die Gruppe (beispielsweise depressiv oder nicht depressiv). Vergleichen möchte ich die Ergebnisse dieses Tests mit einem anderen, der ebenfalls ein ja-nein-Ergebnis ausgibt.
Somit möchte ich wissen, ob der neue Test, der kürzer und somit ökonomischer ist, die Personen gleich gut den Klassen zuordnen kann wie der alte.
Wie mache ich das nun?
Vielleicht ist es relevant anzumerken, dass in meiner Stichprobe wohl viel mehr Personen in die, nennen wir sie "nicht-Gruppe" gehören werden (da es z.B. in der Bevölkerung mehr nicht-depressive Personen gibt als depressive).
Bin für jede Hilfe dankbar!

strukturmarionette · von **strukturmarionette** » Sa 3. Okt 2015, 01:07

Hi,

beide Tests einer geeigneten Stichprobe vorlegen.

Gruß
S.

bele · von **bele** » Sa 3. Okt 2015, 08:18

Google mal nach
- Spezifität
- Sensitivität
- positiver prädiktiver Wert

Und suche nach einem geeigneten Goldstandard, an dem Du beide Verfahren messen willst.

LG,
Bernhard

folgende User möchten sich bei bele bedanken:
statistik0

statistik0 · von **statistik0** » Sa 3. Okt 2015, 13:25

Danke bele,
das hat mich jetzt schon ein Stück weitergebracht! Meine Verzweiflung hat ein bisschen abgenommen

statistik0 · von **statistik0** » So 4. Okt 2015, 14:09

So ich hab mich jetzt in diese Gütekriterien eingelesen. Ich stütze mich hier auf Wikipedia, da ich in meinen Statistikbüchern nicht fündig geworden bin (falls jemand von euch sonstige Artikel, Bücher, Studien etc zu diesem Thema kennt wär das auch super). Soweit bin ich jetzt mit meinem Verständnis (bitte korrigiert mich wenn ich falsch liege):

Ich berechne für beide Klassifikatoren:
- die Sensitivität (den Anteil der korrekt als positiv klassifizierten Objekte an der Grundgesamtheit der tatsächlich positiven)
- die Spezifität (den Anteil der korrekt als negativ klassifizierten Objekte an der Grundgesamtheit der tatsächlich negativen)
- positiv prädiktiver Wert (den Anteil der korrekt als positiv erkannten Ergebnisse an der Gesamtheit der als positiv erkannten Ergebnisse)

Der positiv prädiktive Wert ist jedoch nur dann aussagekräftig, wenn die Stichprobe die selbe Prävalenz wie die Gesamtpopulation aufweist, was bei mir nicht der Fall sein wird. Deshalb muss ich die likelihood-ratio angeben.

Dann steht da "Klassifikationsbewertung zur Beurteilung der Qualität statistischer Tests" und folgende Erklärung:
Mit Hilfe der Klassifikationsbewertung kann die Qualität eines statistischen Test beurteilt werden:
Generiert man viele Stichproben unter Gültigkeit der Nullhypothese, so sollte die Annahmerate der Alternativhypothese dem Fehler 1. Art entsprechen. Aber bei komplizierten Tests kann man oft nur eine obere Grenze für den Fehler 1. Art angeben, so dass der „wahre“ Fehler 1. Art nur mit einer solchen Simulation abgeschätzt werden kann.
Generiert man viele Stichproben unter Gültigkeit der Alternativhypothese, so ist die Ablehnungsrate der Alternativhypothese eine Schätzung des Fehlers 2. Art. Dies ist beispielsweise von Interesse, wenn man zwei Tests für einen Sachverhalt hat. Wenn die Alternativhypothese gilt, dann bevorzugt man den Test, der einen kleineren Fehler 2. Art hat.
--> bei mir wäre das 2te relevant, ich versteh aber nicht wie das ablaufen soll? Die Alternativhypothese wäre ja z.B. die Person ist depressiv. Also sollte man bei den Fragebögen nur die Personen mit Depression heranziehen und dadurch, wie oft die FB die Alternativhypothese verwerfen (was falsch wäre), den Fehler 2. Art schätzen? Woher wüsste ich aber auch wer tatsächlich depressiv ist wenn beide FB fehlerbehaftet sind?

Dann kann man statistische Tests zur Beurteilung des Klassifikators heranziehen. Bei binären Klassifikatoren sollte man dazu den Vierfeldertest heranziehen. Da ich aber eine abhängige Stichprobe habe (alle Personen füllen beide Fragebögen aus), wäre der Mc Nemar- Test anzuwenden. Ergibt dieser ein signifikantes Ergebnis, besteht ein Unterschied zwischen den beiden Fragebögen. Welcher besser ist kann ich dann einfach von den Zahlen ablesen.

So, ich hoffe was ich hier zusammengeschrieben habe ist jetzt kein absoluter Müll (

) und ich würde mich sehr freuen wenn da mal jemand rüberschauen könnte :mrgreen:

strukturmarionette · von **strukturmarionette** » Mo 5. Okt 2015, 22:07

Hi,

So, ich hoffe was ich hier zusammengeschrieben habe ist jetzt kein absoluter Müll

- Doch, das isses. Ist aber absolut üblich, fast schon Standard beim Googeln
- ansonsten: Auch Wikipedia ist NICHT wissenschaftlich

Gruß
S.

statistik0 · von **statistik0** » Di 6. Okt 2015, 12:47

Ok das ist nicht gut...
danke fürs Zeit nehmen erstmal, aber könntest du deine Kritik ein bisschen spezifischer ausdrücken? Was daran ist falsch und was würdest du vorschlagen? Deine Antwort hilft mir so leider nicht weiter.

strukturmarionette · von **strukturmarionette** » Di 6. Okt 2015, 23:35

Bühner, M. (2010).
Einführung in die Test- und Fragebogenkonstruktion. 3te Auflage. München: Pearson Studium.

Moosbrugger, H. & Kelava, A. (Hrsg.) (2007).
Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.

Lienert, G. A. & Raatz, U. (1998).
Testaufbau und Testanalyse. Sechste Auflage, 1998. Weinheim: Psychologie Verlags Union.

Messick S. (1995).
Validity of Psychological Assessment. American Psychologist, Vol. 50, No. 9, 741-749.

folgende User möchten sich bei strukturmarionette bedanken:
statistik0

PonderStibbons · von **PonderStibbons** » Mi 7. Okt 2015, 01:03

Ich bräuchte dringend Hilfe von euch. Folgendes Problem:
Ich evaluiere einen Fragebogen,

Worum geht es denn dabei, was ist das für ein Fragebogen, für wen und wofür ist er vorgesehen?
Und wie sind die Umstände, d.h. warum und wozu evaluierst Du diesen Fragebogen, was ist an
dieser Evaluation für Dich oder die Allgemeinheit wichtig, und wieso ist das dringend? Und wie sehen
die konkreten Merkmale der Studie aus, d.h. Art der Stichprobenrekrutierung und Größe der Stichprobe?

Mit freundlichen Grüßen

P.

statistik0 · von **statistik0** » Mi 7. Okt 2015, 13:40

Es geht hier um einen Fast and Frugal Test, der mit 4 Fragen beantworten soll, ob eine Person mobbingbetroffen ist oder nicht. Antwortet eine Person auf alle 4 Fragen mit "ja" klassifiziert der Test diese Person als mobbingbetroffen. Wird auch nur eine "nein"-Antwort gegeben, ist diese Person nicht von Mobbing betroffen. Meine Aufgabe dabei ist zu untersuchen, ob diese 4Fragen also ausreichen um die Personen richtig zu klassifizieren. Das wäre dann eine einfache und sehr ökonomische Möglichkeit der Klassifizierung. Auch Laien könnten somit sehr schnell zu einer Entscheidung kommen, ob man jetzt eine Mobbingberatung einschaltet oder ob es sich um eine andere Konfliktform handelt.
Aus einer Literatur in der solche FFTs untersucht wurden, habe ich gelesen, dass man für die Fragen die Validität berechnen muss. Dafür muss ich die pos. und die neg. Validität berechnen. Die Items werden dann danach geordnet. Ein FFT kann nämlich schon nach 1Item abbrechen, falls die Antwort "nein" ist.
Dann haben sie nach der Signal Detection Theory die Werte d' und c berechnet, wobei d' dafür steht, wie gut der Test zwischen signal und noise unterscheiden kann. C steht für die Tendenz eine signal oder eine noise -Entscheidung zu machen.
dann wurde noch die Präzision nach dem Bayesian approach berechnet.
In dieser Literatur haben sie diesen FFT mit anderen Modellen verglichen. Zb mit unit-weight model und log regression. Das ging bei ihnen deshalb, weil sie den FFT sowie die Items für die anderen Modelle alle aus einem Fragebogen hatten. Es handelte sich also bei jedem Modell um die gleichen Items, jedoch entweder mit mehreren Antworten auf einer Skala (selten, manchmal...) oder für den FFT dichotom.
Ich habe nur einen solchen FFT und einen anderen Fragebogen, der ebenfalls nur eine Klassifizierung vornimmt. Die Frage ist nun, ob der FFT die Personen genauso gut klassifiziert wie der lange Fragebogen.
Ist das so verständlich?
Die Stichprobe wird geschätzt so zwischen 100-200 Personen umfassen, Rekrutierung nach der Schneeballmethode. Es werden direkt auch Mobbingbetroffene angesprochen, also werden in meiner Stichprobe mehr Betroffene sein als in der Gesamtpopulation (bei der man eh auch noch nicht genau weiß, wieviele es sind. In diesem Gebiet fehlt viel Forschung).

Danke fürs Zeit nehmen!

STATISTIK-FORUM.de

Vergleich zweier Testverfahren

Vergleich zweier Testverfahren

Re: Vergleich zweier Testverfahren

Re: Vergleich zweier Testverfahren

Re: Vergleich zweier Testverfahren

Re: Vergleich zweier Testverfahren

Re: Vergleich zweier Testverfahren

Re: Vergleich zweier Testverfahren

Re: Vergleich zweier Testverfahren

Re: Vergleich zweier Testverfahren

Re: Vergleich zweier Testverfahren

Wer ist online?