Logistische Regression, unsichere Daten

Alle Verfahren der Regressionanalyse.

Logistische Regression, unsichere Daten

Beitragvon Mangub » Mi 4. Mai 2016, 10:47

Liebe Alle

Ich schreibe zur Zeit an einer Hausarbeit in der Archäologie und bräuchte ein bisschen Hilfe bei einer Studie, die ich nicht ganz nachvollziehen kann. Hoffentlich ist meine Anfrage nicht zu frech und ihr könnt mir weiterhelfen. Da ich normalerweise nicht so viel (eigentlich nie) mit Statistiken arbeite stecke ich ein wenig fest. Natürlich habe ich bereits versucht selber zu recherchieren und das Problem zu lösen, aber einige Dinge sind mir immer noch etwas unklar.

Es geht um folgendes:
In besagter Studie wurden Skelettpopulationen von verschiedenen Friedhöfen untersucht. Es handelt sich um altägyptische und nubische (heutiger Sudan) Populationen. Insgesamt gab es 4 Skelettserien: Ägyptisch, Nubisch und zwei Gruppen, die beide zwar in Nubien lagen, aber man sich nicht sicher war, ob es sich nun um immigrierte Ägypter handelt oder einheimische Nubier. Diese Gruppenzuordnungen basieren auf Fundort (Ägypten oder Nubien) sowie der Art der Bestattung (beide Gruppen haben sehr unterschiedliche Bestattungssitten).
Mittels Messungen am Skelett wurde eine Hauptkomponentenanalyse durchgeführt die aufzeigen sollte, anhand welcher Messungen die Skelette am besten zu unterscheiden sind. Die Grundannahme ist dabei, dass sich die genetische Distanz (bzw. der Grad an Verwandtschaft) in der biologischen (d.h. der morphologischen Ähnlichkeit) widerspiegeln soll. Dabei kamen 2 signifikante Faktoren heraus. Anhand der scores plot ist aber zu sehen, dass grosse Überlappungsbereiche herrschen und die Gruppen einfach leicht gegeneinander verschoben sind. Mittels dieser Faktoren als unabhängige Variablen wurde dann eine logistische Regression durchgeführt um eine Gruppenzugehörigkeitsprognose zu erstellen. Die zwei Gruppen (abhängige Variable) waren entweder ägyptisch oder nubisch (die ersten beiden Gruppen von oben). Man muss gleich dazu sagen, dass diese Zuordnung aus archäologischer Sicht zwar Sinn macht, aber natürlich nie eine 100% Sicherheit herrscht, sie basiert auf Art der Bestattung, Beigaben, Ort usw.
Nun bin ich unsicher was die Ergebnisse anbelangt. Kurz eine Auflistung: 1 wäre hier "ägyptisch", 0 wäre "nubisch". Die ägyptische Probe (von der ja ausgegangen wird, dass es sich nur um Ägypter handelt) wurden zu rund 85% richtig zugeordnet, die nubische wurde gleichmässig auf 1 und 0 verteilt, die anderen beiden sind auch mehr oder weniger gemischt.
Ich bin jetzt bezüglich der Interpretation nicht sicher. Daher habe ich mal versucht meine Fragen zu formulieren:

- Wenn die ägyptische Probe zu 85% richtig zugeordnet wurde - bedeutet das nun, dass meine Faktoren nicht ganz perfekt für eine Zuordnung sind ODER dass wirklich nur 85% dabei sind?
- Macht es überhaupt Sinn eine logistische Regression durchzuführen, wenn die Gruppenzugehörigkeiten von Beginn an nicht 100% sicher sind?
- Müsste eine logistische Regression nicht auf unabhängigen Erfahrungswerten beruhen? Also z.B. einer Population die 100% bestimmt wurde, aber nicht in der Studie enthalten ist?
- Die Scores Plot überschneiden sich stark, die Mittelwerte sind aber leicht verschieden - reicht das überhaupt aus? Zudem liegen die Werte zwische -2 und +2 (Skala geht von -4 bis +4). Meines Wissens nach sollte ein Wert von 0 doch bedeuten, dass keine Korrelation zwischen dem Faktor und dem Individuum besteht, oder?
- die "nubische" Gruppe wurde sogar leicht mehr als 50% als "ägyptisch" eingeordnet. In der Hauptkomponentenanalyse betrachtete man sie aber als sicher "nubisch" - was sagt mir dieses Ergebnis nun? Heisst das, dass meine Faktoren aus der PCA nicht genügend gut sind, oder dass die Probe bereits verunreinigt (z.B. durch Durchmischung) ist?
- Eine vierte Gruppe war im Fokus. Es ging, wie oben gesagt, um die Frage ob es sich eher um eine nubische oder ägyptische Population handelt. Gemäss der logistischen Regression war das Ergebnis ähnlich wie bei der "nubischen" Gruppe - ca. 50% als "ägyptisch" und 50% als "nubisch" bestimmt. Die Autoren schlossen aus den Ergebnissen, dass es sich auch um eine "gemischte" Bevölkerung handelte.

Oje ich hoffe man versteht das. Ich habe versucht die Angaben so genau wie möglich zu machen, damit ihr das ganze nachvollziehen könnt.
Ich würde das Paper ja gerne hochladen, bin aber unsicher was die Datenschutzgründe angeht. Ausserdem möchte ich ja auch nicht, dass ihr die ganze Arbeit für mich macht während ich faul rumsitze.
Über eure Hilfe wäre ich sehr dankbar.

Ganz liebe Grüsse

Mangubs
Mangub
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 4. Mai 2016, 10:11
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Logistische Regression, unsichere Daten

Beitragvon PonderStibbons » Mi 4. Mai 2016, 11:52

Welches ist denn das Studienziel, die Fragestellung, der ausgewiesene Zweck der Studie?
Wie groß waren die 4 betrachteten Gruppen?

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11363
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Mangub

Re: Logistische Regression, unsichere Daten

Beitragvon Mangub » Mi 4. Mai 2016, 12:43

Hallo PonderStibbons

Erstmals vielen Dank für deine schnelle Antwort!

Also:
Studienziel war es eine Aussage darüber zu machen, ob die Individuen aus einem Friedhof in Nubien (Tombos) ägyptische Immigranten repräsentieren oder es sich um eine lokale, einheimische Bevölkerung handelt. Es handelt sich bei Tombos nämlich um eine ägyptische Kolonialstadt aus dem Neuen Reich (ca. 1550-1050v.Chr.). Die Bestattungssitten ähnelten der ägyptischen Tradition, allerdings kann es sich dabei auch um "ägyptisierte" lokale Einwohner handeln (es fanden sich auch einzelne "rein" nubische Bestattungen).
Man wollte diese Frage nun anhand der Schädelmorphologie beantworten. Also: Hat Gruppe X eine höhere Ähnlichkeit zu Gruppe A in Bezug auf ihre Schädelform als zu Gruppe B, so sind Gruppe X und A auch näher verwandt als Gruppe X und B.
Folgende "Gruppen" wurden aus mehreren Nekropolen erstellt:
- 1. Untersuchungsgruppe Tombos (nur diese Nekropole); 30 Individuen (17weiblich, 13 männlich)
- 2. "Nubische" Gruppe = Nekropolen aus Nubien mit nubischer Bestattungssitte (daher Zuordnung), 139 Individuen (83w, 56m)
- 3. "Andere Gruppe" = Nekropolen aus Nubien mit ägyptischer Bestattungssitte; Total 43 (16w, 27m)
- 4. "Ägyptische Gruppe" = Nekropolen aus Ägypten mit ägyptischer Bestattungssitte; Total 313 (156w, 157m).

Insgesamt also 525 Individuen, davon 272 weiblich und 253 männlich (die Analysen wurden separat für die Geschlechter durchgeführt).

Es wurden 9 Messungen genommen - im Vergleich zu ähnlichen Studien nicht viel.
Die Hauptkomponentenanalyse ergab 2 signifikante Faktoren. Hier lautete die Schlussfolgerung dass "die Ägyptische Gruppe tendenziell höhere Werte auf Faktor 1, und tendenziell tiefere Werte auf Faktor 2 erzielt" und für die Nubische Gruppe (2) genau umgekehrt.
http://img5.fotos-hochladen.net/uploads/gyptischestudxznobiq0sy.jpg Quelle: Buzon, M.R. (2006) Biological and Ethnic Identity in New Kingdom Nubia. A Case Study from Tombos, Curr Anthropol 47, 683-695
---- Die Grafik zeigt die Resultate in Bezug auf einen der beiden Faktoren. Wie gesagt - ich bin überhaupt nicht Statistik begabt noch sonderlich darin bewandert. Aber liege ich damit richtig wenn ich sage, dass die Unterschiede nicht sehr gross sind da 1) die Überlappungsbereiche sehr gross sind 2) die Mittelwerte nicht stark voneinander abweichen und 3) die meisten Proben um 0 herum liegen und daher gar nicht wirklich mit dem Faktor zusammenhängen?

Anschliessend schreiben die Autoren, dass mit diesen beiden Faktoren eine logistische Regressionsgleichung ausgeführt wurde, um eine Gruppenzugehörigkeit in die ägyptische oder nubische Gruppe (definiert anhand des archäologischen Befundes wie Grabbeigabe usw.) vorherzusagen. Sie schreiben auch konkret unter folgende Grafik: Gruppenzugehörigkeit, vorhergesagt anhand logistischer Regression der beiden Faktoren (s.o.) mit der ethnischen Identitäts-Variablen (basierend auf Bestattungsritual) als abhängige Variable http://img5.fotos-hochladen.net/uploads/gyptischestudobeaq5cu92.jpg
Bei diesen Ergebnissen habe ich auch so meine Fragen.
Beispielsweise die Anzahl der nicht-korrekt klassifizierten Individuen aus der "Ägypten" Gruppe. Liegt dies nun daran, dass tatsächlich nicht alle Individuen in der Probe "ägyptisch" sind (gemäss Skelettmorphologie, laut archäologischen Quellen wären sie es ja) oder zeigt das viel mehr, dass die Faktoren nicht "gut genug" sind um die Gruppen wirklich 100% voneinander zu trennen?
Oder könnte es sogar daran liegen, dass die Grundannahme falsch ist und die Gruppen eben so eng zusammenliegen von ihrer Morphologie, dass eine Unterscheidung gar nicht möglich ist?
Zudem: Wie kann man überhaupt einen mathematischen Wert (=Messungen; unabhängige Variable) mit vordefinierten Gruppen anhand von Beigaben usw. (=abhängige Variable) vergleichen? Also damit ich anhand der Messungen eine Zuordnung machen kann, muss ich ja bereits die Gruppen, in die ich einordnen werde (Ägyptisch vs. Nubisch) anhand von Messungen vordefiniert habe (analog zur Diskriminanzanalyse, oder?). Aber macht es dann Sinn mit den gleichen Individuen, die ja meine Gruppen definiert haben (also meine abhängigen Variablen) eine Gruppenzuordnung zu machen? Ich hoffe man versteht was ich meine. Das wäre doch, als ob ich Diskriminanzfunktionen entwickle um Gruppen zu unterscheiden und dann anhand dieser Funktionen dieselben Individuen einzuordnen versuche. Oder mache ich da einen Denkfehler?
Aus archäologischer Sicht würde ich natürlich als Kritik einwenden, dass diese archäologische Gruppenzuweisung nicht zwingend eine biologische sein muss.
Die Probengrössen sind sicher auch nicht repräsentativ für Lebendpopulationen. Leider ist das in der Archäologie in der Regel so. Für eine wirkliche Aussage ist sie sicher zu klein.
Mangub
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 4. Mai 2016, 10:11
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Logistische Regression, unsichere Daten

Beitragvon PonderStibbons » Mi 4. Mai 2016, 14:53

Aber liege ich damit richtig wenn ich sage, dass die Unterschiede nicht sehr gross sind da 1) die Überlappungsbereiche sehr gross sind 2) die Mittelwerte nicht stark voneinander abweichen

Dass die Schädel verschiedener Menschengruppen nicht völlig un-überlappend sind, davon ist wohl auszugehen.
Mit 2 solcher Prädiktoren kann man womöglich schon arbeiten (die Trefferquote erhöhen - welche überhaupt
zu erwarten ist und welche als ausreichend gilt, entzieht sich natürlich meiner Kenntnis).
und 3) die meisten Proben um 0 herum liegen und daher gar nicht wirklich mit dem Faktor zusammenhängen?

Null ist der Mittelwert der Gesamtgruppe auf der betrachteten Hauptkomponente.

Beispielsweise die Anzahl der nicht-korrekt klassifizierten Individuen aus der "Ägypten" Gruppe. Liegt dies nun daran, dass tatsächlich nicht alle Individuen in der Probe "ägyptisch" sind (gemäss Skelettmorphologie, laut archäologischen Quellen wären sie es ja) oder zeigt das viel mehr, dass die Faktoren nicht "gut genug" sind um die Gruppen wirklich 100% voneinander zu trennen?

Letzteres. Von den 313 Ägyptern wurden ca. 15 % von der Regression fälschlich als Nubier klassifiziert.
Oder könnte es sogar daran liegen, dass die Grundannahme falsch ist und die Gruppen eben so eng zusammenliegen von ihrer Morphologie, dass eine Unterscheidung gar nicht möglich ist?

"Gar nicht" ist vielleicht zuviel gesagt, aber die gesicherten Nubier werden als solche
offenbar nur schlecht vorhergesagt.

Also damit ich anhand der Messungen eine Zuordnung machen kann, muss ich ja bereits die Gruppen, in die ich einordnen werde (Ägyptisch vs. Nubisch) anhand von Messungen vordefiniert haben

Deswegen meine Frage, wozu das dient. Der Einsatz der logistischen
Regression bei den Gruppen, wo die Zugehörigkeit der Individuen
bekannt ist, wäre evtl. sinnvoll zur Einschätzung der Validität, also zur
Abschätzung, wie treffgenau das Verfahren für verifzierte Nubier
bzw. verifizierte Ägypter ist. Hält man daraufhin die Trefferquote für
akzeotabel, kann man das bei unbekannten oder Zweifelsfällen
einsetzen.

Das wäre doch, als ob ich Diskriminanzfunktionen entwickle um Gruppen zu unterscheiden und dann anhand dieser Funktionen dieselben Individuen einzuordnen versuche. Oder mache ich da einen Denkfehler?

Siehe oben, das ist wieder vom Zweck abhängig. Entwicklung an einer
Stichprobe (2 Friedhöfen), Ermittlung der Trefferquote bei dieser Stichprobe,
dann Einsatz an einer neuen Stichprobe wäre nicht abwegig, aber die
Qualität der Vorhersage scheint mir auf den ersten Blick problematisch.
Die Regression hat anscheinend die Tendenz, die Wahrscheinlichkeit für
"Nubier" zu unterschätzen. An sich müsste das alles aber aus dem Text
hervorgehen. Normalerweise.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11363
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Mangub

Re: Logistische Regression, unsichere Daten

Beitragvon Mangub » Fr 6. Mai 2016, 16:59

Lieber PonderStibbons

Entschuldige, dass ich erst so spät antworte. Vielen Dank, dass du dir extra Zeit genommen hast um meine etwas wirren Fragen zu beantworten. Jetzt ist die Sache schon viel klarer.

Ich muss trotzdem nochmals nachfragen - "null ist der Mittelwert der Gesamtgruppe auf der betrachteten Hauptkomponente" Dann habe ich vermutlich die Werte falsch interpretiert? Ich dachte diese Werte sagen aus, wie sehr die einzelnen Schädel/Skelette mit dieser Hautpkomponente korrelieren. D.h. ein negativer Wert wäre eine negative Korrelation usw. Und die Werte hier liegen ja ca. von +2 bis -2 - heisst das nicht, dass es sowohl Schädel in der Gruppe hat, die positiv, gar nicht und negativ mit Faktor x korrelieren? (Das würde aber irgendwie den Wert des Faktors völlig sinnlos machen, oder?)

Die Problematik ist ja, dass die "gesicherten" Ägypter oder Nubier ja nur aus archäologischer Sicht sicher sind - aber das muss nicht heissen, dass es wirklich Ägypter/Nubier waren. Wir schauen uns ja z.B. Grabbeigaben an und schliessen daraus auf ethnische Zugehörigkeit - ob dies aber wirklich der Fall ist, ist unsicher. Ethnische Zugehörigkeit muss ja nicht zwingend biologische Zugehörigkeit sein.
Daher bin ich etwas skeptisch was dieses konkrete Beispiel anbelangt, da man vor allem im Bereich des Alten Ägyptens nicht von einer einzelnen "Ethnie" ausgehen kann. Würde sich die Probe jetzt auf eine neolithische Inselbevölkerung beziehen wäre ich da ja weniger skeptisch. Natürlich abgesehen von der generellen Kritik an der Methode (sehr umstritten und eher selten innerhalb der Archäologie).

Die Autoren schliessen aus den Resultaten, dass die "ägyptische" Bevölkerung relativ homogen ist (da sie so oft korrekt identifiziert wurde), die nubische dagegen viel heterogener (bestehend aus Nubiern und Ägyptern). Gleiches gilt dann für die beiden anderen Proben.

So wie du das aber erklärt hast bin ich zumindest sicher, dass ich verstanden habe, was gemacht wurde und wie man die Ergebnisse interpretieren kann. Vielen Dank nochmals dafür. Würde mich ja gerne revanchieren, leider bezweifle ich, dass es irgendein Statistik-Problem gibt bei dem ich ännähernd so viel Ahnung hätte wie du :oops: Vielleicht wenn du mal auf ein archäologisches Problem stösst ;)
Mangub
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 4. Mai 2016, 10:11
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Logistische Regression, unsichere Daten

Beitragvon PonderStibbons » Fr 6. Mai 2016, 17:27

Ich dachte diese Werte sagen aus, wie sehr die einzelnen Schädel/Skelette mit dieser Hautpkomponente korrelieren.

Nein, das sind die factor scores, soweit ich das nachvollziehen kann
(irgendwer hat die Legende abgeschnitten).

Die Hauptkomponente ist dann wie eine Variable (eine in dem Fall, bei
welcher der Mittelwert = 0 beträgt).

Die Problematik ist ja, dass die "gesicherten" Ägypter oder Nubier ja nur aus archäologischer Sicht sicher sind - aber das muss nicht heissen, dass es wirklich Ägypter/Nubier waren.

Das ist leider nichts, was ich diskutieren kann, nicht mein Fachgebiet.

Die Autoren schliessen aus den Resultaten, dass die "ägyptische" Bevölkerung relativ homogen ist (da sie so oft korrekt identifiziert wurde), die nubische dagegen viel heterogener (bestehend aus Nubiern und Ägyptern). Gleiches gilt dann für die beiden anderen Proben.

Kann ich nicht unmittelbar nachvollziehen, aber wie gesagt, nicht mein Beritt.


Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11363
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Logistische Regression, unsichere Daten

Beitragvon bele » Mo 9. Mai 2016, 15:06

Hallo,

darf ich mich mangels Kenntnis auf der Seite des Fragenden einreihen? Ich verstehe das so, dass die Tombo-Gruppe eine unbekannte Zuordnung hat und daher nur die drei anderen Gruppen für die logistische Regression verwendet wurden. Die logistische Gruppe wurde also an 139 "Nubiern" und 313+43 = 356 "Ägyptern" trainiert. Für die logistische Regression waren also von vorneherein nur 28% Nubier aber 72% Ägypter sichtbar. Dann würde es aus meiner Sicht für die Regression immer sinnvoll sein, im Zweifel "Ägypter" anzuzeigen.
Dass dann Ägypter häufiger richtig erkannt werden als Nubier ist evident. Es wurden ja auch in 7 von 8 Paarvergleichen überwiegend "Ägypter" erkannt.

Meine Frage: Kann es sein, dass die "bessere" Erkennung von Ägyptern auch dadurch verursacht ist, dass Ägypter im Trainingsdatensatz überrepräsentiert waren? Und was wäre ein geeignetes Vorgehen, um diesem Effekt nachzuspüren?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

Re: Logistische Regression, unsichere Daten

Beitragvon PonderStibbons » Di 10. Mai 2016, 14:30

Muss ich persönlich passen. Bei statexchange gab es eine ähnliche Diskussion, eine Meinung war,
dass selbst ein Verhältnis 4:1 kein Problem darstellt (solange die Stichprobe groß genug ist),
Probleme machen anscheinend erst "rare events"

http://stats.stackexchange.com/question ... regression

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11363
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 10 Gäste

cron