nominalen Datensatz auswerten

Fragen, die sich auf kein spezielles Verfahren beziehen.

nominalen Datensatz auswerten

Beitragvon Hoffi » Mi 14. Mär 2018, 16:20

Guten Tag zusammen,

ich habe einen Datensatz aufgehalst bekommen. Dieser besteht aus 22 Bakterienstämmen mal 320 analysierten Genen. Ich besitze also eine Tabelle 22x320, die aus 1 und 0 besteht.
Was ich suche: Ein Verfahren, mit dem ich Korrelationen á la "Wenn Gen X vorhanden ist, dann ist auch GenY vorhanden" herausfiltern kann.
Aus früheren Aufgaben ist mir die Mehrfaktorielle Varianzanalyse eingefallen, und hatte gehofft sowas ähnliches auch auf meine 0 und 1-Tabelle anwenden zu können. Für solche Nominalwerte finde ich leider auch keine Beispiele im Netz - deshalb mein Hilferuf in dieses Forum.
Wenn ich hier weinigstens den Namen für ein korrektes Verfahren herausfinden würde, könnte ich mir den Rest sicher anlesen, aber so hab ich gar keinen Anhaltspunkt dafür.
:?:
Kann da jemand Klarheit schaffen?
Hoffi
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 14. Mär 2018, 15:56
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: nominalen Datensatz auswerten

Beitragvon PonderStibbons » Mi 14. Mär 2018, 16:46

Ein Verfahren, mit dem ich Korrelationen á la "Wenn Gen X vorhanden ist, dann ist auch GenY vorhanden" herausfiltern kann.

Falls Du paarweise Korrelationen berechnen willst (das wären dann allerdings 52.040 Stück), dann kommt bei 0/1-Daten vielleicht der Phi-Koeffizient für Dich in Frage.
Aus früheren Aufgaben ist mir die Mehrfaktorielle Varianzanalyse eingefallen

Was wäre denn die Idee für Dich dabei?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: nominalen Datensatz auswerten

Beitragvon bele » Mi 14. Mär 2018, 19:21

Eine Explorative Faktorenanalyse könnte helfen, miteinander assoziierte Gengruppen zu finden.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

Re: nominalen Datensatz auswerten

Beitragvon Hoffi » Do 15. Mär 2018, 14:38

Falls Du paarweise Korrelationen berechnen willst (das wären dann allerdings 52.040 Stück), dann kommt bei 0/1-Daten vielleicht der Phi-Koeffizient für Dich in Frage.

Letztendlich möchte ich jedes Gen mit jedem anderen Gen korrelieren, da mein Chef anscheinend keine Hypothese hat, welches Gen "Einfluss" auf welches andere Gen haben könnte. Ich erhoffe mir das folgendermaßen: Ich gebe die Tabelle in ein Programm wie z.B. SPSS ein und dann (nach langem rechnen durch die Software) sollen mir die stärksten Korrelationen ausgegeben werden. Dann muss ich durch Recherche beurteilen, an welchen starken Korrelationen man forschen könnte und welche komplett sinnfrei sind ;-) .

Deinen Vorschlag mit dem Phi-Koeffizienten kann ich aus meiner Sicht nicht verwenden (korrigiert mich ruhig, wenn ich falsch liege). Wie ich eben erlesen habe, handelt es sich um Kreuztabellen, bei denen man die 1 und 0 in jede Richtung summiert.
Es lässt sich mit meinem bescheidenen Wortschatz schwer erklären, aber die "Positionen" der 1er und 0er bezüglich des Bakterienstammes sind bei der Auswertung sehr wichtig.

Bsp:.............Gen1 Gen2 Gen3 Gen4 Gen5 Gen6
StammA..........1......0......0.....0.....1..... 1
StammB..........1......1......0.....1.....1..... 1
StammC..........0......1......1.....1.....0..... 1
StammD..........0......1......1.....1.....0..... 0
StammE..........1......0......1.....0.....1..... 0

Dieses Bsp sollte es ganz gut zeigen. Würde ich die 1 summieren, dann zähle ich für jedes Gen die Summe 3 und ich erhalte keinen Erkenntnisgewinn. Mir ist aber wichtig: Wenn Gen1 "positiv=1" ist in einem Stamm, dann ist auch Gen5 "positiv=1" im selbigen Stamm. Im gezeigten Beispiel ist das eine immer zutreffende Korrelation. Ich bin natürlich auch an 90%igen Korrelationen u. a. interessiert.

Eine Explorative Faktorenanalyse könnte helfen, miteinander assoziierte Gengruppen zu finden.

Da muss ich mich noch schlau machen... Das sagt mir bisher noch gar nix

Danke schonmal für die raschen Antworten!
Zuletzt geändert von Hoffi am Do 15. Mär 2018, 15:08, insgesamt 1-mal geändert.
Hoffi
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 14. Mär 2018, 15:56
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: nominalen Datensatz auswerten

Beitragvon PonderStibbons » Do 15. Mär 2018, 14:51

Die Kreuztabelle für eine beliebige Kombination aus Gen A / Gen B hätte die 4 Felder:
vorhanden/vorhanden, vorhanden/nicht vorhanden, nicht vorhanden/vorhanden, nicht vorhanden/nicht vorhanden.
Die 22 Stämme verteilen sich auf diese 4 Zellen. Diese Verteilung bildet die Grundlage
zur Berechnung des Koeffizienten.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: nominalen Datensatz auswerten

Beitragvon Hoffi » Do 15. Mär 2018, 16:45

@PonderStibbons:
Danke für die Erklärung. Sehr verständlich beschrieben. Hübsches Prinzip, gefällt mir!
Wie ich zuvor erwähnt habe, stellt sich nun für mich die essentielle Frage: Gibt es eine Funktion in einer Statistiksoftware, die genau das mit meiner riesigen Tabelle automatisiert macht? Ich setze mich garantiert nicht hin und bastel das 54000x per Hand :lol:
Hoffi
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 14. Mär 2018, 15:56
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: nominalen Datensatz auswerten

Beitragvon bele » Do 15. Mär 2018, 16:59

Hoffi hat geschrieben:Da muss ich mich noch schlau machen... Das sagt mir bisher noch gar nix

Ich glaube, das solltest Du machen. Die Idee ist, dass Du damit nicht nur immer zwei Bakterien miteinander vergleichst, sondern auch Zusammengehörigkeiten von Gruppen von Bakterien finden kannst. Eine hierarchische Clusteranalyse wäre ein anderer Weg, Bakterien in Gruppen von mehr als 2 zu unterteilen.

Was die Softwarefrage angeht: Der Phi-Koeffizient ist die Pearson-Korrelation angewendet auf binäre Daten. Jedes Statistikprogramm wird Dir eine Pearson-Korrelationsmatrix ausgeben können. Die Matrix mit >52000 Einträgen auswerten, willst Du aber ebensowenig von Hand machen, wie du sie von Hand erstellen willst.
Hast Du irgendwelche Programmierkenntnisse? Wenn Du etwas Python oder C++ oder Java oder (hier allgemeine Programmiersprache einsetzen) kannst, dann könnte es sinnvoller sein, das in einer Programmiersprache zu lösen die Du kannst, als in einem Statistikprogramm, das Du Dir dafür aneignest. Am besten wäre es natürlich, wenn Du mit SPSS "Syntax" oder mit R in einer Statistikumgebung programmieren könntest.

In R erstellt man eine Korrelationmatrix mit `cor()`, in SPSS wohl mit `CORRELATIONS`. Hier ein paar Hinweise auf verschiedene Umgebungen:

http://www.cookbook-r.com/Statistical_a ... -variables
https://www.stata.com/support/faqs/stat ... on-matrix/
https://kb.iu.edu/d/amoa
https://www.gnu.org/software/pspp/manua ... TIONS.html
http://firsttimeprogrammer.blogspot.de/ ... ix-in.html

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 6 Gäste