Großer Datensatz, viele mögliche Korrelationen

Fragen, die sich auf kein spezielles Verfahren beziehen.

Großer Datensatz, viele mögliche Korrelationen

Beitragvon jmfedorenko » Do 7. Feb 2013, 10:32

Hallo miteinander,

ich bin in der Statistik ein absoluter Neuling, habe mich aber von einer entsprechenden Bachelorarbeit überzeugen lassen.

Das Problem:
Wir haben 20 abhängige Variablen (diese wurden schon zusammengefasst, also sind weitere Reduktionen der Variablenzahl eigentlich nicht drin). Dazu haben wir grob geschätzt 40 Einflussgrößen (also unabhängige Variablen), von denen wahrscheinlich einige mehr, andere weniger bedeutend für die abhängigen Variablen sind.

Meine Aufgabe besteht grundlegend erstmal darin, zu prüfen, ob Ausprägung der abhängigen Variablen reproduzierbar oder rein stochastisch ist.
Des weiteren wäre es natürlich auch gut, die wichtigsten Einflussgrößen und das Maß ihres Einflusses zu bestimmen.

Da ich, wie gesagt, was Statistik angeht, noch sehr unerfahren bin und mich die ganze Zeit durch die Literatur (die auch nicht immer sofort einleuchtend scheint :) ) wälze, würde ich euch mal nach Tips fragen.

Das größte Problem habe ich mit den ganzen Dimensionen. Ich finde keinen richtigen Einstieg. Bei Wikipedia z.B. steht, dass bei einer MANOVA mehr als drei Faktoren nur noch schwer dargestellt werden können. Muss ich meinem Bauchgefühl vertrauen und entscheiden für welche unabhängigen Variablen ich die Beziehung zu den abhängigen Variablen teste, oder kann ich eine Faktoranalyse machen? Stehe irgendwie auf dem Schlauch.

Wenn jemand zu solch einer Fragestellung eine Software empfehlen kann, bitte nur raus damit. Ich versuche mich gerade ins R reinzufuchsen, was sich aber dank unzureichender Informatikkenntnisse als sehr schleppend erweist.

Ich weiß, das ist eine ganz schöne Ladung an Fragen. Vielleicht kann mir ja trotzdem jemand unter die Arme greifen.

MfG
jmfedorenko
jmfedorenko
Beobachter
Beobachter
 
Beiträge: 13
Registriert: Mi 6. Feb 2013, 11:09
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Großer Datensatz, viele mögliche Korrelationen

Beitragvon bele » Do 7. Feb 2013, 10:47

Hallo!

jmfedorenko hat geschrieben:Das Problem:
Wir haben 20 abhängige Variablen (diese wurden schon zusammengefasst, also sind weitere Reduktionen der Variablenzahl eigentlich nicht drin). Dazu haben wir grob geschätzt 40 Einflussgrößen (also unabhängige Variablen)


Das ist ein großer Satz von möglichen Abhängigkeiten. Hoffentlich hast Du auch einen enorm großen Satz an Fällen. Sonst kannst Du so viele Verknüpfungen nicht vernünftig berechnen. Dann müsstest Du aufgrund von Sachverstand entscheiden.


Meine Aufgabe besteht grundlegend erstmal darin, zu prüfen, ob Ausprägung der abhängigen Variablen reproduzierbar oder rein stochastisch ist.


Wildes drauf-los-testen in einer Hälfte des Datensatzes und überprüfen, ob die Zusammenhänge stand halten in der zweiten Hälfte des Datensatzes. Erfordert aber wieder einen großen Datensatz.


Wenn jemand zu solch einer Fragestellung eine Software empfehlen kann, bitte nur raus damit. Ich versuche mich gerade ins R reinzufuchsen, was sich aber dank unzureichender Informatikkenntnisse als sehr schleppend erweist.


Jede Software erfordert Einarbeitung. Klassiker sind neben R: Stata, SPSS, SAS, S-PLUS.
Wenn es tatsächlich am Bedienkonzept von R liegen sollte, kannst Du auch grafische Benutzeroberflächen für R ausprobieren, wie beispielsweise Rcmdr, JGR, Rattle, ...


LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5944
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1405 mal in 1391 Posts

folgende User möchten sich bei bele bedanken:
jmfedorenko

Re: Großer Datensatz, viele mögliche Korrelationen

Beitragvon jmfedorenko » Do 7. Feb 2013, 11:20

Ersteinmal vielen Dank für die schnelle Antwort!

Ich habe in der Tat sehr große Datensätze (schätzungsweise >48std bei 1,5Hz), daran wird es glaube ich nicht scheitern.

Was das "wilde Drauf-Los-Testen" angeht: was genau meinst du damit? Alle möglichen Variablen gegeneinander auf Korrelationen untersuchen?

Kann all diese Fragestellungen vielleicht sogar in Excel bearbeiten, oder ist das Volumen schlicht zu groß?
Im Grunde genommen kann ich ja als Student fast alle Programme über eine Studentenlizenz günstig erhalten, deshalb geht Funktionalität auf jeden Fall vor Kosten.
Es ist mir klar, dass jedes Programm Einarbeitung erfordert. Aber es gibt mit Sicherheit Unterschiede im Aufbau, so dass einige intuitiver als andere sind. Ich bin insofern einfach auf Empfehlungen aus.

MfG
jmfedorenko
jmfedorenko
Beobachter
Beobachter
 
Beiträge: 13
Registriert: Mi 6. Feb 2013, 11:09
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Großer Datensatz, viele mögliche Korrelationen

Beitragvon STATWORX » Sa 9. Feb 2013, 21:18

Hallo,

im vorliegenden Falle scheint mir eher die "prognostische" Relevanz der unabh. Variablen bzgl. der 20 AVs im Vordergrund zu stehen und nicht das Testen von stat. Hypothesen. Wenn du kein "theoretisches" Modell hast sondern es darum geht, die AV möglichst gut vorherzusagen würde ich Dir einen Einstieg ins Thema "Feature Selection" raten, ein Feld, das im Bereich Data Mining angesiedelt bzw. weit verbreitet ist. Hier geht es darum aus einem Set an UVs diejenigen zu identifizieren, die eine AV am Besten vorhersagen können.

Empfohlene Software dazu wäre entweder R (hier musst du allerdings Programmieren lernen) oder z.B. RapidMiner, eine benutzerfreundliche Open-Source Software.

VG
STATWORX
STATWORX
Foreninhaber
Foreninhaber
 
Beiträge: 85
Registriert: Di 14. Jun 2011, 19:45
Danke gegeben: 0
Danke bekommen: 18 mal in 18 Posts

folgende User möchten sich bei STATWORX bedanken:
jmfedorenko

Re: Großer Datensatz, viele mögliche Korrelationen

Beitragvon jmfedorenko » Mo 11. Feb 2013, 13:54

Hallo,

also ich habe mich noch einmal bei den Verantwortlichen informiert und um Präzisierung der Aufgabenstellung gebeten.
Meine Aufgabe besteht im Grunde genommen darin, die Hypothese "Die Messergebnisse hängen von den Randbedingungen ab und sind nicht zufällig" zu prüfen.
Um die "prognostische" Relevanz soll ich mich eigentlich nicht kümmern.

Nun meine Frage: Ist es nicht möglich, ohne genau den Grad des einzelnen Einflusses zu ermitteln, die Abhängigkeit der von mir als AVs angenommenen Variablen nachzuweisen? Also ich soll ja nur zeigen, dass das ganze nicht stochastisch sondern "vorhersagbar" ist.

Entschuldigt bitte mein Unwissen :? und vielen Dank für die Unterstützung

Grüße
jmfedorenko
jmfedorenko
Beobachter
Beobachter
 
Beiträge: 13
Registriert: Mi 6. Feb 2013, 11:09
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Großer Datensatz, viele mögliche Korrelationen

Beitragvon bele » Mo 11. Feb 2013, 14:24

Hallo,

nun, wenn irgend möglich, würde ich bei Aufgaben diesen Umfangs die Finger von Excel lassen wollen. Du solltest eine Software haben, die sich gut skripten lässt, damit Du nicht jedes Mal das Rad neu erfinden musst und Deine Analyse jederzeit wieder durch Eintippen der selben Befehle wiederholen kannst. Andererseits wirst Du in jede andere Software recht viel Mühe und Zeit investieren müssen, bis Du so weit bist, dass Du Deine Statistik-Ideen umsetzen kannst. Da Du bis jetzt noch keine eigenen Statistik-Ideen hast, wird es recht viel Aufwand werden, bis Du sowohl genug Statistik- als auch genug Softwarekenntnisse hast, um gute Arbeit abzuliefern. Überleg Dir sehr genau, ob Du das wirklich investieren willst!


Du wirst Dich sicher mit Korrelationsrechnung und Regressionsrechnung beschäftigen müssen. Da es sich um eine Zeitreihenaufgabe zu handeln scheint, würde ich Dir gerne dieses Buch ans Herz legen wollen:

http://www.amazon.de/Introductory-Time- ... 387886974/

Es ist eine Einführung in die Zeitreihenanalyse und zwar gleich mit der genannten Software R - vielleicht gelingt so der Einstieg in beides gleichzeitig. Das Buch macht einen aber weder zum R Spezialisten noch zum Zeitreihenspezialisten.

Toi, toi, toi,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5944
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1405 mal in 1391 Posts

folgende User möchten sich bei bele bedanken:
jmfedorenko


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot], Google [Bot] und 1 Gast