Bachelorarbeit - Allg. Fragen Software und Vorgehen

Fragen, die sich auf kein spezielles Verfahren beziehen.

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon bele » Do 7. Aug 2014, 08:05

@DAH3000: Außer dass ich zu GRETL nichts sagen kann: Volle Zustimmung zu allem. In dem von mir zitierten Mobilitätsvergleich müsste Python dann so eine Art geländegängiges Amphibienfahrzeug sein? Für Statistik habe ich es noch nicht genutzt, als Programmiersprache ist Python schon sehr elegant (nicht nur gemessen an R sondern auch an höheren Ansprüchen).

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5928
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon Lukki » Do 7. Aug 2014, 08:50

Okay, aber da ist man dann schon ungefähr ganz tief in der Materie drinnen. Ich würde sagen:

Klick and result Programme wie SPSS: Gut für den Anfänger, für BASISfunktionen

R: Gut für den Fortgeschrittenen User, der gerne auch mal eigene Funktionen implementiert

Python o.ä.: Gut für den Profi, "kann alles"&"macht alles", aber da brauchts dann schon bissl mehr als nur ein paar Bücher oder Kurse wie bei R!


Nichts desto trotz könnten wir das Thema, welches Statistikwerkzeug das beste und tollste ist mal beiseite schieben und uns wieder auf das Thema konzentrieren, was meint ihr?


Also: Nimm SPSS, weil der Einstieg leichter ist und dir sonst die Zeit wegrinnt.
Lukki
Mitglied
Mitglied
 
Beiträge: 27
Registriert: Mo 14. Jul 2014, 09:40
Danke gegeben: 1
Danke bekommen: 2 mal in 2 Posts

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon DHA3000 » Do 7. Aug 2014, 13:17

Ja, so in etwa. Gerade während des Studium oder auch der Promotion scheiden sich die Geister an der Software und jeder verteidigt immer seine Methode. Dabei wird der Umfang, den man normalerweise für seine Berechnungen braucht von allen gängigen Programmen bereitgestellt. Es kommt eher aufs "Handling" (-> Datenmanagement) an.
Da können dann Programme wie Stata oder auch R einen vorteil bieten (Stata für Panel-Schätzungen). Spätestens, wenn du bspw. für deine Zeitreihe 100 Unit Root tests durchführen möchtest oder die Daten sinnvoll aufarbeiten möchtest. Du hast noch nicht angefangen, aber du wirst feststellen, dass das ein ziemlich großes Problem werden kann.
Möchte ich hingegen ein Regressionsmodell schätzen, oder ARIMA-Analysen durchführen, so ist es vollkommen egal, welches Programm ich nehme, solange ich nicht tiefer in die Materie einsteigen will. SPSS oder auch Gretl sin drecht komfortabel. Gretl kannst du auch diret herunterladen und hast innerhalb von 30min auch schon erste Ergebnisse. Wir haben früher immer in den Ökonometrie-Einführungsvorlesungen die Studenten mit Gretl arbeiten lassen, einfach, weil das Programm recht intuitv ist. Aber das ist SPSS natürlich auch. Auch fortgeschrittene, ökonometrische Berechnunge, können mit jedem Programm durchgeführt werden.

Die richtige, "fortgeschrittene" Ebene charakterisiert sich dann in drei großte Teilbereiche in denen mehrere statistisch Prozesse mit einander verkettet werden. In dem Bereich ist nur noch R und in zwei Bereichen auch Matlab und Python und vielleicht noch ganz spezielle Software we RATS mithalten können.

1) Man möchte die wirklich aktuellste Verfahren anwenden, dann komm ich um das entsprechende R-Package nicht herum. Allerdings habe ich keine Referenz dazu, außer Tom Doan hat wieder einen Paper in RATS nachprogrammiert. ;) Hier eindeutig R.

2) Ich möchte etwa nachprogrammieren, oder etwas eigenes erschaffen. Dann kommt es auf die Komfortablität der Programmiersprache an. Hier also R, Matlab, Python. Normalerweise wird so etwas nur in der Wissenschaft praktikziert. Im Unternehmen möchte ich ja im Zweifel jemanden verklagen. ;)

3) Ich möchte meine Schätzungen darüber hinaus auch in andere Geschätsprozesse einbinden. Bspw. im Unternehmen fürs Datenmangement/-auswertung oder Risikomanagement, in einem Wissenschaftscluster o.ä., dann werden an die Software noch ein paar andere Anforderungen gestellt. Hier verblieben nur noch R und Python, vielleicht auch nur noch Python und andere Programmiersprachen. Je nachdem in welcher Umgebung man sich befindet.
Hier sind eher die Verknüpfungs- und Performancegewinne nützlich und auch wichtig.

Zu guter letzt auch die Performance ansich. Bootstraps oder andere Simulationen dauern immer noch Stunden, Tage, Wochen. Auch mit den modernsten Rechnern und Servern. Eine Multicoreumgebung oder JIT-Compiler sind in diesem Fall schon sehr wichtig. Das wird einem aber im Zweifel erst während der Masterarbeit oder der Diss begnen - oder später im Unternehmen, wenn damit gearbeitet wird.
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon bele » Do 7. Aug 2014, 15:38

Lukki hat geschrieben:Nichts desto trotz könnten wir das Thema, welches Statistikwerkzeug das beste und tollste ist mal beiseite schieben und uns wieder auf das Thema konzentrieren, was meint ihr?


Ich denke, sportsman ist erstmal beschäftigt und wird sich schon Gehör verschaffen, wenn er es braucht. Das Thema beschäftigt uns doch alle, mal mehr, mal weniger. Ich fühle mich hier off topic gerade recht wohl. DHA3000 scheint sich in mehreren Welten gut auszukennen und dennoch gelingt hier eine sachliche Diskussion ohne language wars. Wann hat man das schon? Außerdem kann ich persönlich zum Thema Ökonometrie ohnehin nichts beitragen.

Ich benutze jedenfalls seit kurzem lieber Python, weil es unseren Code schneller umsetzt, als R.

Wie Du schon sagst, liegt das letztlich im Anwendungsfall. Wenn ich in einer Firma einen Code zu schreiben hätte, der immer wieder und schnell laufen soll und eventuell nach mir noch von anderen angewendet und gewartet werden müsste, dann würde ich mich wahrscheinlich auch an eine allgemeine Programmiersprache wie Python (oder Java oder C++,...) bemühen.
Meine Situation ist ganz anders: Wenn ich in meinem Beruf gar nichts mit Statistiksoftware oder Programmiersprachen machen würde, wären alle zufrieden. Aus Freude an der Sache und weil es irgendwie in mein Tätigkeitsfeld passt, kümmere ich mich trotzdem um Statistik. Hier und da finde ich in meinem Umfeld Dinge, die man spannenderweise untersuchen und analysieren könnte und jedes mal ist es ganz anders. Zur Zeit bearbeite ich ein Thema, dass ich mit Bootstrapping angehen will und wer weiß, vielleicht brauche ich morgen eine Self-Organizing-Map oder ein Clusterverfahren oder eine Support-Vector-Machine. Wenn daraus eine Publikation wird ist das sehr schön, wenn nicht, dann macht das auch nichts. Dann habe ich mehr über Bootstrapping, SOMS, Clustering oder SVMs gelernt. In dieser komfortablen Situation ist eines für mich begrenzt: Die Zeit, die ich investieren kann. In R kann ich von Thema zu Thema hoppen. Ich google das Thema mit "CRAN" oder "Bioconductor", schaue welche packages eine Vignette haben und welcher Blogger einen Blog und welcher Professor ein Skript ins Internet gestellt hat und entscheide von Tag zu Tag, ob das mein Ansatz ist oder ob ich etwas ganz anderes machen will. In dieser Situation ist das Ökosystem rund um R unschlagbar. Geschwindigkeit ist nachgeordnet, Eleganz der Programmiersprache auch, das Angebot auf dem Buchmarkt nicht.


Was ich bei SPSS immer wieder beobachtet habe sind Studierende, die sich ein-Jahres-Lizenzen an der Uni für wenig Geld kaufen und dann viel Ärger haben, bis das Ding läuft. Ich kann das nicht in Zahlen fassen, aber ich habe schon das Gefühl, dass das kein seltenes Problem ist. Vor allem bei Apple-Rechnern. Vielleicht ist meine Wahrnehmung aber auch verzerrt.


Was mich noch interessieren würde ist, in welchen Situationen es vielleicht doch sinnvoll sein kann, eine Datenanalyse mit Excel zu machen. Die Zahl der Menschen, die sich in Excel wohl fühlen ist halt doch sehr groß und in vielen Situationen reichen ja auch sehr einfache Statistiken. Den Mittelwert aus 10 Werten zu berechnen erfordert in R keine Lernkurve, aber in Excel kann man wenigstens was mit der Maus anklicken. Was meint Ihr? Ist Escel ausnahmsweise das richtige Tool? Wo verlaufen die Grenzen?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5928
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon Lukki » Do 7. Aug 2014, 15:53

Lukki hat geschrieben:
Nichts desto trotz könnten wir das Thema, welches Statistikwerkzeug das beste und tollste ist mal beiseite schieben und uns wieder auf das Thema konzentrieren, was meint ihr?


Ich denke, sportsman ist erstmal beschäftigt und wird sich schon Gehör verschaffen, wenn er es braucht. Das Thema beschäftigt uns doch alle, mal mehr, mal weniger. Ich fühle mich hier off topic gerade recht wohl. DHA3000 scheint sich in mehreren Welten gut auszukennen und dennoch gelingt hier eine sachliche Diskussion ohne language wars. Wann hat man das schon? Außerdem kann ich persönlich zum Thema Ökonometrie ohnehin nichts beitragen.


Letztendlich hast du schon Recht Bernhard. Ich finde das gerade auch sehr spannend.

Kann es sein, dass du auch eher in der Ökologie zuhause bist? Wenn ja würde es mich freuen sich mal zu dem ein oder anderen Thema zu unterhalten. Ich stehe aber gerade am Anfang mit meinem Statistikwissen (Masterstudent, beschäftige mich halt intensiv mit R!). Aber Bootstrapping hät ich jetzt eher in die ökologische Analyserichtung gepackt ;)

beste Grüße,
Lukki
Lukki
Mitglied
Mitglied
 
Beiträge: 27
Registriert: Mo 14. Jul 2014, 09:40
Danke gegeben: 1
Danke bekommen: 2 mal in 2 Posts

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon bele » Do 7. Aug 2014, 16:02

Hi Lukki,

nein, ich bin in der Medizin zuhause. Keine Ahnung, ob man Bootstrapping oder andere Methoden bei bestimmten Fächern einsortieren kann. Wenn ja, würde ich versuchen, solche Fächergrenzen zu überschreiten. Meine Doktorarbeit habe ich damals mit "SPSS 7.5 Student version" gestemmt. Ist also schon ein paar Jahre her.

LG,
Bernhard


PS: Lukki dixit: "Wenn ja würde es mich freuen sich mal zu dem ein oder anderen Thema zu unterhalten."
Ja, ist schon klar, dass in einem Forum wie diesem meistens konkrete Auswerteprobleme von Leuten diskutiert werden, die aus dem Forum dann wieder verschwinden. Aber Diskussionen zwischen den "Langzeit-Usern" gibt es trotzdem erstaunlich wenige.
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5928
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon DHA3000 » Do 7. Aug 2014, 19:31

Bootstrapping kann man nirgendwo einteilen. Es wird halt überall dort wichtig, wo Verteilungen emprisch erzeugt werden müssen.

Was Excel angeht: Wir arbeiten auch noch damit. :) Neben R, Python und Matlab. Den gerade bei der Sortierung und Strukturierung von kleinen Datensätzen ist es
meiner Ansicht nach recht wichtig, dass man auch einen visuellen Überblick hat.
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon sportsman » Fr 29. Aug 2014, 19:08

Hallo zusammen,

ich wollte mich zunächst bei euch für die vielen Hinweise und Tipps bedanken und hoffe, dass ich keinen Streit ins Forum gebracht habe bzgl. der Wahl des Programms :)
Ich habe mich letztendlich für SPSS entschieden, da es für mich in Sachen Funktionsumfang und Bedienung die Beste Lösung darstellte. Ich bin mittlerweile auch mitten in der Auswertung der Zeitreihen und habe einige Fragen speziell zur Regressionsanalyse, bei denen ich aus den Büchern noch nicht ganz schlau werde.


*** EDIT *** Fragen direkt im Forum für lineare Regression gestellt :)

Besten Dank schonmal für die ganzen Tipps
sportsman
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 31. Jul 2014, 15:39
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon bele » Sa 30. Aug 2014, 12:54

sportsman hat geschrieben: hoffe, dass ich keinen Streit ins Forum gebracht habe bzgl. der Wahl des Programms :)


Keine Sorge, dieser "Streit" gehört hier unbedingt hin und muss ab und zu mal sachlich behandelt werden. Das ist ein Dauerbrenner, der für uns alle wichtig ist und für den wir alle unsere Antworten finden müssen. Unsere Meinungen kennst Du ja jetzt. Zum Bedanken darfst Du auch gerne den Thanks!-Button benutzen, den Du an jedem Beitrag findest, für den Du Dich bedanken willst.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5928
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon sportsman » Mo 1. Sep 2014, 22:59

Axhönen guten Abend zusammen,

ich bins nochmal :)
Ich hab nochmal eine Frage zu SPSS, da habe ich gerade ein Problem mit dem einfachen exponentiellen Glätten.

Und zwar kriege ich es nicht hin, das SPSS mir für alle meine Zeitreihen die richtigen Vorhersagen berechnet.

In meinem Dataset habe ich 50 verschiedene Zeitreihen (Umsätze pro Land) mit jeweils 55 Datensätzen (2010_01 - 2014_07)
Ich möchte nun z.B. mittels einfacher exponentieller Glättung für alle Zeitreihen Prognosen erstellen.
Dabei soll der Zeitraum 2010_01 - 2013_12 als Schätzperiode, also zur Initialisierung der Glättungsparamter, dienen. Prognosen sollen dann für den Zeitraum 2014_01 - 2014_07 durchgeführt werden und mit den Beobachteten Werten verglichen werden.

Folgendes habe ich bereits gemacht:
Ich habe mir von SPSS Datumsvariablen anlegen lassen (3 Stück). DATE_, YEAR_, MONTH_. Die Periodizität beträgt korrekt 12 Monate. So weit so gut.

Mit "Daten --> Aufgeteilte Datei" habe ich mir meine Zeitreihen nach Kriterium Land sortieren lassen und angegeben, dass ich Gruppen vergleichen will.
Zusätzlich habe ich unter "Daten --> Fälle auswählen" die Schätzperiode auf Basis der Zeitvariable definiert und als Bereich 2010 / 1 bis 2013 / 12 eingestellt.

Rufe ich jetzt die Prozedur "Analyse --> Vorhersagen erstellen --> Modelle erstellen" auf und gebe die Modellparameter ein (nur exponentielles Glätten, nicht saisonal,einfach, Abhängige Variable etc.) habe ich folgende Probleme:
  • Die Prozedur wird ausgeführt, allerdings erhalte ich für 2014_01 - 2014_07 immer den gleichen Vorhersagewert pro Zeitreihe. Das macht insofern Sinn, als dass für die einfache exponentielle Glättung ja immer der Beobachtungswert aus der aktuellen Periode benötigt wird, um eine Vorhersage für die nächste zu erstellen. Die beobachteten Werte für 2014_01 - 2014_07 habe ich in meinem Datenset. Wie bekomme ich es jetzt hin, dass SPSS für die Vorhersagen der Perioden 2014_01 bis 2014_07 die Beobachtungswerte auch verwendet? Die Schätzperiode soll ja lediglich zur Initialisierung der Glättungsparamter dienen.

Ein bisschen im Handbuch und im Internet gewühlt soll das wohl möglich sein mit der Funktion "Analysieren --> Vorhersagen --> Modell zuweisen"

Das Problem: Ich kriege die Modelldatei nicht erstellt. Wenn ich das mit meinem Dataset versuche erhalte ich immer folgende Fehlermeldung
  • "Unterbefehl: MODEL 1: OUTFILE wird ignoriert, weil SPLITFILE aktiv ist.

Deaktivierte ich die besagte Option, dann kann er aber auf einmal keine Vorhersagen mehr erstellen.
  • Der Fall befindet sich laut den Datumsvariablen nicht in der richtigen Reihenfolge

Ich hab schon alles mögliche probiert, hab mein Dataset neu sortiert nach den Datumsvariablen YEAR_, MONTH_, DATE_ aber das hat alles nichts gebracht

Daraufhin habe ich mal alle Zeitreihen bis auf eine aus meinem Dataset gelöscht. Damit gings dann. Kann ich tatsächlich nur eine Modelldatei pro Zeitreihe erstellen und nicht eine Modelldatei mit den Modellparamtern für mehrere?
Dann müsste ich ja für jede Zeitreihe ein eigenes Dataset machen und eine eigene Modelldatei. Da wäre ich ja fast eher geneigt, mir auf Basis der schätzperiode die Glättungsparamter ausgeben zu lassen und die vorhersagen dann selber in Excel durchzuführen, das ist für mich aber irgendwie nicht Sinn und Zweck der Sache. Hoffe ihr habt eine Lösung für mich.

Besten Dank im Voraus
MfG
Stefan
sportsman
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 31. Jul 2014, 15:39
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

VorherigeNächste

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 6 Gäste