STATISTIK-FORUM.de

tttoben · von **tttoben** » Mo 22. Apr 2019, 14:35

Hallo zusammen,

ich möchte eine Regressionsgleichung finden. Ich habe eine abhängige und sehr viele unabhängige Variablen. Ich möchte auch prüfen, ob die Verwendung von Polynomen (bzw. hoch2, hoch3) zu einem besseren Modell führt. Ebenso sollen Interaktionen betrachtet (Eingangsgröße1*Eingangsgröße2, Eingangsgröße1^2*Eingangsgröße1, ...) werden. Hier zeigt sich nun in meinen Vorversuchen, dass ich sehr viele Koeffizienten zu identifizieren habe bzw. dass das Modell durch mehr Eingangsgrößen bzw. Polynome höherer Ordnung nicht zwangsweise besser werden muss.

Gibt es einen Algorithmus, um die Struktur einer Regressionsgleichung zu finden? Bzw. wie ist das Vorgehen bei der Auswahl der Eingangsvariablen und des Grades, mit dem sie in die Regressionsgleichung eingehen sollen? Ich habe hier bisher leider nur den GMDH-Algorithmus gefunden, alle weiteren Erläuterungen, die ich zur Regression gefunden habe, schweigen sich zu dem Thema aus.

Mein Problem mit dem GMDH-Algorithmus ist, dass er in Python leider nicht gut implementiert/dokumentiert ist.

Beste Grüße+vielen Dank
heinz

strukturmarionette · von **strukturmarionette** » Mo 22. Apr 2019, 23:27

Hi,

- zumindest in SPSS sind mehrere Ausprobieralgorithmen implementiert

Gruß
S.

tttoben · von **tttoben** » Di 23. Apr 2019, 08:44

Das klingt gut. Weisst du als Schlagworte auch, wie die Algorithmen heissen bzw. wie sie funktionieren? Dann könnte man schlauer werden. Ausprobieralgorithmen wird als Schlagwort wird auch bei google nicht reichen.

SPSS habe ich leider nicht

Beste Grüße
heinz

strukturmarionette · von **strukturmarionette** » Di 23. Apr 2019, 12:52

Hi,

GMDH-Algorithmus

- Was ist das?

Gruß
S.

bele · von **bele** » Di 23. Apr 2019, 16:13

strukturmarionette hat geschrieben:
GMDH-Algorithmus

- Was ist das?

Ich vermute, er meint so etwas: http://math.umaine.edu/~farlow/gmdh%20in%20pdf.pdf

LG,
Bernhard

bele · von **bele** » Di 23. Apr 2019, 16:29

tttoben hat geschrieben:SPSS habe ich leider nicht

Ich verstehe zu wenig von GMDH um folgenden Satz zu lesen:

The package includes GMDH Combinatorial, and GMDH MIA (Multilayered Iterative Algorithm) using PRESS (Predicted Residual Error Sum of Squares Statistic) criteria. It is calculated as the sums of squares of the prediction residuals for those observations.

Wenn das so klingt, als könnte es Dir helfen: Das ist aus der Beschreibung eines R package namens GMDHreg: https://cran.r-project.org/package=GMDHreg

Leider haben die package-Autoren nicht von der Gelegenheit Gebrauch gemacht, eine Homepage oder auch nur einen Einführungstext zu schreiben. Nur das für R-packages obligatorische formalistische Referenzmanual steht zur Verfügung. Vielleicht kannst Du damit ja was anfangen: https://cran.r-project.org/web/packages ... MDHreg.pdf

HTH,
Bernhard

tttoben · von **tttoben** » Di 23. Apr 2019, 17:59

Hi,

ja, das ist der GMDH-Algorithmus. Soll man aus den bisher gegebenen Antworten schließen, dass man halt zur Findung einer Modellstruktur einfach ein bisschen rumprobiert, paar Strukturen vorgibt, Parameter identifizieren lässt und schaut das der R^2-Wert schön nah bei 1 ist?

Echt jetzt? Finde das kaum vorstellbar.

Wie ist denn sonst die Herangehensweise, also jetzt mal abgesehen von GMDH.

Beste Grüße
heinz

bele · von **bele** » Di 23. Apr 2019, 18:53

tttoben hat geschrieben:Wie ist denn sonst die Herangehensweise, also jetzt mal abgesehen von GMDH.

Hallo Heinz,

die Vorgehensweise beim Finden von Regressionsgleichungen hängt stark davon ab, was man da regrediert und was man mit dem Ergebnis anfangen will. Manchmal ist eine Regression dazu da, einen verständlichen Zusammenhang aufzuzeigen und interpretierbare Koeffizienten hervorzubringen. Manchmal ist sie dazu da, einen begrenzten Datensatz möglichst präzise zu beschreiben und manchmal ist sie dazu da, Vorhersagen für zukünftig zu gewinnende Daten zu ermöglichen. Manchmal sind für Vorhersagen alle Prädiktoren billig zu haben, manchmal geht es darum, möglichst wenige Prädiktoren erheben zu müssen.

Das und natürlich vorheriges Wissen über die zugrundeliegenden Mechanismen und die Zahl der Beobachtungen spielt eine Rolle bei der Modellierung. Wenn Du mal Zeit und Lust hast, schau Dir das Youtube-Video mit dem Vortrag von Andrew Gelman "Crimes against Data" an. Da hat er ein schönes Beispiel, wo jemand die Sterblichkeit danach modelliert hat, ob jemand nördlich oder südlich von einem Fluß gelebt hat. Soweit so gut, ein Polynom 5. Ordnung hat am besten gepasst aber natürlich macht es inhaltlich keinen Sinn, die Wohnlage als 5. Polynom vom Abstand zu Fluss zu modellieren.

Auf Deine Frage, wie sonst die Herangehensweise ist, gibt es leider keine universelle Antwort. Es gibt keine eierlegende Wollmilchsau. Warum denkst Du, gibt es den ganzen Hype um Deep Learning, wenn man das alles auch mit Polynom-Regression erledigen könnte?

Du hast leider nicht geschrieben, warum Du das mit GMDH lösen möchtest. Wenn das eine unumstößliche Vorgabe ist, mach Dich halt mit dem R-Paket und mit R vertraut. Wenn nicht, mach Dir Gedanken darüber, warum Du diesen Algorithmus nicht als Python-Implementierung finden konntest. Es gibt ja keinen Mangel an mathematisch begabten Datenanalytikern, die Python nutzen. Sieht doch so aus, als kämen die bisher ganz ohne GMDH aus, oder?

Die hier im Forum fragende und zumeist SPSS-lastige Population bringt für die automatische Auslese der Prädiktoren gerne den schrittweisen Ein- und Ausschluss von Prädiktoren in die lineare Regression ins Gespräch. Das soll ganz bestimmt keine Empfehlung sein. Da Du nichts sonst über Deinen Hintergrund geschrieben hast: Sagt Dir Überanpassung bzw. overfitting etwas? Das wäre als Hintergrund für die kritische Position gegenüber automatischen Regressionsautomaten zu verstehen wichtig.

LG,
Bernhard

Holgonaut · von **Holgonaut** » Mi 24. Apr 2019, 18:13

Hi Leute,

die Fragestellung klingt sehr nach machine learning und v.a. da neuronalen Netzen. Hier gibts ein nettes Video, wie man ein deep learning-Netz mit R rechnet: https://www.youtube.com/watch?v=hd81EH1g1bE

Ein Problem -- v.a. beim Einbezug von vielen Polynomen und Interaktionen ist overfitting. D.h. du passt die Vorhersage so sehr an das spezifische Datenset an, dass du es nicht wirst generalisieren/wiederholen können. Das wird meist damit gelöst in dem man den Datensatz in einen Trainingsdatensatz und einen Testdatensatz trennst (übliches cross-validation).

In jedem Fall brauchst du dafür einen riesen Datensatz -- auch wenn der Typ im Video "nur" eines mit N=2000.

Grüße
Holger

Chollet, F., & Allaire, J. J. (2017). Deep learning with R: Manning Publications.

Foster, I., Ghani, R., Jarmin, R. S., Kreuter, F., & Lane, J. (2016). Big data and social science: A practical guide to methods and tools: Chapman and Hall/CRC.

Hindman, M. (2015). Building better models: Prediction, replication, and machine learning in the social sciences. The ANNALS of the American Academy of Political and Social Science, 659(1), 48-62. doi:10.1177/0002716215570279

Hox, J. J. (2017). Computational social science methodology, anyone? Methodology, 13, 3-12. doi:10.1027/1614-2241/a000127

Putka, D. J., Beatty, A. S., & Reeder, M. C. (2017). Modern prediction methods: New perspectives on a common problem. Organizational Research Methods, 21(3), 689-732. doi:10.1177/1094428117697041

Weber, P., Weber, N., Goesele, M., & Kabst, R. (2017). Prospect for knowledge in survey data: An artificial neural network sensitivity analysis. Social Science Computer Review, 0894439317725836. doi:10.1177/0894439317725836

bele · von **bele** » Mi 24. Apr 2019, 19:12

Nur ganz am Rande: in dem Video werden keras und Tensorflow in R verwendet. Beide stammen aus der Python-welt, sodass Heinz in der ihm vertrauten Sprache wahrscheinlich mehr Anleitungen als in dem ihm vermutlich fremden R finden wird. Vorausgesetzt natürlich, dass Netze überhaupt infrage kommen.

STATISTIK-FORUM.de

Auswahl unabhängiger Variablen bzw. Strukturidentifikation

Auswahl unabhängiger Variablen bzw. Strukturidentifikation

Re: Auswahl unabhängiger Variablen bzw. Strukturidentifikati

Re: Auswahl unabhängiger Variablen bzw. Strukturidentifikati

Re: Auswahl unabhängiger Variablen bzw. Strukturidentifikati

Re: Auswahl unabhängiger Variablen bzw. Strukturidentifikati

Re: Auswahl unabhängiger Variablen bzw. Strukturidentifikati

Re: Auswahl unabhängiger Variablen bzw. Strukturidentifikati

Re: Auswahl unabhängiger Variablen bzw. Strukturidentifikati

Re: Auswahl unabhängiger Variablen bzw. Strukturidentifikati

Re: Auswahl unabhängiger Variablen bzw. Strukturidentifikati

Wer ist online?