Anwendung des GLM´s auf Mietpreise

Alle Verfahren der Regressionanalyse.

Anwendung des GLM´s auf Mietpreise

Beitragvon PS007 » Di 23. Feb 2021, 13:31

Hallo zusammen,

dies ist mein erstes Thema in diesem Forum und ich freue mich bereits auf den regen Austausch. Leider bin ich noch ein blutiger Anfänger in dem Fachgebiet der Statistik und hoffe eure Zeit nicht zu verschwenden.

Für den Aufbau des GLM´s ist die Grundthese, auf der das Modell beruht, die Abhängigkeiten der Hausmieten (AV, metrisch) von den Ausstattungsmerkmale (UV) und den Lageparametern (UV) des Hauses. Die Ausstattungsmerkmale können hierbei nominal wie bspw. Balkon (Ja/Nein), ordinal wie bspw. Baujahreskategorien und metrisch wie bspw. die Wohnfläche skaliert sein. Der Lageparameter ist ebenfalls nominal skaliert und bezieht sich auf den Standort des Hauses (Stadtteil/Ortsteil).

Insgesamt werden ca. 50.000 Datensätze für die Analyse verwendet, welche jedoch teilweise Lücken in bestimmten Angaben aufweisen. Nun zu meiner Frage!
Laut einem Arbeitskollegen ist die Anwendung eines generalisierten linearen Modells in Form einer LN-Regression sinnvoll. Die Wahrscheinlichkeitsverteilung des Modells ist vermutlich rechtsschief womit ich mich für eine Gamma-Verteilung entschieden habe. Ist diese Auswahl sinnvoll? Und falls ja warum bzw. warum nicht? Wie kann ich die Güte des Modells überprüfen?

Ich freue mich auf eure Antworten! :)

Mit besten Grüßen
Philipp
PS007
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Sa 20. Feb 2021, 15:19
Danke gegeben: 5
Danke bekommen: 0 mal in 0 Post

Re: Anwendung des GLM´s auf Mietpreise

Beitragvon PonderStibbons » Di 23. Feb 2021, 17:16

Meinte der Kollege nicht vielmehr Logarithmieren der Preise und dann eine lineare Regression?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
PS007

Re: Anwendung des GLM´s auf Mietpreise

Beitragvon PS007 » Di 23. Feb 2021, 18:07

Vielen Dank schon mal für deine Hilfe!
Es sollte ein generalisiertes lineares Modell mit einer Gamma-Verteilung und als Link-Funtkion:Logit verwendet werden. Bei R ist diese Auswahl auch möglich und führt zu einem logischen Output. @PonderStibbons Macht ein generalisiertes lineares Modell in diesem Fall denn keinen Sinn? Und wie kann ich die Güte des Modells testen?
PS007
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Sa 20. Feb 2021, 15:19
Danke gegeben: 5
Danke bekommen: 0 mal in 0 Post

Re: Anwendung des GLM´s auf Mietpreise

Beitragvon PonderStibbons » Di 23. Feb 2021, 18:49

Wieso Logit-Link, Deine abhängige Variable ist doch nicht binär. Und wieso Gamma-Verteilung, das ist bei Preisdaten ungewöhnlich.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
PS007

Re: Anwendung des GLM´s auf Mietpreise

Beitragvon PS007 » Di 23. Feb 2021, 20:01

Du hast recht, ich erzähle Blödsinn :D Es ist ein Identity-Link bei einer Gamma Verteilung. Die Gamma-Verteilung soll angewendet werden da es um Mietpreise geht und die Verteilung Rechtsschief ist. Ist die Anwendung eines GLM´s denn sinnvoll?
PS007
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Sa 20. Feb 2021, 15:19
Danke gegeben: 5
Danke bekommen: 0 mal in 0 Post

Re: Anwendung des GLM´s auf Mietpreise

Beitragvon PonderStibbons » Di 23. Feb 2021, 21:16

Die Gamma-Verteilung soll angewendet werden da es um Mietpreise geht und die Verteilung Rechtsschief ist

Natürlich ist das rechtsschief, aber dass man die Gamma-Verteilung deswegen bemüht, ist etwas überraschend.
Ist die Anwendung eines GLM´s denn sinnvoll?

Ich weiß nicht, was das leisten kann, das nicht schon eine multiple lineare Regression mit einer logarithmierten abhängigen Variable leistet.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
PS007

Re: Anwendung des GLM´s auf Mietpreise

Beitragvon strukturmarionette » Mi 24. Feb 2021, 01:01

Hi,

- bei N =50000 zu empfehlen wäre zunächst, sich für relvante Prädiktoren zu entscheiden
- bzw sich zunächst eine gute Vorgehensweise diesbzüglich zu überlegen

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4352
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

folgende User möchten sich bei strukturmarionette bedanken:
PS007

Re: Anwendung des GLM´s auf Mietpreise

Beitragvon dutchie » Mi 24. Feb 2021, 07:05

Hallo PS007

Schau mal ins Buch von Ludwig Fahrmeir, Stefan Lang und Thomas Kneib:

"Regression: Modelle, Methoden und Anwendungen"

Da wird an einem Mietbeispiel Regression erklärt.
Genau dein Thema...aber ohne gamma...und ohne log

gruß
dutchie
dutchie
Mitglied
Mitglied
 
Beiträge: 22
Registriert: So 12. Aug 2018, 18:01
Danke gegeben: 0
Danke bekommen: 8 mal in 8 Posts

folgende User möchten sich bei dutchie bedanken:
PS007

Re: Anwendung des GLM´s auf Mietpreise

Beitragvon PS007 » Mi 24. Feb 2021, 11:46

Hey ihr Lieben,

vielen lieben Dank für die zahlreichen und informativen Antworten!

@dutchie sehr geil, schaue mir das Buch gleich direkt einmal an. Sehr witzig, dass die ein ähnliches Beispiel herangezogen haben :D

@strukturmarionette Insgesamt stehen ca. 50 UV´s zur Verfügung. Hierbei habe ich zunächst nach logischen Zusammenhängen eine Auswahl getroffen und UV`s aufgenommen bei denen ich einen unabhängigen signifikanten Einfluss auf die AV erwarte. Nach der Berechnung des Modells habe ich die restlichen nicht signifikanten UV´s eliminiert. Ist vermutlich eine sehr amateurhafte Vorgehensweise... Wie würdest du bei der Auswahl von relevanten Prädikatoren vorgehen? Bin gerne für jeden Tipp offen! :)

Viele Dank nochmals an alle!

Gruß
PS007
PS007
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Sa 20. Feb 2021, 15:19
Danke gegeben: 5
Danke bekommen: 0 mal in 0 Post

Re: Anwendung des GLM´s auf Mietpreise

Beitragvon bele » Mi 24. Feb 2021, 15:43

Hallo PS0007,

bei N = 50000 und nur 50 Prädiktoren, die alle nicht wild erstellt sondern pragmatisch zum Thema passend ausgewählt wurden, verwundert, dass nicht alle 50 signifikant wurden. Wenn Du nun schreibst, dass bestimmte Angaben gefehlt haben, dann wurden sehr wahrscheinlich nicht alle 50.000 Fälle einbezogen, sondern alle mit einem fehlenden Eintrag weggelassen. Du solltest also mal schauen, wieviele das jeweils sind. Nicht-signifikante Prädiktoren müssen keine wertlosen Prädiktoren sein. Es können auch korrelierte Prädiktoren sein. Wenn Du eine Variable hast, die abfragt wer über 65 ist und eine fragt, wer Rentner ist, dann werden beide eine große Übereinstimmung haben. Dann weiß das Modell vielleicht nicht, ob die Effekte dem Rentnersein oder dem Alter über 65 zuzuschreiben sind und nennt beide nicht-signifikant, weil beide riesige Standardfehler bekommen. Das ist auch einer der Gründe, warum ein einfaches Wegfallenlassen aller nicht-signifikanten Prädiktoren ungeschickt ist.

Es gibt verschiedene Wege, Modelle zu optimieren. Es fehlt aber mindestens noch die Frage, warum Du diese Regression machst, wofür die nachher gut sein soll. Eine Regression, die Beweisen soll, dass dieses oder jenes einen Einfluss hat würde man dabei vielleicht anders behandeln als eine Regression, die Vorhersagen machen soll. Im einen Fall hat Rentner einfach keinen kleinen p-Wert, ohne dass der Einfluss von Rentner auf die Vorhersagekraft geschmälert wäre. Auch dann wäre aber nochmal zu fragen, ob die Regression der Vorhersage dienen soll oder der Variablenreduktion, um für Vorhersagen möglichst wenig Werte erheben zu müssen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 5 Gäste

cron