Erst binäre logistische, dann lineare Regression?

Fragen, die sich auf kein spezielles Verfahren beziehen.

Erst binäre logistische, dann lineare Regression?

Beitragvon johannes_niklas » Fr 30. Aug 2013, 15:35

Hallo zusammen,

Ich untersuche aktuell für meine Diss einen Datensatz aus ~10.000 Beobachtungen - Bereich Transportlogistik. Jede Beobachtung betrifft eine Stadt. In dieser Stadt ist es für ein Unternehmen möglich, einen Teil (bis zu alle) seiner dort vorhandenen Container mit einem Wettbewerber zu tauschen oder eben nicht. Also Ausprägungen von 0-100%, bzw. von 0 bis 1.

Nun möchte ich ein Modell bauen, mit dem ich möglichst gut die möglichen Ausprägungen vorhersagen kann. Die Anzahl der Ausprägungen zwischen 0 und 1 ist normalverteilt, sodass sich hierfür wunderbar eine lineare Regression mit allen meinen erklärenden Variablen anbietet.

Allerdings gibt es in ~60% aller Städte gar keine Möglichkeit, Container zu tauschen. Folglich habe ich eine Verteilung in Form einer Normalverteilung mit einer riesigen Säule bei Null. Also keine Normalverteilung mehr :D

Jetzt war meine Idee, da auch keine andere Verteilung meiner ähnelt, zweistufig vorzugehen. In einem ersten Schritt würde ich mithilfe der binären logistischen Regression identifizieren, ob grundsätzlich die Möglichkeit des Austauschs in der Stadt besteht ("ja", "nein", 10.000 Beobachtungen). Anschließend würde ich dann für alle die Städte, in denen ein Austausch möglich ist (~4000, Ausprägungen von 0,01 bis 1) eine lineare Regression durchführen.

Ist das grundsätzlich ein erlaubtes Vorgehen, oder schneide ich damit zu früh einen großen Teil der Beobachtungen unrechtmäßig ab?

Tausend Dank für eine Einschätzung - ich hoffe, das war alles nachvollziehbar ;)
johannes_niklas
Einmal-Poster
Einmal-Poster
 
Beiträge: 1
Registriert: Fr 30. Aug 2013, 15:11
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Erst binäre logistische, dann lineare Regression?

Beitragvon daniel » Fr 30. Aug 2013, 15:59

Leider bin ich zeitlich etwas knapp gerade, ich hoffe andere haben produktiverer Hinweise.

Nur soviel. Die Verteilung Deines outcomes ist für das gewählte Modell zweitrangig. Ökonometrische Modelle unterstellen Verteilungen für Fehler nicht für Daten. Die lineare Regression setzt keine normalverteilte Variable vorraus.

Zu Deinem Vorschlag, schau mal nach dem Schlagwort hurdle regression.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste

cron