STATISTIK-FORUM.de

johannes_niklas · von **johannes_niklas** » Fr 30. Aug 2013, 15:35

Hallo zusammen,

Ich untersuche aktuell für meine Diss einen Datensatz aus ~10.000 Beobachtungen - Bereich Transportlogistik. Jede Beobachtung betrifft eine Stadt. In dieser Stadt ist es für ein Unternehmen möglich, einen Teil (bis zu alle) seiner dort vorhandenen Container mit einem Wettbewerber zu tauschen oder eben nicht. Also Ausprägungen von 0-100%, bzw. von 0 bis 1.

Nun möchte ich ein Modell bauen, mit dem ich möglichst gut die möglichen Ausprägungen vorhersagen kann. Die Anzahl der Ausprägungen zwischen 0 und 1 ist normalverteilt, sodass sich hierfür wunderbar eine lineare Regression mit allen meinen erklärenden Variablen anbietet.

Allerdings gibt es in ~60% aller Städte gar keine Möglichkeit, Container zu tauschen. Folglich habe ich eine Verteilung in Form einer Normalverteilung mit einer riesigen Säule bei Null. Also keine Normalverteilung mehr

Jetzt war meine Idee, da auch keine andere Verteilung meiner ähnelt, zweistufig vorzugehen. In einem ersten Schritt würde ich mithilfe der binären logistischen Regression identifizieren, ob grundsätzlich die Möglichkeit des Austauschs in der Stadt besteht ("ja", "nein", 10.000 Beobachtungen). Anschließend würde ich dann für alle die Städte, in denen ein Austausch möglich ist (~4000, Ausprägungen von 0,01 bis 1) eine lineare Regression durchführen.

Ist das grundsätzlich ein erlaubtes Vorgehen, oder schneide ich damit zu früh einen großen Teil der Beobachtungen unrechtmäßig ab?

Tausend Dank für eine Einschätzung - ich hoffe, das war alles nachvollziehbar

daniel · von **daniel** » Fr 30. Aug 2013, 15:59

Leider bin ich zeitlich etwas knapp gerade, ich hoffe andere haben produktiverer Hinweise.

Nur soviel. Die Verteilung Deines outcomes ist für das gewählte Modell zweitrangig. Ökonometrische Modelle unterstellen Verteilungen für Fehler nicht für Daten. Die lineare Regression setzt keine normalverteilte Variable vorraus.

Zu Deinem Vorschlag, schau mal nach dem Schlagwort hurdle regression.

STATISTIK-FORUM.de

Erst binäre logistische, dann lineare Regression?

Erst binäre logistische, dann lineare Regression?

Re: Erst binäre logistische, dann lineare Regression?

Wer ist online?