Ich untersuche aktuell für meine Diss einen Datensatz aus ~10.000 Beobachtungen - Bereich Transportlogistik. Jede Beobachtung betrifft eine Stadt. In dieser Stadt ist es für ein Unternehmen möglich, einen Teil (bis zu alle) seiner dort vorhandenen Container mit einem Wettbewerber zu tauschen oder eben nicht. Also Ausprägungen von 0-100%, bzw. von 0 bis 1.
Nun möchte ich ein Modell bauen, mit dem ich möglichst gut die möglichen Ausprägungen vorhersagen kann. Die Anzahl der Ausprägungen zwischen 0 und 1 ist normalverteilt, sodass sich hierfür wunderbar eine lineare Regression mit allen meinen erklärenden Variablen anbietet.
Allerdings gibt es in ~60% aller Städte gar keine Möglichkeit, Container zu tauschen. Folglich habe ich eine Verteilung in Form einer Normalverteilung mit einer riesigen Säule bei Null. Also keine Normalverteilung mehr

Jetzt war meine Idee, da auch keine andere Verteilung meiner ähnelt, zweistufig vorzugehen. In einem ersten Schritt würde ich mithilfe der binären logistischen Regression identifizieren, ob grundsätzlich die Möglichkeit des Austauschs in der Stadt besteht ("ja", "nein", 10.000 Beobachtungen). Anschließend würde ich dann für alle die Städte, in denen ein Austausch möglich ist (~4000, Ausprägungen von 0,01 bis 1) eine lineare Regression durchführen.
Ist das grundsätzlich ein erlaubtes Vorgehen, oder schneide ich damit zu früh einen großen Teil der Beobachtungen unrechtmäßig ab?
Tausend Dank für eine Einschätzung - ich hoffe, das war alles nachvollziehbar
