Hallo Zusammen.
Zunächst eine Beispielssituation:
Ich bin Lieferant eines bestimmten Produkts und untersuche den Absatz durch verschiedene Kunden. Dabei habe ich mehrere metrischen sowie kategorialen Einflussgrößen. Eine davon ist meine interne Kundenklassifizierung mit z. B. 10 Klassen (a,...,j) und eine endere ist das Bundesland. Mein Datenbestand hat Infos über 5000 Bestandskunden, d. h. 5000 Datensätze. Mal angenommen, wenn ich den Bestand getrennt je Klasse anschaue, dann stelle ich fest, dass z. B. in der Klasse d habe ich nur 30 Kunden, wobei 10 davon aus Bayern, 10 aus Sachsen, 2 aus Thüringen und je 1 aus Berlin, Hamburg und Bremen kommen, also nicht aus allen Bundesländern. In den anderen Klassen a,b,c,e,f,g,h,i und j habe ich aber mehrere Kunden aus allen Bundesländern vorhanden.
Nun meine Frage: kann bzw. darf ich die Kunden aus der Klasse d für die Modellierung mittels MLR verwenden bzw. in meinem Datenbestand beibehalten, oder ist es besser, diese zu entfernen?
Es ist mir klar, dass wenn ich diese Daten enfernen werden, dann werde ich keinen Schätzer für Regressionskoeffizienten für diese Klasse bekommen und somit auch keine Absatzprognose für neue Kunden, die diese Klasse angehören, machen können. Wenn ich sie aber beibehalte, dann wird natürlich auch eine Prognose für die neuen Kunden aus der Klasse d und in z. B. Saarland möglich, obwohl ich keinen einzigen Datensatz für solche Kunden aus diesem Bundesland in meinem Bestand hatte.
Ich hoffe, ich konnte mein Problem einigermaßen nachvollziehbar schildern, und freue mich auf Eure Rückmeldung(en)
Gruß
Berry