Hallo und vielen Dank für die ausführliche Antwort.
PonderStibbons hat geschrieben:Da könnte sich was vermischen. Hast Du eigentlich auch die Zahl der Bewerbungen aus den einzelnen Gruppen,
nicht nur die Zahl der Eingestellten?
Ich habe die Zahl der Bewerber sowie der eingestellten jeweils mit und ohne Migrationshintergrund.
PonderStibbons hat geschrieben:Das ist keine allzu konkrete Fragestellung, zumindest wenn man hier die Methodik diskutieren will.
Das stimmt, konkreter formuliert ist es eigentlich: Stellen Unternehmen mit bestimmten Eigenschaften (bzw. in bestimmten Situationen wie etwa Fachkräftemangel) eher Menschen mit Migrationshintergrund (mM) ein? (In meinem Fall tatsächlich Auszubildende mit Migrationshintergrund).
Ich habe dazu Daten von etwa 800 Betrieben, aus allen Branchen und in allen Größen repräsentativ für Deutschland. Die Grundgesamtheit ist dementsprechend alle deutschen Betriebe. Ich habe Informationen zu Branche, Größe, Qualifikationsniveau der Mitarbeiter und auch ihren Migrationshintergrund. Für Ausbildungsberufe, dies ist die Ebene die ich mir anschaue, werden deutschlandweit die Anzahl der Ausbildungsplatzangebote und Bewerber, erhoben. So kann man beurteilen, wie beliebt die Ausbildungen sind, die ein Unternehmen angeboten hat. Außerdem wurde konkret die Anzahl unbesetzter Ausbildungsplätze erhoben.
Meine Frage ist vor allem, wie ich am besten die abhängige Variable bilde. Ist der Anteil eingestellter Auszubildender (mM) an allen eingestellten Auszubildenden am besten. Oder der Anteil Eingestellter mM an den Bewerbern mM?
Die Verteilung der Werte sieht für mich sehr ungewöhnlich aus und ist stark abhängig von der Anzahl generell eingestellter Auszubildender: Hatte man ohnehin nur 3 Stellen erreicht man bei 1 Einstellung mM bereits 33% Einstellungen mM, hat man 15 Stellen muss man für denselben Wert 5 Auszubildende mM einstellen. Hat man nur 2 Stellen kann man 33% gar nicht erreichen.
Daher war meine Idee, die Variable so, wie sie erhoben wurde, zu analysieren: Anzahl der eingestellter Auszubildenden mM. Kontrolliert für die Anzahl der Bewerbungen mM und der gesamten Zahl der eingestellten Auszubildenden.
Für die Analyse von Count data mit hohem Anteil 0 gibt es Methoden: Zero-inflated Poisson oder Negativ-binomial Regressionen.
Ich würde dann die Effekte der Variablen, bspw. die Beliebtheit der angebotenen Stellen, unter konstant halten der Bewerber mM und Anzahl eingestellter Auszubildender insgesamt interpretieren.
Allerdings sind diese beiden Variablen keine Confounder der Beliebtheit angebotener Stellen sondern nur starke Indikatoren für die Anzahl eingestellter Auszubildender mM. Daher bin ich unsicher, ob ich das Modell so schätzen kann.
Insgesamt funktioniert das Modell mit negativ-binomial Regressionen besser (bspw. Normalverteilung der Residuen).
Vielen Dank für die Kommentare!
Viele Grüße
PH