STATISTIK-FORUM.de

pheyer · von **pheyer** » Do 25. Jan 2024, 13:27

Hallo zusammen,

ich möchte Anteilswerte analysieren. Es geht um den Anteil einer bestimmten Gruppe (eingestellte Arbeitnehmer mit Migrationshintergrund) an allen eingestellten Arbeitnehmern in einem bestimmten Zeitraum. Firmen sind die befragte Einheit.
Leider ist diese Variable weit davon entfernt normalverteilt zu sein & bestimmte Werte können von manchen Firmen überhaupt nicht erreicht werden: Viele Unternehmen hatten gar keine Einstellungen (=0%), viele nur eine und diese hatte Migrationshintergrund (=100%). Daher empfinde ich Anteile als AV hier etwas schwierig.

Meine Lösung war nun, die tatsächliche Anzahl eingestellter Arbeitnehmer mit Migrationshintergrund mit negativ-binomial Regressionen zu analysieren & für die Anzahl aller eingestellten Arbeitnehmer zu kontrollieren. So dass ich dann Aussagen kann: Kontrolliert für die Anzahl eingestellter Arbeitnehmer, stellen Unternehmen mit Eigenschaft X eine größere Anzahl an Arbeitnehmern mit Migrationshintergrund ein.
Technisch gesehen ist die Anzahl eingestellter Arbeitnehmer jedoch kein Confounder, daher bin ich unsicher, ob die Analyse so funktioniert oder problematisch ist.
Eine logistische Regression (haben diese Gruppe eingestellt Ja/Nein) führe ich schon durch.

Vielleicht hat jemand eine Einschätzung, würde mich sehr freuen!
Vielen Dank und liebe Grüße
Philipp

PonderStibbons · von **PonderStibbons** » Do 25. Jan 2024, 13:51

Leider ist diese Variable weit davon entfernt normalverteilt zu sein

Oder auch gleichverteilt, binominalverteilt usw. Ist das im Kontext Deiner Analyse wichtig?

& bestimmte Werte können von manchen Firmen überhaupt nicht erreicht werden: Viele Unternehmen hatten gar keine Einstellungen (=0%),

Der Anteil von 0 Migranten an 0 Eingestellten ist ja nicht 0%, sondern undefiniert.

viele nur eine und diese hatte Migrationshintergrund (=100%). Daher empfinde ich Anteile als AV hier etwas schwieri

g.
Wie lautet denn ganz genau und ganz konkret die Fragestellung? Welche Art Firmen wurden rekrutiert und wie viele?

Mit freundlichen Grüßen

PonderStibbons

pheyer · von **pheyer** » Do 25. Jan 2024, 14:59

Vielen Dank für die schnelle Antwort!

PonderStibbons hat geschrieben:Der Anteil von 0 Migranten an 0 Eingestellten ist ja nicht 0%, sondern undefiniert.

Das stimmt, guter Hinweis! Da ich nur Betriebe, die auch Bewerbungen von dieser Gruppe erhalten habe, analysiere, habe ich auch den Betrieben eine 0 gegeben, da sie sich zumindest gegen die Einstellung einer Bewerbers dieser Gruppe entschieden haben.

PonderStibbons hat geschrieben:Oder auch gleichverteilt, binominalverteilt usw. Ist das im Kontext Deiner Analyse wichtig?

Falls es Modelle gibt, die diese Verteilung analysieren können, wäre das wichtig. Dann kenne ich diese Modelle wahrscheinlich nicht.
Die Variable enthält vor allem viele 0% (etwa 40% der Fälle) und viele 50% & 100% (jeweils 10% der Fälle). Der restlichen Fälle sind ungefähr gleich dazwischen verteilt.

PonderStibbons hat geschrieben:Wie lautet denn ganz genau und ganz konkret die Fragestellung? Welche Art Firmen wurden rekrutiert und wie viele?

Es wurden alle Unternehmen befragt, die Ausbildungsplätze anbieten. Die Fragestellung lautet: Welche Firmencharakteristika führen zu besseren Chancen von Arbeitnehmern mit Migrationshintergrund?
Ursprünglich liegen die Variablen als Anzahl vor (Anzahl eingestellte Arbeitnehmer bzw. Anzahl eingestellte Arbeitnehmer mit Migrationshintergrund). Daher meine Idee mit der negativ-binomial Regression unter Kontrolle der gesamten Anzahl eingestellter Arbeitnehmer.

Viele Grüße
PH

PonderStibbons · von **PonderStibbons** » Do 25. Jan 2024, 16:04

Da ich nur Betriebe, die auch Bewerbungen von dieser Gruppe erhalten habe, analysiere, habe ich auch den Betrieben eine 0 gegeben, da sie sich zumindest gegen die Einstellung einer Bewerbers dieser Gruppe entschieden haben.

Da könnte sich was vermischen. Hast Du eigentlich auch die Zahl der Bewerbungen aus den einzelnen Gruppen,
nicht nur die Zahl der Eingestellten?

PonderStibbons hat geschrieben:Oder auch gleichverteilt, binominalverteilt usw. Ist das im Kontext Deiner Analyse wichtig?

Falls es Modelle gibt, die diese Verteilung analysieren können, wäre das wichtig. Dann kenne ich diese Modelle wahrscheinlich nicht.

Ich kenne keine Modelle, bei denen die abhängige Variable normalverteilt sein muss.

Es wurden alle Unternehmen befragt, die Ausbildungsplätze anbieten. Die Fragestellung lautet: Welche Firmencharakteristika führen zu besseren Chancen von Arbeitnehmern mit Migrationshintergrund?

Das ist keine allzu konkrete Fragestellung, zumindest wenn man hier die Methodik diskutieren will. Wie ist "Chance"
denn definiert? Anteil schlussendlich eingestellter Azubis mit Migrationshintergrund an allen Azubis? Die Wahrscheinlichkeit
für einen Menschen mit Migrationshintergrund, mit seiner Bewerbung einen Ausbildungsplatz zu erhalten? Der
Unterschied kann erheblich sein.
Nebenbei ist Deine Formulierung auch unklar; geht es nicht um die Chancen von nicht-Arbeitnehmern, die sich
erst noch darum bewerben, Arbeitnehmer zu werden?

Daher meine Idee mit der negativ-binomial Regression unter Kontrolle der gesamten Anzahl eingestellter Arbeitnehmer.

Wie hat man sich das Modell und die Ergebnisinterpretation vorzustellen?

Und wie gesagt, was sind das für Firmen, wie wurden die rekrutiert, wie viele sind in der Stichprobe?

Mit freundlichen Grüßen

PonderStibbons

pheyer · von **pheyer** » Fr 26. Jan 2024, 12:27

Hallo und vielen Dank für die ausführliche Antwort.

PonderStibbons hat geschrieben:Da könnte sich was vermischen. Hast Du eigentlich auch die Zahl der Bewerbungen aus den einzelnen Gruppen,
nicht nur die Zahl der Eingestellten?

Ich habe die Zahl der Bewerber sowie der eingestellten jeweils mit und ohne Migrationshintergrund.

PonderStibbons hat geschrieben:Das ist keine allzu konkrete Fragestellung, zumindest wenn man hier die Methodik diskutieren will.

Das stimmt, konkreter formuliert ist es eigentlich: Stellen Unternehmen mit bestimmten Eigenschaften (bzw. in bestimmten Situationen wie etwa Fachkräftemangel) eher Menschen mit Migrationshintergrund (mM) ein? (In meinem Fall tatsächlich Auszubildende mit Migrationshintergrund).
Ich habe dazu Daten von etwa 800 Betrieben, aus allen Branchen und in allen Größen repräsentativ für Deutschland. Die Grundgesamtheit ist dementsprechend alle deutschen Betriebe. Ich habe Informationen zu Branche, Größe, Qualifikationsniveau der Mitarbeiter und auch ihren Migrationshintergrund. Für Ausbildungsberufe, dies ist die Ebene die ich mir anschaue, werden deutschlandweit die Anzahl der Ausbildungsplatzangebote und Bewerber, erhoben. So kann man beurteilen, wie beliebt die Ausbildungen sind, die ein Unternehmen angeboten hat. Außerdem wurde konkret die Anzahl unbesetzter Ausbildungsplätze erhoben.

Meine Frage ist vor allem, wie ich am besten die abhängige Variable bilde. Ist der Anteil eingestellter Auszubildender (mM) an allen eingestellten Auszubildenden am besten. Oder der Anteil Eingestellter mM an den Bewerbern mM?
Die Verteilung der Werte sieht für mich sehr ungewöhnlich aus und ist stark abhängig von der Anzahl generell eingestellter Auszubildender: Hatte man ohnehin nur 3 Stellen erreicht man bei 1 Einstellung mM bereits 33% Einstellungen mM, hat man 15 Stellen muss man für denselben Wert 5 Auszubildende mM einstellen. Hat man nur 2 Stellen kann man 33% gar nicht erreichen.
Daher war meine Idee, die Variable so, wie sie erhoben wurde, zu analysieren: Anzahl der eingestellter Auszubildenden mM. Kontrolliert für die Anzahl der Bewerbungen mM und der gesamten Zahl der eingestellten Auszubildenden.
Für die Analyse von Count data mit hohem Anteil 0 gibt es Methoden: Zero-inflated Poisson oder Negativ-binomial Regressionen.
Ich würde dann die Effekte der Variablen, bspw. die Beliebtheit der angebotenen Stellen, unter konstant halten der Bewerber mM und Anzahl eingestellter Auszubildender insgesamt interpretieren.
Allerdings sind diese beiden Variablen keine Confounder der Beliebtheit angebotener Stellen sondern nur starke Indikatoren für die Anzahl eingestellter Auszubildender mM. Daher bin ich unsicher, ob ich das Modell so schätzen kann.
Insgesamt funktioniert das Modell mit negativ-binomial Regressionen besser (bspw. Normalverteilung der Residuen).

Vielen Dank für die Kommentare!
Viele Grüße
PH

PonderStibbons · von **PonderStibbons** » Fr 26. Jan 2024, 14:36

Ich habe die Zahl der Bewerber sowie der eingestellten jeweils mit und ohne Migrationshintergrund.

Klingt interessant. Zahl der Bewerbungen in jeder der beiden Gruppen könnte auch ein Prädiktor sein.
Oder gegebenenfalls Bestandteil einer abhängigen Variable (Anteil erfolgreicher an allen Bewerbungen).
Dabei würde das Problem der Divion durch 0 bei den "niemand eingestellt"-Fälle sich nicht stellen.

Meine Frage ist vor allem, wie ich am besten die abhängige Variable bilde. Ist der Anteil eingestellter Auszubildender (mM) an allen eingestellten Auszubildenden am besten. Oder der Anteil Eingestellter mM an den Bewerbern mM?

Wie oben gesagt, Du kannst für jede dieser beiden möglichen AVs eine eigene Analyse machen.
Oder "Anzahl Bewerbungen" bzw. "Anzahl Bewerbungen pro Stelle" könnte evtl. ein relevanter
Prädiktor sein. Mehr Bewerbungen pro Stelle bedeutet mehr im Normalfall mehr hochwertige
Bewerbungen. Wenn die Unternehmenspolitik allerdings mit Quoten arbeitet, werden bei
wenigen Bewerbungen aus einer Gruppe auch weniger qualifizierte Bewerber genommen.

Die Verteilung der Werte sieht für mich sehr ungewöhnlich aus und ist stark abhängig von der Anzahl generell eingestellter Auszubildender: Hatte man ohnehin nur 3 Stellen erreicht man bei 1 Einstellung mM bereits 33% Einstellungen mM, hat man 15 Stellen muss man für denselben Wert 5 Auszubildende mM einstellen. Hat man nur 2 Stellen kann man 33% gar nicht erreichen.

Das leuchtet ein. Vor linearen Regressionsanalysen mit Verhältniszahlen wird seit langem eindringlich gewarnt.
Eine Lösung im Rahmen von linearen Regressionen gibt es schon länger https://www.jstor.org/stable/2983064 ,
https://stats.stackexchange.com/questio ... 465#410465
meine Kenntnisse in theoretischer Statistik reichen aber nicht so weit, dass ich sie fehlerfrei beschreiben könnte.

Alternativ Poisson leuchtet mir ein, aber ob die Adjustierung ("Konstanthalten" ist zwar ein Wunsch, aber
nicht realisierbar) mit der Zahl offener Stellen zu problemlos interpretierbaren Resultaten führt, weiß
ich nicht, daher meine Frage. Einen Einwand gegen Poisson gibt es hier https://hansjoerg.me/2019/05/10/regress ... regression
Demselben Artikel zufolge ist die beta-Regression eine mögliche Alternative.

Mit freundlichen Grüßen

PonderStibbons

STATISTIK-FORUM.de

Analyse von Anteilen oder Count data?

Analyse von Anteilen oder Count data?

Re: Analyse von Anteilen oder Count data?

Re: Analyse von Anteilen oder Count data?

Re: Analyse von Anteilen oder Count data?

Re: Analyse von Anteilen oder Count data?

Re: Analyse von Anteilen oder Count data?

Wer ist online?