Lohnregression

Alle Verfahren der Regressionanalyse.

Lohnregression

Beitragvon Kessi2017 » Mo 5. Okt 2020, 08:18

Liebe Foren-Nutzer,

in meinem Beruf beschäftige ich mich ich aktuell mit der Vorhersage von individuellen Gehältern. Uns steht ein Datensatz mit einem Umfang von ca. 2000 Mitarbeitern zur Verfügung. Für jeden Mitarbeiter haben wir Informationen zu Funktion, Level, Berufserfahrung etc.. Um nun den Lohn für einen neu einzustellenden Mitarbeiter vorherzusagen, haben wir an eine Lohnregression gedacht.

Nun würden wir den neueingestellen Mitarbeiter jedoch gerne nach der Vorhersage in unseren Datensatz mitaufnehmen - mit der Besonderheit, dass wir für diesem Mitarbeiter weitere Variablen (z.B. besondere Fähigkeiten, Abschluss etc.) kennen und diese gerne im Nachhinein zum Regressionmodell hinzufügen würden.

Meine Frage lautet nun: Wie können wir das am besten umsetzen?
Ich habe mich ein bisschen mit dem Thema Machine Learning beschäftigt und dachte vielleicht eine eine Lösung mit Trainingsdatenset und Testdatenset, wobei das Testdatenset immer um den jeweils neuen Mitarbeiter erweitert wird. Aber macht das überhaupt Sinn?

Ich würde mich sehr über euer Feedback freuen!

Danke und LG,
Kessi
Kessi2017
Beobachter
Beobachter
 
Beiträge: 17
Registriert: Fr 16. Mär 2018, 09:28
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Lohnregression

Beitragvon bele » Mo 5. Okt 2020, 08:39

Hallo Kessi,

was Sinn macht oder nicht hängt von Deinem Betriebsumfeld ab. Was sollte (außer vielleicht Datenschutz und Persönlichkeitsrechten) dagegen sprechen, mit einer Regression den Lohn eines neuen Mitarbeiters aus seinen Fähigkeiten abzuleiten? Ob man dafür dann immer ein Testdatenset vorhalten muss und wie man die neuen Variablen am besten einbezieht wird man anhand der Details entscheiden müssen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

Re: Lohnregression

Beitragvon Kessi2017 » Mo 5. Okt 2020, 09:42

Hi Bernhard,

danke für deine schnelle Antwort.

Anhand welcher Details müsste man das entscheiden?

Womit ich mir etwas unsicher bin ist, dass die neuen Variablen ja nur für die neu eingestellten Mitarbeitern gegeben sind. Bei den Bestandmitarbeitern fehlen uns die Angaben (z.b. zum Bildungsabschluss) dagegen. Stellt das ein Problem für das Modell dar?

Danke und LG,
Kerstin
Kessi2017
Beobachter
Beobachter
 
Beiträge: 17
Registriert: Fr 16. Mär 2018, 09:28
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Lohnregression

Beitragvon bele » Mo 5. Okt 2020, 14:12

Kessi2017 hat geschrieben:Stellt das ein Problem für das Modell dar?


Hallo Kessi,

es gibt nicht "das Maschinenlernmodell". Maschinenlernen ist ein Überbegriff für eine Vielzahl von Grundideen die man dann teils wieder auf hundert Weisen anwenden und anpassen kann.

Eine für Deinen Fall attraktiv erscheinende Gruppe von Modellen wäre ein RandomForest. Dabei werden tausende von Regressionbäumen erstellt, die dabei aber jeweils nur auf einen Teil der Datensätze und auf einen Teil der Variablen zugreifen dürfen. Die Gesamtvorhersage ist der Mittelwert dieser tausenden von Regressionbäumen. Wenn nun am Anfang keine Daten zum Bildungsabschluss vorliegen, dann werden anfangs nur Bäume ohne Berücksichtigung von Bildungsabschluss erstellt. Wenn irgendwann genug Datensätze mit Bildungsabschluss vorliegen, dann wird irgendwann ein Bäumchen wachsen, bei dessen Erstellung nur Kandidaten mit Bildungsabschluss beteiligt sind und dann wird dieses Bäumchen Informationen zum Bildungsabschluss aufnehmen und zum Gesamtergebnis beitragen. Der Einfluss von "Bildungsabschluss" würde sehr langsam wachsen aber eben ganz natürlich.

Wenn man hingegen ein OLS Modell verwenden will, dann kann das mit fehlenden Daten gar nicht umgehen. Da müsste man dann über Datenimputation nachdenken, wobei es wieder üppig viele Varianten gäbe. Im einfachsten Fall setzt man für alle bisherigen Mitarbeiter einen Bildungsabschlusswert ein, den man für den bisher durchschnittlichen Abschluss hält. Dann würde das Modell recht schnell anfangen, Bildungsabschlussinformation zu verwerten - würde aber auch auf ewig die imputierten und daher falschen Informationen mit sich herumschleppen.

Es reicht also nicht, nur "Maschine Learning" zu sagen, so wie es nicht reicht "mit dem Computer rechnen" zu sagen, um Details zu diskutieren.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 10 Gäste

cron