Liebe Alle,
Zuerst - meine Statistikkurse liegen leider etwas zurück, daher hoffe ich, dass ihr mir Anregungen geben könnt in welche Richtung ich mich wieder weiter informieren muss, oder eventuell auch ob das hier vielleicht gar nicht geht.
Ich habe eine Datenbank mit ein paar hundert Firmen (Grundgesamtheit) aus einer Region aus einer ähnlichen Branche. Von allen Firmen liegt mir aus dem Unternehmensregister die Bilanzsumme vor. Von den großen und mittleren Kapitalgesellschaften liegt ebenso der Umsatz und Mitarbeiterzahlen vor. Durch einen quantitativen Survey (keine Zufallsstichprobe) habe ich ebenfalls noch einmal weitere Zahlen zu ( gemitteltem ) Umsatz und Mitarbeiteranzahl.
Nun würde ich gern die Gesamtgröße des Clusters schätzen in Umsatz und in Mitarbeiterzahlen. Ich habe mir die Umsätze-Bilanzsumme, Mitarbeiter-Bilanzsumme und Mitarbeiter-Umsätze in Punktediagrammen angesehen und bei allen ein hohes Bestimmtheitsmaß errechnen können (- ich weiß Pearson setzt linearität aus, es scheint mir auch eher linear zu sein). In den ersten beiden Fällen ist die Bilanzssumme in meinem Verständnis die abhängige Variable weil sie vom Umsatz beeinflusst wird (umso höher der Umsatz, desto höher auch die Bilanzsumme). Natürlich spielen da noch viele weitere Faktoren eine Rolle - aber dazu gibt es keine Daten und auch keine Möglichkeit diese zu erheben.
Daher dachte ich ich könnte mit einer linearen Regression eventuell die fehlenden Umsatzwerte und Mitarbeiterzahlen errechnen und das ganze dann aufsummieren und als GROBE Schätzung des Clusters nehmen. Völlig falsch? Lieber anders rechnen? Ich bin dankbar für jeden Input.
KR