Moin,
ich studiere digitale BWL und habe vor Kurzem den Kurs "Statistical Computing", in welchem wir eine Fallstudie bearbeiten müssen, begonnen. Leider habe ich noch nie was mit Statistik und/oder Programmieren im weitesten Sinne etwas zu tun gehabt.
Zum Hintergrund die Aufgabenstellung:
"Hintergrund: Die neu gegründete wohltätige Organisation WealthyGrowth finanziert Kampagnen für Wirtschaftswachstum in Entwicklungsländern. Diese Kampagnen beinhalten oft sowohl politische Arbeit als auch Werbekampagnen in der Bevölkerung. Ziel dieser Kampagnen ist die Steigerung des GDPs per capita. In einem ersten Brainstorming Deiner Arbeitsgruppe wurden folgende Ansätze/Hypothesen aufgestellt:
a. Wichtigster Ansatzpunkt ist eine höhere Bildung der breiten Bevölkerung. Die Kampagne sollte eine Schulpflicht für weiterführende Bildung als Ziel haben.
b. Zentral ist die Rolle der Frau. Je mehr Frauen erwerbstätig sind, desto größer ist die verfügbare gesamte Arbeitskraft eines Landes. Die Kampagne sollte dementsprechend die Stellung der Frau im Beruf stärken und für eine Erwerbstätigkeit von Frauen werben.
c. Der wichtigste Faktor für die verfügbare gesamte Arbeitskraft eines Landes ist die Lebenserwartung der Bevölkerung. Die Kampagne sollte also Maßnahmen zur Erhöhung der Lebenserwartung fokussieren.
Eine erste Datenanalyse auf frei verfügbaren Daten soll schnellen Aufschluss über das Potential dieser Ansätze/Hypothesen geben.
Aufgabenstellung:
1. Lade die relevanten Indikatoren von der World Bank Open Data Webseite herunter. Darunter sollten sich die folgenden Datensätze für die Jahre 2000-2019 befinden: “GDP per capita”, die “Fertility Rate” (als Indikator für den Anteil erwerbstätiger Frauen) und die “Life expectancy at birth”. Weitere Indikatoren können hilfreich sein, um die Fragestellung zu beantworten.
2. Bereinige die Datensätze um Länder, für die in mindestens einem Indikator für zu wenige Jahre Daten zur Verfügung stehen (z.B. für weniger als 30% der Jahre).
3. Nutze lineare Regression, um die fehlenden Werte zu interpolieren.
4. Formuliere einen Ansatz, wie man für Kampagne c. die Lebenserwartung steigern könnte (wie in der Fallbeschreibung bereits für a. und b. getan). Schlage Indikatoren vor, mit denen man den Einfluss dieses Faktors auf die Lebenserwartung plausibilisieren kann.
5. Nutze Korrelationsanalysen, um die oben aufgestellten Hypothesen a.-c. zu diskutieren. Formuliere aufbauend auf den bisherigen Analysen eine Empfehlung für eine der genannten Kampagnen und/oder erläutere weitere Analysen, die vor einer Entscheidungsfindung notwendig wären.
6. Dokumentiere alle technischen Schritte Deiner Berechnungen, damit andere Kolleg:innen (und der/die Korrektor:in dieser Fallstudie) die Berechnungen nachvollziehen und reproduzieren können und die Analyse verstehen oder auch leicht anpassen könnten."
Die Teilaufgaben (TA) 1. und 2. habe ich bereits "erledigt".
Ich habe mich aufgrund fehlender Kenntnisse (vorerst) dazu entschieden zu versuchen die Aufgabe mit Excel zu lösen.
So habe ich für (TA2) die Tabelle (s. Bild) exemplarisch bereinigt.
Meine Frage dazu: Wie komme ich mithilfe der linearen Regression dazu die beispielhaften Werte für AFG in E/4 und F/4 zu berechnen? Habe ich den Datensatz für die X-Achse, als Konstante falsch gewählt?
Ich sehe den Kurs (noch) als Herausforderung, mit dem Potenzial zur Hölle zu werden , an und bin dankbar für jeden Tipp.
LG