ich schreibe zurzeit eine Hausarbeit in der ich zwei (Total-)Erhebungen miteinander vergleiche. Im Folgenden erläutere ich die Beschaffenheit der Datensätze und meine Ansätze.
Mein erster Datensatz gibt an, wieviele Bäume einer Art in ha in Deutschland existieren. Pro Baumart habe ich also eine bestimmte Anzahl an Hektar gegeben. Es wird sich in diesem Datensatz auf 10 verschiedene Bäume beschränkt. Dieser Datensatz entspricht der tatsächlichen Verteilung in Deutschland.
Mein zweiter Datensatz wurde von mir anhand von Satellitendaten + Bodendaten zusammengefügt. Dieser ermittelt anhand bestimmter Kriterien auf welchem Hektar welche Baumart am besten wäre. Dieses ist meine theoretisch optimale Verteilung ebenfalls in ha.
Ich will nun eine Kennzahl erstellen, die aussagt, wie "optimal" die tatsächliche Verteilung ist. Dafür habe ich beide Datensätze in Prozentzahlen (bzw. zwischen 0 und 1)umgerechnet (z.B 0,2 Eiche, 0,3 Tanne etc.). Bis jetzt habe ich für jede Baumart die Distanz zwischen den Datensätzen mittels der Manhattan-Metrik (oder lieber Euklidische Metrik, wegen Gewichtung?) ermittelt. Die Summer der Distanzen habe ich dann durch 2 geteilt, da 2 die größtmögliche Abweichung vom Optimum ist. Anschließend subtrahiere ich 1 mit dem Ergebnis, damit 1 perfekte Annäherung ist und 0 perfekte Abweichung.
Bis jetzt habe ich Prozentzahlen benutzt, da die Summe der Flächen der Baumarten bei beiden Datensätze unterschiedlich sind. Somit ist die Gesamtfläche unterschiedlich (ca. 5-15%). Ist dies wirklich besser oder sollte ich mit den tatsächlichen Flächen rechnen?
Außerdem habe ich bei dem tatsächlichen Datensatz keine Ortsangaben. Diese habe ich nur bei meinem erstellten Datensatz.
Leider bin ich mir nach wie vor unsicher, ob ich die beste Variante für meine Kennzahl gewählt habe. Über Anmerkungen, Rückfragen, Ideen oder Literaturvorschläge wäre ich sehr dankbar.
Ein schönes Wochenende und liebe Grüße
Jonas