STATISTIK-FORUM.de

Jounas · von **Jounas** » Sa 27. Apr 2019, 01:03

Guten Abend,

ich schreibe zurzeit eine Hausarbeit in der ich zwei (Total-)Erhebungen miteinander vergleiche. Im Folgenden erläutere ich die Beschaffenheit der Datensätze und meine Ansätze.

Mein erster Datensatz gibt an, wieviele Bäume einer Art in ha in Deutschland existieren. Pro Baumart habe ich also eine bestimmte Anzahl an Hektar gegeben. Es wird sich in diesem Datensatz auf 10 verschiedene Bäume beschränkt. Dieser Datensatz entspricht der tatsächlichen Verteilung in Deutschland.

Mein zweiter Datensatz wurde von mir anhand von Satellitendaten + Bodendaten zusammengefügt. Dieser ermittelt anhand bestimmter Kriterien auf welchem Hektar welche Baumart am besten wäre. Dieses ist meine theoretisch optimale Verteilung ebenfalls in ha.

Ich will nun eine Kennzahl erstellen, die aussagt, wie "optimal" die tatsächliche Verteilung ist. Dafür habe ich beide Datensätze in Prozentzahlen (bzw. zwischen 0 und 1)umgerechnet (z.B 0,2 Eiche, 0,3 Tanne etc.). Bis jetzt habe ich für jede Baumart die Distanz zwischen den Datensätzen mittels der Manhattan-Metrik (oder lieber Euklidische Metrik, wegen Gewichtung?) ermittelt. Die Summer der Distanzen habe ich dann durch 2 geteilt, da 2 die größtmögliche Abweichung vom Optimum ist. Anschließend subtrahiere ich 1 mit dem Ergebnis, damit 1 perfekte Annäherung ist und 0 perfekte Abweichung.

$1-\frac{ \Sum{ 1 }{ 10 }{ \left\lvert Datensatz1(i)-Datensatz2(i) \right\rvert } }{ 2 }$

Bis jetzt habe ich Prozentzahlen benutzt, da die Summe der Flächen der Baumarten bei beiden Datensätze unterschiedlich sind. Somit ist die Gesamtfläche unterschiedlich (ca. 5-15%). Ist dies wirklich besser oder sollte ich mit den tatsächlichen Flächen rechnen?
Außerdem habe ich bei dem tatsächlichen Datensatz keine Ortsangaben. Diese habe ich nur bei meinem erstellten Datensatz.

Leider bin ich mir nach wie vor unsicher, ob ich die beste Variante für meine Kennzahl gewählt habe. Über Anmerkungen, Rückfragen, Ideen oder Literaturvorschläge wäre ich sehr dankbar.

Ein schönes Wochenende und liebe Grüße
Jonas

Jounas · von **Jounas** » Sa 27. Apr 2019, 01:05

PonderStibbons · von **PonderStibbons** » Sa 27. Apr 2019, 09:06

Wenn die tatsächliche Fläche der wünschenswerten Fläche ganz nahekommt, heißt das dann, dass der betreffende Baum tatsächlich an den optimalen Orten steht?

Desungeachtet, was spricht gegen Korrelation (auf Basis der Flächengrößen und/oder der Flächenanteile) mit n=10?

Mit freundlichen Grüßen

PonderStibbons

folgende User möchten sich bei PonderStibbons bedanken:
Jounas

Jounas · von **Jounas** » Sa 27. Apr 2019, 12:16

Danke für deine Antwort!
Wenn die tatsächliche Flächenverteilung der wünschenswerten Flächenverteilung nahekommt, würden die Bäume theoretisch an der richtigen Stelle stehen. Praktisch kann ich das nicht überprüfen, wo die Bäume tatsächlich stehen.
Aber durch die Bodendaten, kann ich sehen, welcher Baum wo am besten wachsen würde. Die tatsächliche Verteilung der Bäume ohne angegebenen Ort lässt natürlich Fehler und Ausreißer zu, die ich nicht abfangen kann.

Ich hatte auch überlegt eine Korrelationsmaß zu nehmen. Allerdings habe ich gelesen, dass bei diesen untersucht wird, ob ein linearer Zusammenhang zwischen zwei Merkmalen, Zuständen etc. überprüft wird. Dies muss aber bei der Verteilung der Flächen und deren Reihenfolge nicht zwangsläufig der Fall sein. Oder muss ich ein Merkmal in die richtige Rangfolge der Größe nach bringen und dann berechnen?
Wie findest du den Ansatz über die Distanz zwischen den einzelnen Datenpunkten?

[table border=1 cellpadding=0 cellspacing=0 width=100% height=50px] [tr] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]10ha[/td] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]15ha[/td] [/tr] [tr] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]5ha[/td] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]6ha[/td] [/tr] [tr] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]7ha[/td] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]8ha[/td] [/tr] [tr] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]20ha[/td] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]18ha[/td] [/tr] [tr] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]3ha[/td] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]4ha[/td] [/tr] [tr] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]INHALT 11[/td] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]5ha[/td] [/tr] [tr] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]20ha[/td] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]10ha[/td] [/tr] [tr] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]11ha[/td] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]13ha[/td] [/tr] [tr] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]3ha[/td] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]9ha[/td] [/tr] [tr] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]6ha[/td] [td align=center valign=middle bordercolor=#666666 bgcolor=#CCCCCC]5ha[/td] [/tr][/table]

Liebe Grüße
Jonas

Jounas · von **Jounas** » Sa 27. Apr 2019, 12:17

N D1 D2
1 10 12
2 5 13
3 20 5
4 12 12
5 6 14
6 40 10
...
---
Als Beispiel Wertetabelle

PonderStibbons · von **PonderStibbons** » So 28. Apr 2019, 10:01

Die Formel sagt mir leider nichts. Ohne Referenzen könnte ein Gutachter skeptisch sein.

Mit freundlichen Grüßen

PonderStibbons

folgende User möchten sich bei PonderStibbons bedanken:
Jounas

strukturmarionette · von **strukturmarionette** » So 28. Apr 2019, 10:54

Hi,

eine Hausarbeit in der ich zwei (Total-)Erhebungen miteinander vergleiche.

die Summe der Flächen der Baumarten bei beiden Datensätze unterschiedlich sind

- es kann sich somit nicht um zwei 'Totalerhebungen´ handeln.

Mein zweiter Datensatz wurde von mir anhand von Satellitendaten + Bodendaten zusammengefügt.

- wie?
- wie ist Mischwald konzipiert?

Gruß
S.

folgende User möchten sich bei strukturmarionette bedanken:
Jounas

Jounas · von **Jounas** » So 28. Apr 2019, 12:48

Danke für eure Antworten!

eine Hausarbeit in der ich zwei (Total-)Erhebungen miteinander vergleiche.

die Summe der Flächen der Baumarten bei beiden Datensätze unterschiedlich sind

- es kann sich somit nicht um zwei 'Totalerhebungen´ handeln.

Ist dann das eine eine Totalerhebung und das andere eine Approximation? Und wie gehe ich mit den unterschiedlich großen Flächen in meinem Vergleich um?
Dennoch nehme ich für die Approximation ja alle mir zur Verfügung stehenden Werte.

Mein zweiter Datensatz wurde von mir anhand von Satellitendaten + Bodendaten zusammengefügt.

- wie?
- wie ist Mischwald konzipiert?

Ich habe in Satellitenbildern zuerst Wälder und Gehölze isoliert und dann mit einem zweiten Datensatz über die Bodenbeschaffenheit (in Form eines GeoTiffs) die einzelnen Pixel ausgewertet. Also sandiger Boden, lehmiger Boden, felsig etc. Für die einzelnen Bäume habe ich dann bestmögliche Wachstumskriterien festgelegt. Mischwälder werden vernachlässigt. Pro Hektar (1 Hektar = 1 Pixel) wird jeweils nur die bestmögliche Baumart berücksichtigt. Diese Ungenauigkeit ist aber durch die Aufgabenstellung erlaubt.

Ich probiere eine Kennzahl zu erstellen, wie gut die Approximation an die Realität ist. Bis jetzt habe ich dafür eine Form der Minkowski Metrik, die Manhattan Metrik verwendet, als Basis für meine Kennzahl. Damit messe ich den Abstand von den prozentualen Anteilen einer Baumart. Also z.B. tatsächlich Eiche 0,2 (20%) und Approximiert Eiche 0,3 (30%). Die Abstände addiere ich und normiere sie mit /2 auf einen Raum zwischen 0-1.

Sollte ich lieber den korrigierten Kontingenzkoeffizienten benutzen?

Vielen Dank für Eure Hilfe bis jetzt und einen schönen Sonntag.
Liebe Grüße
Jonas

Jounas · von **Jounas** » So 28. Apr 2019, 13:27

Um meine Frage vielleicht nochmal zu präzisieren: Wie vergleiche ich zwei Datenreihen mit jeweils N=10 am besten miteinander? Eventuell unter Berücksichtigung der unterschiedlichen Größe der Grundgesamtheiten.

PonderStibbons · von **PonderStibbons** » So 28. Apr 2019, 15:33

Ich weiß nicht, ob ich die Problemlage korrekt interpretiert habe, aber gängig wäre der Intraclass Correlation Coefficient.

Mit freundlichen Grüßen

PonderStibbons

STATISTIK-FORUM.de

Hilfestellung: Datenvergleich

Hilfestellung: Datenvergleich

Re: Hilfestellung: Datenvergleich

Re: Hilfestellung: Datenvergleich

Re: Hilfestellung: Datenvergleich

Re: Hilfestellung: Datenvergleich

Re: Hilfestellung: Datenvergleich

Re: Hilfestellung: Datenvergleich

Re: Hilfestellung: Datenvergleich

Re: Hilfestellung: Datenvergleich

Re: Hilfestellung: Datenvergleich

Wer ist online?