Streuung, z-Standardisierung

Alles rund um Clusteranalysen.

Streuung, z-Standardisierung

Beitragvon crazyymaybe » Fr 18. Jan 2019, 14:23

Hallo zusammen,

ich bin grade bei der Auswertung meiner Daten und habe noch einige Fragen bezüglich der Clusteranalyse.
Vorweg: Die Clusteranalyse ist für mich Neuland.

In den Büchern und auf Seiten, die ich gelesen habe steht, dass eine Vorraussetzung der Clusteranalyse (ich werde eine herarchische Clusteranalyse durchführen) ist, dass die einfließenden Variablen ausreichend streuen müssen, da sonst keine Unterscheidung getroffen werden kann. Das verstehe ich auch - nur kann ich leider nicht herausfinden, woran - bzw. anhand welcher Methode und Werte ich erkennen kann/entscheiden soll, dass die Variable in die Analyse rein- oder nichtreingeht. (Abgesehen von der Häufigkeitsverteilung) - Gibt es hier bestimmte - Maße bezüglich metrisch skalierter Variablen?

Dann wurde mir gesagt - obwohl meine Variablen alle metrisch sind (6er) Skala - trotzdem im Vorfeld eine z-Standardisierung durchzuführen. Ich weiß, dass dies empfohlen wird bei unterschiedlich skalierten Variablen, aber mir ist das Prozedere bei einheitlich Skalierten Variablen nicht geläufig, bzw. was kann der Grund dafür sein?

Plus weitere Fragen: Kann ich auch binäre Variablen (ja/nein) Z- Standadisieren, und: habe einige Male gelesen, dass die oben genannte Voraussetzung bezüglich der Normalverteilung genau duch eine Z-Standadisierung gelöst werden kann... Kann mir das jemand vllt. erklären?

Wie gesagt, ich verstehe alles grob, aber manche Dinge werden in Büchern unklar formuliert bzw. es wird nur gesagt "Voraussetzung, dass ... weil das" aber wie man das Problem nun behebt - nunja, dafür geben sie keine Lösung...

Viele Grüße

D.
crazyymaybe
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Fr 18. Jan 2019, 14:13
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Streuung, z-Standardisierung

Beitragvon PonderStibbons » Fr 18. Jan 2019, 15:06

ich bin grade bei der Auswertung meiner Daten und habe noch einige Fragen bezüglich der Clusteranalyse.

Was für Daten und Clusteranalyse mit welchem Ziel?
Gibt es hier bestimmte - Maße bezüglich metrisch skalierter Variablen?

Mir sind noch nie welche begegnet. Man muss das anhand seiner inhaltlichen Sachkunde
betreffend des Studienthemas und der Auswertungsziele beurteilen.
Dann wurde mir gesagt - obwohl meine Variablen alle metrisch sind (6er) Skala - trotzdem im Vorfeld eine z-Standardisierung durchzuführen.

Eigentlich ordinal.
Ich weiß, dass dies empfohlen wird bei unterschiedlich skalierten Variablen, aber mir ist das Prozedere bei einheitlich Skalierten Variablen nicht geläufig, bzw. was kann der Grund dafür sein?

Varianzen der wenig streuenden Variablen und der viel streuenden Variablen einander
angleichen und ihnen so bei der Clusterung das gleiche Gewicht verleihen. Was eine
Verzerrung bedeuten könnte.
Plus weitere Fragen: Kann ich auch binäre Variablen (ja/nein) Z- Standadisieren

Nein.
, und: habe einige Male gelesen, dass die oben genannte Voraussetzung bezüglich der Normalverteilung genau duch eine Z-Standadisierung gelöst werden kann... Kann mir das jemand vllt. erklären?

Das kann man nicht erklären, das ist ein anscheinend unausrottbarer Unfug.
Die Stichproben 1 2 3 4 5 6 oder 2 2 2 2 2 2 2 kriege ich nicht "normalverteilt",
indem ich sie z-standardisiere (von allen Werten den Mittelwert abziehe und
sie durch die Standardabweichung teile). Es ist lediglich so, dass aus einer
beliebigen Normalverteilung durch die z-Standardisierung die so genannte
Standard-Normalverteilung entsteht.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Streuung, z-Standardisierung

Beitragvon crazyymaybe » Fr 18. Jan 2019, 16:09

Vielen Dank für die Antworten :)

PonderStibbons hat geschrieben:
Was für Daten und Clusteranalyse mit welchem Ziel?


Es geht darum bestimmte "Akzeptanz"- Typen zu bilden anhand von Einstellungsitems bzg. einer gewissen Technologie, d.h. es gibt verschiedene Aussagen bzw. der Leistungserwartung.

Bsp.1: "Technologie XY bringt einige Vorteile mit sich inwiefern schätzen Sie ein, dass folgende Vorteile eintreffen?"
z.B. Verkürzung der Reisezeit (6er Skala: Höhst unwahrscheinlich - höchst wahrscheinlich"

Bsp.2: "Inwiefern stimmen Sie folgenden Aussagen zu? "Es wäre einfach für mich Technoologie XY zu bedienen" " (stimme überhaupt nicht zu - stimme voll und ganz zu"

Mir sind noch nie welche begegnet. Man muss das anhand seiner inhaltlichen Sachkunde
betreffend des Studienthemas und der Auswertungsziele beurteilen.


Ok, da in den Büchern geschrieben wird, dass durch eine minimale Streuungen die Analyse beeinträchtigen kaönnen in dem sie eine „Nivellierung der Unterschiede zwischen den Objekten betragen und somit Verzerrungen bei der Fusionierung hervorrufen können“ (Backhaus 2018, S. 492). Nur steht leider nichts darüber, was nun darunter konkret zu verstehen ist, ala Grenzwert etc.

Eigentlich ordinal


Prinzipiell, bei likert- kann ich doch auch metrisch annehmen? Oder habe ich das falsch im Kopf?

Varianzen der wenig streuenden Variablen und der viel streuenden Variablen einander
angleichen und ihnen so bei der Clusterung das gleiche Gewicht verleihen. Was eine
Verzerrung bedeuten könnte.


D.h. aber im Umkehrschluss nicht, dass ich plötzlich die wenig streuenden Variablen (s. oben - die, die ich ja theoretisch Ausschließen MUSS) behalten könnte, doch dies führt zu oben genannten Verzerrung? (s. Backhaus oben).

Also brauche ich (wenn ich bei meiner 6er Skala bleibe (also alle Variablen, die auf dieser gemessen werden) keine Z-Standardisierung durchführen, wenn ich im Vorfeld die wenig-streuuenden Variablen augeschlossen habe.

Auch wenn ich S. erster Punkt unterschiedliche Skalenbeschriftungen verwende?

Viele Grüße

D.
crazyymaybe
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Fr 18. Jan 2019, 14:13
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Streuung, z-Standardisierung

Beitragvon PonderStibbons » Fr 18. Jan 2019, 18:26

D.h. aber im Umkehrschluss nicht, dass ich plötzlich die wenig streuenden Variablen (s. oben - die, die ich ja theoretisch Ausschließen MUSS)

Müssen musst Du gar nichts. Es geht um begründete Entscheidungen. Es kann mitunter sinnvoll sein,
wenig streuende Variablen zu behalten, weil sie inhaltlich wichtig sind.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts


Zurück zu Clusteranalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron