Hallo Zusammen.
Ich hab ein Problem mit dem Verständnis einfacher Pearson Correlation in Bezug auf Obermenge und Subsets...ich erhalte ein Ergebnis, das ich mir nicht erklären kann und hoffe, jemand von euch kann mir beim Verständnis helfen.
Das Problem ist folgendes:
Ich habe 2 Mengen von ZScores, A und B. Die Corr(A,B) ist ~0.5. Jetzt hab ich mich gefragt, welche Werte aus A diese positive Korrelation "treiben", sind es die hohen oder niedrigen ZScores? Daher habe ich A absteigend sortiert und mir jeweils die Subsets aus den top 10%, top 25% und top 50% sowie low 10%, low 25% und low 50% gebildet. Für jedes Subset A_top10, A_top25, A_top50, A_low10, A_low25 und A_low50 habe ich nun die entsprechenden Werte in B indentifiziert und nun die Korrelationen Corr(A_top10, B_Atop10), ... berechnet.
Hierbei hat sich ein seltsames Ergebnis eingestellt, dass ich leider nicht verstehe. Für die Subsets A_top50 und A_low50 gilt ja, dass sie zusammen wieder A ergeben. Corr(A,B) ist ja bekanntlich ~0.5. Die Korrelationen der Subsets Corr(A_top50,B_Alow50) und Corr(A_top50,B_Alow50) sind jedoch bei ~0.25 und ~0.45. Also beide Subset Corr-Werte UNTER dem Corr-Wert der Obermenge A.
Erwartet hätte ich, dass die Korrelation der Obermenge zwischen den beiden Subsets liegt, oder auch darunter...aber dass durch Zusammenfügen zweier niedrigeren Korrelationen eine hohe Korrelation entsteht, kann ich mir einfach nicht erklären.
Evtl kann einer von euch Licht ins Dunkle Bringen.
Vielen Dank schon mal, Grüße!!