Hallo Leute,
ich habe eine Verständnisfrage zum Thema GLMs:
Was ich glaube verstanden zu haben:
Bei einem GLM müssen die Residuen nicht normalverteilt sein. Ich muss meinem Statistik-Programm aber sagen, aus welcher Verteilungsfunktion die Residuen (Ausprägung der Responsevariable minus vorhergesagter Wert) stammen. Das ist notwendig, damit das Programm den besten Fit für mein Model (z.B. y = a + b*x) berechnen kann (mit Maximum-Likelihood, numerisch).
Jetzt zur Frage:
Woher soll ich wissen, aus welcher Verteilung die Residuen stammen? Der Residuen ergeben sich doch erst aus Daten minus Fit (vorhergesagter Wert) und den Fit kann ich nur machen, wenn ich die Verteilung der Residuen angebe (Zirkelschluss).
Es gibt natürlich den Spezialfall, dass ich mehrere Beobachtung zu einer Ausprägung erklärenden Variable habe. Also z.B. wenn meine erklärende Variable 10 mal den Wert 3.25 hat. Dann habe ich ja eine Häufigkeitsverteilung der Responsevariable an dieser Stelle und kann auf die zugrunde liegende Wahrscheinlichkeitsverteilung schließen. Aber im Normalfall habe ich ja bei einer kontinuierlichen erklärenden Variable nie mehrmals die selbe Merkmalsausprägung.
Beispiel:
Im folgenden Bild sieht man 10 Datenpunkte mit einer diskreten Responsevariable und einer kontinuierlichen erklärenden Variable. Ich möchte ein lineares Modell fitten, wüsste aber nicht aus welcher Verteilung die Residuen stammen. Nehm ich jetzt einfach Poisson, weil es nach einem Zählprozess aussieht? Wie gehe ich systematisch vor, um die Verteilung der Residuen meiner Respondevariabel herauszukriegen?
http://www.myimg.de/?img=example1db0f.jpg
Über Erklärungen und Anregungen wäre ich sehr dankbar
Viele Grüße und vielen Dank!
Harald