Verteilung der Residuen

Alle Verfahren der Regressionanalyse.

Verteilung der Residuen

Beitragvon sundues » Mi 7. Dez 2011, 12:20

Hallo zusammen, ich habe derzeit ein Problem und befürchte, dass ich da einen Zusammenhang noch nicht ganz verstanden habe-

ich erhebe derzeit Daten, die Parameter bei einem Fehlerauftreten beschreiben- an einem Tag treten mehrere Fehler auf, die Tagesperformance (in ppm) also entsprechend in mehreren Zeilen untereinander gleich (nur einzelne x in den Spalten haben sich geändert, z.B Schicht, Uhrzeit, Fehlerartikel, etc.). Nun möchte ich hierauf eine Regressionsanalyse machen. Das erste Ding ist, dass ich sowohl stetige, als auch attributive Faktoren habe- sollte aber einer allgemeinen Regression nichts ausmachen. Hierfür brauche ich ja nur normalverteilte Residuen- und hier gehts los:
Werte ich testhalber nur den Einfluss zweier x ein , von denen garantiert ist, dass sie das y zu 100% abbilden (Spalte y=ppm-rate, Spalte x1=Anzahl Teile behandelt , Spalte x2= Anzahl Teile fehlerhaft), so bekomme ich ein tolles Modell, allerdings nicht normalverteilte Residuen. Nun habe ich wie oben erwähnt mehrfach unterianander die gleichen Werte stehen, je nachdem wie oft ein fehlerhaftes Teil an dem Tag aufgetreten ist. Entsprechend in jeder Zeile dahinter der gleiche Residuen-Wert. entferne ich alle Doppelwerte, also nur ein Wert pro Tag stehen lassen und wiederhole den Test- so bekomm eich zum einen gänzliche andere Residuen raus und zum anderen sind sie jetzt prima normalverteilt .

Was ist nun richtig?
Ich hoffe ich konnte mien Problem verständlich schildern, ich freue mich über jedes Feedback

Danke
sundues
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Mi 7. Dez 2011, 10:54
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Verteilung der Residuen

Beitragvon daniel » Fr 9. Dez 2011, 00:50

Werte ich testhalber nur den Einfluss zweier x ein , von denen garantiert ist, dass sie das y zu 100% abbilden (Spalte y=ppm-rate, Spalte x1=Anzahl Teile behandelt , Spalte x2= Anzahl Teile fehlerhaft), so bekomme ich ein tolles Modell, allerdings nicht normalverteilte Residuen.

Das verstehe ich nicht. Wenn die zwei x y zu 100% erklären, wo kommen dann die Residuen her.

Die Struktur des Datensatzes ist mir auch unklar, klingt aber eher so als sei hier ein Panel- oder Zeitreihenmodell angebracht.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Verteilung der Residuen

Beitragvon sundues » Fr 9. Dez 2011, 20:46

daniel hat geschrieben:Das verstehe ich nicht. Wenn die zwei x y zu 100% erklären, wo kommen dann die Residuen her.

Die Struktur des Datensatzes ist mir auch unklar, klingt aber eher so als sei hier ein Panel- oder Zeitreihenmodell angebracht.


Das ist genau der Punkt- warum ich da überhaupt Residuen habe ist mir auch nicht klar-ob die Konstante 1000000 ( für die ppm Rate) was damit zu tun hat?

Die Struktur ist eigentlich relativ einfach- für jede Fehlermeldung die eintrifft mache ich eine Auswertung- also eine Zeile (klassisch in Excel). In den Spalten der zeile trage ich dann sowohl stetige ( z.B. Temperatur bei Fehlerauftritt) als auch diskrete( an welcher Station ist der Fehler aufgetreten) ein- alles meine X . Die letzte Spalte der Zeile fragt nach der resultierenden ppm-Rate. Diese wird pro Tag gemessen. Nun habe ich an einem Tag aber in der Regel nicht nur einen, sondern mehrere Fehler. Entsprechend mehere Zeilen. Die X Parameter beim zweiten Fehler können andere sein ( andere Temperatur, andere Station)- dennoch ist die Spalte mit der ppm Rate gleich wie in Zeile 1, da noch immer der gleiche Tag ist.
Entsprechend habe ich ein Datenblatt in dem z.B Zeile 1-5 =ppm-Wert 1, Zeile 6-8 ppm-Wert 2, Zeile 9-16 ppm-Wert 3 usw.

Eine Regression würde hier wohl ins Straucheln kommen, da sie in erster Zeile prüft: Temperatur = 24 ergibt ein ppm-Wert von 120 . In der zweiten Zeile kommt heraus: Temperatur = 15 ergibt EBENFALLS ppm-Wert von 120 (da beide Fehler am gleichen Tag). Entsprechend ist am Ende kein Faktor wirklich signifikant bewertet, da ein gleicher Wert an unterschiedlichen Tagen verschiedene ppm-Werte verursachen kann- abhängig von dem was am Tag durchgesetzt wird (Teile pro Tag).

Ich bin jetzt so vorgegangen, dass ich zunächst versucht habe, möglichst viele attributive/diskrete Faktoren auszuschließen. Die übrig gebliebenen, stetigen Faktoren, können tagesweise zu Mittelwerten zusammengefasst werden. So habe ich für einen ppm-Wert EINE Zeile. Damit habe ich dann eine multifaktorielle Regression durchführen können und habe auch ein signifikantes Ergebnis. Allerdings bin ich nicht wirklich Happy mit der Vorgehensweise, da ich durch Ausschluss der attributiven Daten durch Chi- Quadrat etc keine Wechselwirkung mit stetigen Daten testen konnte. Ich arbeite mit Minitab, Panel - oder Zeitreihenmodelle habe ich so noch nicht gehört, könnte mir das weiterhelfen? Was genau verbirgt sich dahinter?

Danke und Gruß
sundues
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Mi 7. Dez 2011, 10:54
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Verteilung der Residuen

Beitragvon daniel » Fr 9. Dez 2011, 23:33

Eine Regression würde hier wohl ins Straucheln kommen, da sie in erster Zeile prüft: Temperatur = 24 ergibt ein ppm-Wert von 120 . In der zweiten Zeile kommt heraus: Temperatur = 15 ergibt EBENFALLS ppm-Wert von 120 (da beide Fehler am gleichen Tag). Entsprechend ist am Ende kein Faktor wirklich signifikant bewertet, da ein gleicher Wert an unterschiedlichen Tagen verschiedene ppm-Werte verursachen kann- abhängig von dem was am Tag durchgesetzt wird (Teile pro Tag).

Ist das nicht eher ein inhaltliches Problem, als ein methodisches? Vielleicht sind die X als Prädikator der ppm unbrauchbar? Wenn die ppm offensichtlich Tagesabhängig ist -- und eben nicht abhängig von den X, da unterschiedliche X den gleichen ppm ergeben, zugleich gleiche X, aber unterschiedliche ppm -- dann musst Du die Faktoren, die die ppm tatsächlich beeinflussen natürlich kontrollieren.

Wie ist denn die Theorie? Wieso sollten denn die X die ppm beeinflussen? Ich weiß nicht, ob diese Frage für absolute Laien wie mich verständlich im Rahmen eines Forums zu beantworten ist, aber Du musst Dir den Daten(oder Fakten)generierenden Prozess überlegen, den Du da modellieren willst.

Ich bin jetzt so vorgegangen, dass ich zunächst versucht habe, möglichst viele attributive/diskrete Faktoren auszuschließen. Die übrig gebliebenen, stetigen Faktoren, können tagesweise zu Mittelwerten zusammengefasst werden. So habe ich für einen ppm-Wert EINE Zeile. Damit habe ich dann eine multifaktorielle Regression durchführen können und habe auch ein signifikantes Ergebnis. Allerdings bin ich nicht wirklich Happy mit der Vorgehensweise, da ich durch Ausschluss der attributiven Daten durch Chi- Quadrat etc keine Wechselwirkung mit stetigen Daten testen konnte. Ich arbeite mit Minitab, Panel - oder Zeitreihenmodelle habe ich so noch nicht gehört, könnte mir das weiterhelfen? Was genau verbirgt sich dahinter?


Die Idee klingt gegeben der Datenlage nicht so schlecht, aber ohne das Modell des Datengenerierenden Prozesses zu kennen, kann ich da wenig zu sagen. Im Übrigen kannst Du in einer Regression Variablen jedes Skalenniveaus als Prädikator nutzen.

Ach ja, die Residuen.

y = x1/x2

lässt sich nicht exakt als Linearkombination

y = b0 + x1*b1 +x2*b2

darstellen.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 17 Gäste

cron