Hilfe! Exp. mit binären Ergebnissen, logistische Regression?

Alle Verfahren der Regressionanalyse.

Hilfe! Exp. mit binären Ergebnissen, logistische Regression?

Beitragvon stoepsel » So 23. Okt 2011, 20:40

HalliHallo,

ich sitze grade über einer Fragestellung und komme leider nicht weiter aufgrund zu wenig mathematischem Vorwissen. Ich hoffe, ihr könnt mir helfen =)
Dabei geht es um Zündversuche.

Stelle ich unterschiedliche Temperaturen ein, bei denen ein Gas oder eine Flüssigkeit zündet, kommt es ja nicht immer bei der gleichen Temperatur zur Zündung, d.h. manchmal zündet es überraschend bei niedrigeren Temperaturen und manchmal zündet es nicht bei höheren Temperaturen.
Meine X-Wert ist somit meine Temperatur, mein Y-Wert ob es zündet oder nicht (1 oder 0). Bei unabhängigen Experimenten „größerer Anzahl“ (meinetwegen 20) bei unterschiedlichen Temperaturen kriege ich somit einen Bereich, in dem es nicht zündet, einen Bereich, in dem es auf jeden Fall zündet und einen Übergangsbereich (z.B. bei steigender Temperatur Zündung -> Nichtzündung -> Zündung).

Zurzeit werte ich die Ergebnisse mithilfe der logistischen Regression aus (aufgrund der binären abhängigen Variablen und weil mir ad hoc nicht einfällt, wieso die logistische Regression falsch eingesetzt wäre) und kriege eine schöne (^^) s-förmige Verteilungsfunktion.

Meine Fragen:
Fällt euch ein anderes Verfahren ein, was vielleicht besser geeignet wäre, um das Experiment mit Wahrscheinlichkeiten zu verbinden (d.h. wie wahrscheinlich ist es, dass es bei 270 °C zündet) bzw. fällt euch ein Grund ein, warum die log. Regression hier fehl am Platz ist?!
Wie krieg ich nun die Konfidenzintervalle hin?

Ich hoffe, ihr könnt mir helfen =)

LG
stoepsel
stoepsel
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: So 23. Okt 2011, 20:19
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Hilfe! Exp. mit binären Ergebnissen, logistische Regress

Beitragvon bele » Mo 24. Okt 2011, 13:24

Wenn Du "meinetwegen 20" Versuche hast, dann wirst Du daraus kaum die wahre Verteilungsfunktion ableiten können. Es ist daher angemessen, einfach eine plausible Verteilung anzunehmen und diese als Modell anzunehmen. Die Logit-Funktion ist erstmal plausibel. Ob Du aber aus nur 20 Werten nach denen Du eine plausible (aber nicht "die Richtige") genommen hast unbedingt Konfidenzintervalle schätzen musst, ist eine andere Frage. Was passiert denn, wenn Du unter der Annahme einer Logit-Verteilung ein KI berechnet hast und "in Wirklichkeit" ist die Größe aber nicht Logit sondern Probit verteilt?

Ab wieviel °C wird sich das Gas in 95% entzünden? Erscheint mir aufgrund von 20 Messwerten ohne theoretisch begründete Verteilungsannahme nicht sinnvoll. (Vielleicht sind andere anderer Meinung.)

Suchst Du KI für die Regressionsparameter zu einer gegebenen Verteilung? Dann ggf. Bootstrapping.

Gruß,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

Re: Hilfe! Exp. mit binären Ergebnissen, logistische Regress

Beitragvon stoepsel » Di 25. Okt 2011, 10:13

danke für deine antwort. =)

also meinst du, solange ich nicht genau weiß, ob die Größe Logit oder Probit verteilt ist, machen auch KI keinen Sinn? Wie find ich das denn heraus, welche Verteilung vorliegt?!

was meinst du denn, wieviele werte ich brauchen könnte? ... 50? 100?

ich hab mir die Werte der Regressionskoeffizienten mal mit spss "ausrechnen" lassen, daneben stehen auch die Standardfehler, ... kann ich mithilfe von denen den Konfidenzbereich der Koeffizienten darstellen?!
stoepsel
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: So 23. Okt 2011, 20:19
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Hilfe! Exp. mit binären Ergebnissen, logistische Regress

Beitragvon PonderStibbons » Di 25. Okt 2011, 10:42

Interessiert Dich denn tatsächlich der Konfidenzbereich des Koeffizienten? Oder überhaupt
der Regressionskoeffizient? Der Koeffizient sagt Dir, im Schnitt (über den gesamten Messbereich)
steigt die Chance für eine Zündung mit jeder 1-Grad-Erhöhung der Temperatur um soundsoviel.

Laut Deiner Beschreibung hast Du aber noch nicht einmal das, es soll laut da gelten
(z.B. bei steigender Temperatur Zündung -> Nichtzündung -> Zündung).

Also erst hoch, dann runter mit der Wahrscheinlichkeit. Allerdings, sowas kann man durch
zusätzlichen Einbezug eines quadratischen Terms in der Vorhersage berücksichtigen.

Aber unabhängig davon, das Konfidenzintervall für den Koeffizienten hat etwas damit zu
tun, wie repräsentativ Dein Stichproben-Koeffizient für den "wahren" Koeffizienten (in der
Grundgesamtheit, aus der die Stichproben-Messwerte stammen) sein könnte. Was Du dagegen
anscheinend willst, ist ein Vertrauensbereich für die Zündungswahrscheinlichkeit bei ausgewählten
einzelnen X-Werten? Da kenne ich zugegebenermaßen keine Methode, aber logistische Regression
scheint zu Deiner Zielstellung nicht recht zu passen.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Hilfe! Exp. mit binären Ergebnissen, logistische Regress

Beitragvon bele » Di 25. Okt 2011, 11:56

PonderStibbons hat geschrieben:Laut Deiner Beschreibung hast Du aber noch nicht einmal das, es soll laut da gelten
(z.B. bei steigender Temperatur Zündung -> Nichtzündung -> Zündung).

Also erst hoch, dann runter mit der Wahrscheinlichkeit.

Das habe ich im Eingangspost nicht so verstanden. Ich bin in meiner Antwort davon ausgegangen, dass es einen Nicht-Zündebereich, einen Übergangsbereich und einen Zünde-Bereich in dieser Reihenfolge gibt. Sollte das tatsächlich anders gemeint sein, bedürfte das weiterer Erklärungen.
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

Re: Hilfe! Exp. mit binären Ergebnissen, logistische Regress

Beitragvon stoepsel » Di 25. Okt 2011, 16:15

also, letztendlich möchte ich eine Wahrscheinlichkeit dafür, dass es bei einer bestimmten Temperatur bzw. in einem bestimmten Bereich zündet
da es halt keine grenztemperatur gibt, ab der es auf jeden fall zündet, ist halt jetzt die frage, ob es sich nicht besser macht, zu den werten wahrscheinlichkeiten mit anzugeben.

meine werte sind also beispielhaft so (0 = keine Zündung, 1 = Zündung):

1 0
2 0
3 1
4 0
5 1
6 0
7 1
8 1

und naja, eigentlich wollte ich scho nen KI für meine zündtemperatur, aber mir wurde gesagt, dass ich die konfidenzgrenzen für die koeffizienten (bei der log. regression ja b0 und b1) bräuchte (und die krieg ich ja über die standardfehler raus, oder?! o.O)

wär mir mit 50 werten mehr geholfen? auf 50 kann ich noch aufstocken ;)
stoepsel
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: So 23. Okt 2011, 20:19
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Hilfe! Exp. mit binären Ergebnissen, logistische Regress

Beitragvon bele » Di 25. Okt 2011, 17:18

Ist denn vorgegeben, dass Du das über eine Regressionsanalyse bestimmen musst? Wie gesagt, alle KI die Du damit berechnest gelten immer nur unter der Annahme, dass Du das richtige Modell gewählt hast, was Du nicht beweisen kannst.

Ich würde folgendes Vorgehen vorschlagen:
Programmiere eine Funktion f für die gilt: f wird aufgerufen mit einer Menge an Beobachtungspunkten. f gibt die höchste Temperatur zurück bei der weniger als die Hälfte der Versuche zu einer Entflammung geführt hat. Jetzt wendest Du f auf 5000 Bootstrapping-Samples Deiner Beobachtungspunkte an und erhälst ein Konfidenzintervall für die Temperatur, bei der gerade eben weniger als die Hälfte der Versuche zu einer Entflammung geführt hat. Und zwar in Deinem Versuch, unabhängig von der Verteilung.

Setzt natürlich ein wenig Programmierkenntnisse voraus, beispielsweise in R, wo Bootstrappingsachen recht leicht umzusetzen sind.

Gruß,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

Re: Hilfe! Exp. mit binären Ergebnissen, logistische Regress

Beitragvon daniel » Di 25. Okt 2011, 18:37

stoepsel hat geschrieben:[...]wär mir mit 50 werten mehr geholfen? auf 50 kann ich noch aufstocken ;)

Ohne jetzt im Thema zu sein, logistische (oder probit) Regressionen werden mittels Maximum-Likelihood Methode (ML) geschätzt. Die Schätzer haben ganz tolle Eigenschaften (Erwartugstreu, Effizient, Inavriat), allerdings nur asymptotisch. Ob 20 (oder 50) in etwa Unendlich entsprechen bleibt Dir überlassen -- ich denke nein. In vielen Einführungsbüchern wird eine Midestgrenze zwischen 50 und 100 Beobachtungen gefordert, leider ohne jeglichen Hinweis auf Simulationsstudien oder sonstiges.

In wieweit in einem solchen Versuch von Unabhängigkeit der Beobachtungen ausgegangen werden kann, weiß ich nicht. Allerdings lässt siche ohne diese Annahme kaum eine Likelihood konstruieren (weil die übliche Multiplikation der Verteilungen Unabhängigkeit erfordert), was die Validität der Ergebnisse zusätzlich in Frage stellen würde.

(Mindestens) Diese Punkte solltest Du bei der Interpretation Deiner Ergebnisse berücksichigen.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Hilfe! Exp. mit binären Ergebnissen, logistische Regress

Beitragvon stoepsel » Mi 26. Okt 2011, 14:56

aha...und das bootstrap verfahren gilt sozusagen zur berechnung der KI und das rechnet einfach mit meinen existierenden werten? ... hmm...programmieren... toll ^^ :?
was natürlich nich das problem löst, dass ich nich weiß, wies verteilt ist. wobei eigentlich von der verteilungsfkt erstma nix gegen die log. spricht
(voraussetzungen: unabhängige variablen, metrisch oder kategorial, keine multikollinearität (wobei ich nich ganz verstehe, wieso das extra aufgeführt ist, hat ja auch was mit abhängigkeit zu tun?!), min. 50 beobachtungen (ok, das würde dagegensprechen ^^ aber ich kann ja noch paar experimente machen)). -> laut Fromm, Sabine

und zur unabhängigkeit: die versuche sind doch nicht voneinander abhängig, wenn ich vor jedem versuch die gleichen bedingungen wieder herstelle, oder??

sorry, wenn ich rumnerve, aber ich wills halt echt verstehn...hätte ich mal mathe studiert ^^ :?
stoepsel
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: So 23. Okt 2011, 20:19
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Hilfe! Exp. mit binären Ergebnissen, logistische Regress

Beitragvon bele » Mi 26. Okt 2011, 15:53

Ok, jetzt mal ohne Mathestudium, nur mit Grundrechenarten und Bauchgefühl: Ich nehme an, Du willst ein 95%-Konfidenzintervall, also eines, bei dem die oberen 2,5% und die unteren 2.5% herausfallen. Richtig? Du verdoppelst Deine Messungen auf 40 Messwerte - wieviel sind 2,5% von 40? Genau eins. Ein Messpunkt soll oben und ein Messpunkt soll unten herausfallen und dass nennst Du dann ein 95%-Konfidenzintervall?

Fühlt sich das nicht auch ohne Mathematikstudium sehr grob gerastert an?

Wenn Du gezwungen bist, Konfidenzintervalle zu berechnen, weil es sonst keine gute Note gibt, dann pass ein logit-Modell an, zeichne Dir mit den gefundenen Werten die logit-Kurve und suche nach den Punkten an denen sie 0.025 und 0.975 erreicht. Dann hast Du ein Konfidenzintervall "im geschätzten Modell". Du solltest nur nicht allzuviel Vertrauen darin haben, dass dieses Modell auch "die Wirklichkeit" so genau widerspiegelt wie Du es dann verwendest.

Gruß,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 8 Gäste