STATISTIK-FORUM.de

Florian8686 · von **Florian8686** » Do 20. Dez 2012, 13:04

Hallo zusammen,

ich schreibe gerade meine Masterarbeit und muss dafür einen Fragebogen auswerten.
Die ganzen deskriptiven Statistiken habe ich bereits abgearbeitet und befinde mich jetzt auf der schließenden Ebene, genauer bei der Regressionsanalyse.

Bei der zu erklärenden Variable soll die Attraktivität eines Preises mit mehreren erklärenden Variablen beschrieben werden (multible Regression). Das erste Problem bestand darin, dass ein Großteil der Variablen nicht normalverteilt ist, was ich jedoch so gut wie möglich durch eine log Transformation gelöst habe. Ebenfalls ist die zu erklärende Variable durch Multiplikation mehrere Variablen erzeugt worden, um die Attraktivität aus verschiedenen Komponenten zusammenzusetzen.

Meine Frage ist diejenige: Darf ich bei der Regression erklärende Variablen aufnehmen aus denen die zu erklärende Variable erzeugt wurde? Natürlich steigt dadurch mein R-Quadrat und die Signifikanz der Variablen erheblich an, wodurch die erklärende Varianz um ca. 40% steigt. Oder wird dadurch mein Modell unbrauchbar und hat trotz dem hohen R-Quadrat keine Aussagekraft.

Danke für die Hilfe.

VG
Florian8686

daniel · von **daniel** » Do 20. Dez 2012, 13:21

Das erste Problem bestand darin, dass ein Großteil der Variablen nicht normalverteilt ist

Die lineare Regression setzt keine normalverteilten Variablen voraus, daher ist es unerheblich, ob die Variablen normalverteilt sind.

Ebenfalls ist die zu erklärende Variable durch Multiplikation mehrere Variablen erzeugt worden, um die Attraktivität aus verschiedenen Komponenten zusammenzusetzen.

Meine Frage ist diejenige: Darf ich bei der Regression erklärende Variablen aufnehmen aus denen die zu erklärende Variable erzeugt wurde? Natürlich steigt dadurch mein R-Quadrat und die Signifikanz der Variablen erheblich an, wodurch die erklärende Varianz um ca. 40% steigt. Oder wird dadurch mein Modell unbrauchbar und hat trotz dem hohen R-Quadrat keine Aussagekraft.

Eine etwas genauerer Ausführung wäre hier sicher hilfreich. Was wurde hier, zu welchem Zweck, mit welcher Begründung multipliziert?

Ob und wie brauchbar Dein Modell ist, hängt von Deinem Forschungsinteresse ab. In vielen Fällen ist R-Quadrat ein ungeeignetes Maß zur Beurteilung der Brauchbarkeit eines Modells. Spontan würde ich sagen, zu modellieren, dass ein von Dir kontruiertes outcome von den von Dir verwendeten Komponenten abhängt, ist relativ sinnfrei, da hier keinerlei zusätzliche Information generiert wird.

folgende User möchten sich bei daniel bedanken:
Florian8686

Florian8686 · von **Florian8686** » Do 20. Dez 2012, 13:52

Danke für die schnelle Antwort.

Die lineare Regression setzt keine normalverteilten Variablen voraus, daher ist es unerheblich, ob die Variablen normalverteilt sind.

Aber die Residuen müssen doch normalverteilt sein oder?

Es geht um die Attraktivität eines Preises. Die erzeugte Variable "Attraktivität" wurde durch die Rechenoperation "Teilnehmerzahl*GoogleIndex*Anzahl von Jurymitgliedern*Dotierung" erzeugt und soll eine Kennzahl für die Attraktivität des Preises sein.
Wenn ich in der Regression aber wieder beispielsweise "Dotierung" in das Modell als abhängige Variable einfüge habe ich dann eine Informationsgewinn oder nicht.
Zum Thema R-Quadrat. Soweit es mir bewusst ist, ist R-Quadrat das Gütemaß des Modells welches den Zusammenhang zwischen abhängiger und unabhängiger Variabel beschreibt und demnach die Qualität des Modells beschreibt.

daniel · von **daniel** » Do 20. Dez 2012, 14:15

Aber die Residuen müssen doch normalverteilt sein oder?

Residuen sind keine Variablen. Die Annahme normalverteilter Residuen ist für die Gültigkeit des Gauss-Markov Theorems irrelevant, und bei großen Stichproben (Dauenregel > 50) nicht mehr von Belang.

Die erzeugte Variable "Attraktivität" wurde durch die Rechenoperation "Teilnehmerzahl*GoogleIndex*Anzahl von Jurymitgliedern*Dotierung" erzeugt und soll eine Kennzahl für die Attraktivität des Preises sein.

Inwieweit das theoretisch sinnvoll ist, sei dahingestellt. Ich fühle mich nicht kompetent das zu entscheiden. Nur als Anregung: wenn es keine Jurymitglieder gibt (oder sonst ein Faktor den Wert 0 annimmt) ist die Attraktivität ebenfalls null. Ist das gewünscht (i.e. theoretisch sinnvoll)? Alle Faktoren gehen zudem mit gleichem Gewicht ein. Ist das gewünscht?

Wenn ich in der Regression aber wieder beispielsweise "Dotierung" in das Modell als abhängige Variable einfüge habe ich dann eine Informationsgewinn oder nicht.

Kann ich nicht sagen. Was ist denn die Forschungsfrage? Wenn Du wissen willst, ob die Attraktivität von der Dotierung abhängt, weißt Du die Antwort bereits vor der Schätzung des Modells.

Soweit es mir bewusst ist, ist R-Quadrat das Gütemaß des Modells welches [...] die Qualität des Modells beschreibt.

Da bin ich anderer Ansicht -- hauptsächlich deshalb, weil ich nicht glaube, dass man die "Qualität" eines Modells generalisieren und unabhängig vom Forschungsinteresse bestimmen kann. Einen gleichsam interessanten wie unterhaltsamen fiktiven Dialog zum Thema R-Quadrat kannst Du bei King (1986: 675ff) nachlesen.

King, Gary (1986). How Not to Lie with Statistics: Avoid Common Mistakes in Quantitative Political Science. American Journal of Political Science, 30(3):666-687.

folgende User möchten sich bei daniel bedanken:
Florian8686

Florian8686 · von **Florian8686** » Do 20. Dez 2012, 14:38

Residuen sind keine Variablen. Die Annahme normalverteilter Residuen ist für die Gültigkeit des Gauss-Markov Theorems irrelevant, und bei großen Stichproben (Dauenregel > 50) nicht mehr von Belang.

Mein Stichprobenumfang ist 83. Also wäre nach dir die Normalverteilung keine notwendige Bedingung und kann vernachlässigt werden.
Ich habe die Transformation der Variablen vorgenommen, da ich den Erfolg eines Innovationspreises so genau wie möglich aus den Echtdaten bestimmen wollte. Da dabei bei einem fehlenden Wert oder einer Null die erzeugte Variable verkleinert ist mir bewusst, weshalb ich die Auswahl sehr vorsichtig getroffen haben um nicht zu viel Aussagekraft zu verlieren. Dabei ist die Forschungsfrage was Innovationspreise für einen Einfluss auf die wirtschaftliche Entwicklung haben, wobei der Attraktivität ein Teil zu dem Gesamtziel darstellt.

daniel · von **daniel** » Do 20. Dez 2012, 15:06

Mein Stichprobenumfang ist 83.

Komfortabel ist das nun nicht, aber ich würde mir mehr Gedanken um andere Annahmen, z.B. Linearität -- dazu werden Transformationen häufig verwendet -- machen.

Da dabei bei einem fehlenden Wert oder einer Null die erzeugte Variable verkleinert ist mir bewusst

Bei einem fehlenden Wert sollte das Ergebnis ebenfalls einen fehlenden Wert erhalten. Ansonsten tust Du so, als hättest Du den Wert 1 beobachtet, was inferenzstatistische Tests streng genommen unmöglich, mindestens aber problematisch macht.

da ich den Erfolg eines Innovationspreises so genau wie möglich aus den Echtdaten bestimmen wollte.

Das verstehe ich nicht. Was ist denn der "Erfolg"? Das gleiche wie die "Attraktivität"? Und bestimmen heißt erklären/prognostizeren, oder zusammenbasteln (wie Attraktivität)?

Dabei ist die Forschungsfrage was Innovationspreise für einen Einfluss auf die wirtschaftliche Entwicklung haben

Nun bin ich noch verwirrter. Wenn es darum geht "wirtschaftliche Entwicklung" zu erklären/prognostizieren, wieso regressierst Du dann die Attraktivität eines Preises auf die Bestandteile, aus denen Du die Attraktivität gebildet hast? Oder ist "wirtschaftliche Entwicklung" die "Attraktivität eines Preises"?

Florian8686 · von **Florian8686** » Do 20. Dez 2012, 15:26

Nun bin ich noch verwirrter. Wenn es darum geht "wirtschaftliche Entwicklung" zu erklären/prognostizieren, wieso regressierst Du dann die Attraktivität eines Preises auf die Bestandteile, aus denen Du die Attraktivität gebildet hast? Oder ist "wirtschaftliche Entwicklung" die "Attraktivität eines Preises"?

Ja so ungefähr. Innovationspreise sind dann attraktiv für die Wirtschaft und z.B. die Region, wenn Sie die wirtschaftliche Entwicklung unterstützen und diejenigen Unternehmen auszeichnet, die besonders innovative Produkte haben. Die Unterstützung kann beispielsweise bei der Finanzierung oder Vermarktung erfolgen. Deshalb wollte ich ja eine Attraktivitätsvariable erzeugen um die Parameter sichtbar zu machen, die einen Einfluss für die Attraktivität sind. Und attraktive Preise haben einen hohen Einfluss auf die Wirtschaft, wo wir dann beim Thema Erfolg wären. Ob es dabei sinnvoll ist eine Variable in die Regression hineinzunehmen die bereits in der erzeugten Variablen enthalten ist bezweifele ich auch.

Dank dir für die Hilfe.

daniel · von **daniel** » Do 20. Dez 2012, 16:24

Ich denke, für Dein Hauptanliegen hast Du eine paar Denkanstöße mitgenommen.

Ich erlaube mir dennoch Deine Ausführungen ein letztes mal zu kommentieren.

Deshalb wollte ich ja eine Attraktivitätsvariable erzeugen um die Parameter sichtbar zu machen, die einen Einfluss für die Attraktivität sind.

Durch das Erzeugen dieser Variable unterstellst Du aber a priori, dass die von Dir (mehr oder weniger) willkürlich gewählten Parameter einen Einfluss auf die Attraktivität haben. Du testets das aber nicht, und kannst es deshalb auch nicht (statistisch) zeigen (i.e. sichtbar machen). Solange keine alternative, direkte Messung von Attraktivität vorliegt, ist ein derartiges Unterfangen zum Scheiteren verurteilt.

[...] attraktive Preise haben einen hohen Einfluss auf die Wirtschaft, wo wir dann beim Thema Erfolg wären. Ob es dabei sinnvoll ist eine Variable in die Regression hineinzunehmen die bereits in der erzeugten Variablen enthalten ist bezweifele ich auch.

Aber wenn "Attraktivität" einen Einfluss auf "Wirtschaft" und "Erfolg hat, ist "Attraktivität" der Prädikator nicht die zu erklärende Variable.

folgende User möchten sich bei daniel bedanken:
Florian8686

Holgonaut · von **Holgonaut** » Fr 21. Dez 2012, 15:15

Moin Daniel

Residuen sind keine Variablen. Die Annahme normalverteilter Residuen ist für die Gültigkeit des Gauss-Markov Theorems irrelevant, und bei großen Stichproben (Dauenregel > 50) nicht mehr von Belang.

Darüber bin ich gerade gestolpert. Kannst das etwas ausführen und hast du eine Quelle, wo ich darüber was nachlesen kann? Insbesondere die Verknüpfung mit dem GM-Theorem hab ich so noch nie gelesen. Ich nehme an, das ist aber wohl was andres als die Homoskedastizität, die auch bei großen Stichproben vorliegen muss? Ich bin jetzt etwas verwirrt und Abgründe tun sich auf

Grüße
Holger

daniel · von **daniel** » Fr 21. Dez 2012, 16:41

Hi Holger,

vielleicht genügt bereits eine Reformulierung meiner Aussage. Lass mich statt

Residuen sind keine Variablen. Die Annahme normalverteilter Residuen ist für die Gültigkeit des Gauss-Markov Theorems irrelevant, und bei großen Stichproben (Dauenregel > 50) nicht mehr von Belang.

Lediglich sagen, dass

[d]ie Annahme normalverteilter Residuen [...] für die Gültigkeit des Gauss-Markov Theorems irrelevant

ist. Das Gauss-Markov Theorem besagt nichts weiter, als dass OLS der BLUE (best linaer unbiased estimator) ist. Weder der Nachweise der Unverzerrtheit (und damit automatisch der Konsitienz) des OLS Schätzers, noch der Beweis seiner minimalen Varianz (unter allen linearen unverzerrten Schätzern) erfordert die Annahme normalverteilter Residuen (vgl. Greene 2008: 46-52).

"To this point [i.e. after having proofed unbiasedness and minimal variance of the OLS estimator], our specification and analysis of the regression model is semiparametric [...]. We have not used Assumption A6 [...], normality of $\varepsilon$ " (Greene 2008: 52)

"For constructing confidence intervals and testing hypotheses, we derived some additional results that depend explicitly on the normality assumption. [...] The primary result in the first set is the Gauss-Markov theorem, which holds regardless of the distribution of the disturbances." (Greene 2008: 58)

Ebenfalls

"So far [i.e. after having proofed unbiasedness and minimal variance of the OLS estimator] we have made no assumptions about the shape of the distribution of the error terms $\varepsilon$ , except that they are mutually uncorrelated, are independent of X, have zero mean and have a constant variance." (Verbeek 2008: 20)

Grüße
Daniel

Greene, William, H. (2008). Econometric Analysis. 6th Ed. NJ: Pearson.
Verbeek, Marno (2008). A Guide to Modern Econometrics. Chichester: Wiley.

STATISTIK-FORUM.de

Vorgehen bei der Regressionsanalyse

Vorgehen bei der Regressionsanalyse

Re: Vorgehen bei der Regressionsanalyse

Re: Vorgehen bei der Regressionsanalyse

Re: Vorgehen bei der Regressionsanalyse

Re: Vorgehen bei der Regressionsanalyse

Re: Vorgehen bei der Regressionsanalyse

Re: Vorgehen bei der Regressionsanalyse

Re: Vorgehen bei der Regressionsanalyse

Re: Vorgehen bei der Regressionsanalyse

Re: Vorgehen bei der Regressionsanalyse

Wer ist online?