Interaktionseffekte/nicht signifikante Variablen in Regr.

Alle Verfahren der Regressionanalyse.

Interaktionseffekte/nicht signifikante Variablen in Regr.

Beitragvon Jacky » Mo 14. Aug 2017, 22:29

Liebe Mitglieder des Statistik-Forums,

ich habe eine kurze Frage bezüglich der korrekten Interpretation von Interaktionstermen bzw. der Hauptvariablen.
Ich möchte mithilfe einer multivariaten linearen Regression die Höhe der Wahlbeteiligung schätzen; meine Untersuchungseinheiten sind die Landkreise und kreisfreien Städte Deutschlands.
Die drei Variablen, um die es mir geht, sind der Anteil der Selbstständigen und ein Dummy namens Ruralität, der angibt, ob ich es mit einer städtischen (=0) oder ländlichen (=1) Region zu tun habe, sowie ein Interaktionsterm zwischen beiden.
Nach der Berechnung ergibt sich, dass Ruralität und der Interaktionsterm signifikant sind, der Selbständigenanteil aber nicht.
Angenommen ich habe die folgenden Betakoeffizienten:
Ruralität: -3.7 (signifikant)
Selbstständigenanteil: -15.8 (nicht signifikant)
und
Interaktionsterm: 32.6 (signifikant),

wie gehe ich dann mit der fehlenden Signifikanz des Selbstständigenanteils um? Kann ich ihn einfach ignorieren oder muss er in trotzdem in die Interpretation des Interaktionsterms?
Meine Interpretation wäre die folgende:

In ruralen Gebieten verändert sich die Wahlbeteiligung um -3.7+32.6*Selbstständigenanteil (während der Selbstständigenanteil als Haupteffekt nicht weiter erwähnt wird, weil er ja nicht signifikant ist)
bzw. in urbanen Gebieten hat der Selbstständigenanteil keinerlei Einfluss (weder als Haupteffekt noch über den Interakionsterm).
Wenn ich das als Formel schreiben würde - müsste ich dann (für rurale Gebiete) die Betakoeffizienten des Selbstständigenanteils und des Interaktionsterms miteinander verrechnen, obwohl der Selbstständigenanteil nicht signifikant ist?

Weiterhin habe ich, wie euch vielleicht schon aufgefallen, Probleme mit den Formulierungen; wenn ihr da noch ein paar Tipps hättet wäre ich euch sehr dankbar.

Grüße,
Jaqueline
Jacky
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mo 14. Aug 2017, 22:17
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Interaktionseffekte/nicht signifikante Variablen in Regr

Beitragvon mango » Di 15. Aug 2017, 10:02

Hallo,

ich finde deine Formulierungen nicht zutreffend. Die Koeffizienten sind "Schätzwerte", die exakten Ergebnissen aus der Analyse deiner Stichprobe entsprechen. Insofern ist deine Regressionsgleichung mit allen Koeffizienten die beste Vorhersage für deine Werte. Die t-Tests der einzelnen Koeffizienten besagen, wie wahrscheinlich es ist, dass die einzelnen Zusammenhänge in der Grundgesamtheit nicht zu finden sind (salopp formuliert, bitte nicht so übernehmen). Ich halte es also nicht für zulässig, die Koeffizienten aus der Regressionsanalyse zu übernehmen und einfach die wegzulassen, die den t-Test nicht "bestehen". Außerdem solltest du dir nochmal eine Anleitung zu Interaktionseffekten anschauen. Du lässt sie zwar richtig schätzen, übersiehst aber, dass dabei die Schätzung der Haupteffekte beeinträchtigt wird.

Meiner Ansicht sollte man so vorgehen: Zur besten Voraussage der AV finde das beste Modell. Dazu musst du eine Menge verschiedener Modelle vergleichen und auch inhaltliche Erwägungen berücksichtigen. Was signifikant wird und was nicht, hängt dabei immer davon ab, was gerade alles als Kontrollvariable fungiert. Willst du aus wissenschaftlichem Interesse eine Interaktion messen, lass dir erst das entsprechende Modell nur mit Haupteffekten schätzen und schau es dir an; darauf aufbauend fügst du dann einen Interaktionsterm hinzu und interpretierst nur diesen.
mango
Elite
Elite
 
Beiträge: 330
Registriert: Fr 2. Mai 2014, 16:55
Danke gegeben: 3
Danke bekommen: 55 mal in 55 Posts

folgende User möchten sich bei mango bedanken:
Jacky

Re: Interaktionseffekte/nicht signifikante Variablen in Regr

Beitragvon Jacky » Di 15. Aug 2017, 12:29

Hallo mango,

vielen Dank erstmal für deine Antwort. Leider wirft deine Antwort, wie auch die Texte, die ich zum Thema Interaktionsterme finde, bei mir mehr Fragen auf als sie beantwortet.
Deswegen:

"Du lässt sie zwar richtig schätzen, übersiehst aber, dass dabei die Schätzung der Haupteffekte beeinträchtigt wird."

Ich weiß nicht, was ich übersehe. Könntest du das bitte ausführen?

Ich betrachte in dem Beispiel meines Ursprungsposts doch genau diese Veränderung ("In ruralen Gebieten verändert sich die Wahlbeteiligung um -3.7+32.6*Selbstständigenanteil")?
Weiterhin gilt natürlich, dass der Einfluss von Ruralität die Wahlbeteiligung in ruralen Gebieten um 3.7 Prozentpunkte senkt, wenn der Selbstständigenanteil bei 0 liegt; in ruralen Gebieten steigt die Wahlbeteiligung mit steigendem Anteil an Selbstständigen, und für urbane Gebiete existiert kein Einfluss des Selbstständigenanteils.

"Ich halte es also nicht für zulässig, die Koeffizienten aus der Regressionsanalyse zu übernehmen und einfach die wegzulassen"
Es geht nicht darum, sie wegzulassen, sondern ob ich, wenn der Anteil der Selbstständigen nicht signifikant ist, der Interaktionsterm aber schon, den Betakoeffizienten des Intraktionsterms (der in ruralen Gebieten dem Selbstständigenanteil entspricht) mit dem Betakoeffizienten des Selbstständigenanteils verrechnen muss, wenn ich die Schätzgleichung mit eingesetzten Werten angebe.

Und was die Anleitung zu Interaktionseffekten angeht: Ich finde einfach keine gute Anleitung, die mir weiterhilft.

Zu meinem Modell: Das steht schon und ist als solches unveränderlich; dessen allgemeiner Aufbau sowie der Interaktionsterm im speziellen fußen auf einer Theorie.
Grüße,
Jaqueline

mango hat geschrieben:Hallo,

ich finde deine Formulierungen nicht zutreffend. Die Koeffizienten sind "Schätzwerte", die exakten Ergebnissen aus der Analyse deiner Stichprobe entsprechen. Insofern ist deine Regressionsgleichung mit allen Koeffizienten die beste Vorhersage für deine Werte. Die t-Tests der einzelnen Koeffizienten besagen, wie wahrscheinlich es ist, dass die einzelnen Zusammenhänge in der Grundgesamtheit nicht zu finden sind (salopp formuliert, bitte nicht so übernehmen). Ich halte es also nicht für zulässig, die Koeffizienten aus der Regressionsanalyse zu übernehmen und einfach die wegzulassen, die den t-Test nicht "bestehen". Außerdem solltest du dir nochmal eine Anleitung zu Interaktionseffekten anschauen. Du lässt sie zwar richtig schätzen, übersiehst aber, dass dabei die Schätzung der Haupteffekte beeinträchtigt wird.

Meiner Ansicht sollte man so vorgehen: Zur besten Voraussage der AV finde das beste Modell. Dazu musst du eine Menge verschiedener Modelle vergleichen und auch inhaltliche Erwägungen berücksichtigen. Was signifikant wird und was nicht, hängt dabei immer davon ab, was gerade alles als Kontrollvariable fungiert. Willst du aus wissenschaftlichem Interesse eine Interaktion messen, lass dir erst das entsprechende Modell nur mit Haupteffekten schätzen und schau es dir an; darauf aufbauend fügst du dann einen Interaktionsterm hinzu und interpretierst nur diesen.
Jacky
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mo 14. Aug 2017, 22:17
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Interaktionseffekte/nicht signifikante Variablen in Regr

Beitragvon mango » Di 15. Aug 2017, 13:51

Jacky hat geschrieben:Ich weiß nicht, was ich übersehe. Könntest du das bitte ausführen?

Ich betrachte in dem Beispiel meines Ursprungsposts doch genau diese Veränderung ("In ruralen Gebieten verändert sich die Wahlbeteiligung um -3.7+32.6*Selbstständigenanteil")?
Weiterhin gilt natürlich, dass der Einfluss von Ruralität die Wahlbeteiligung in ruralen Gebieten um 3.7 Prozentpunkte senkt, wenn der Selbstständigenanteil bei 0 liegt; in ruralen Gebieten steigt die Wahlbeteiligung mit steigendem Anteil an Selbstständigen, und für urbane Gebiete existiert kein Einfluss des Selbstständigenanteils.

Was ich meine, ist: Du erhältst gültige Haupteffektschätzungen in einem linearen Modell ohne Interaktion. Mit Interaktionen entsprechen die Haupteffekte der entsprechenden Variablen nicht mehr dem, was du normalerweise als Haupteffekt schätzen würdest und die gängige Interpretierbarkeit fällt weg.

"Ich halte es also nicht für zulässig, die Koeffizienten aus der Regressionsanalyse zu übernehmen und einfach die wegzulassen"
Es geht nicht darum, sie wegzulassen, sondern ob ich, wenn der Anteil der Selbstständigen nicht signifikant ist, der Interaktionsterm aber schon, den Betakoeffizienten des Intraktionsterms (der in ruralen Gebieten dem Selbstständigenanteil entspricht) mit dem Betakoeffizienten des Selbstständigenanteils verrechnen muss, wenn ich die Schätzgleichung mit eingesetzten Werten angebe.

Das verstehe ich leider nicht. Du wolltest schreiben "In ruralen Gebieten verändert sich die Wahlbeteiligung um -3.7+32.6*Selbstständigenanteil" und den Haupteffekt des Selbständigenanteils bei dieser Vorhersage weglassen, obwohl er in der Schätzung vorkommt. Und das geht meiner Meinung nach nicht. Du müsstest dann erst den Haupteffekt aus dem Modell schmeißen und es neu berechnen lassen.
mango
Elite
Elite
 
Beiträge: 330
Registriert: Fr 2. Mai 2014, 16:55
Danke gegeben: 3
Danke bekommen: 55 mal in 55 Posts

folgende User möchten sich bei mango bedanken:
Jacky

Re: Interaktionseffekte/nicht signifikante Variablen in Regr

Beitragvon Jacky » Di 15. Aug 2017, 14:05

Nochmals vielen dank für deine (schnelle) Antwort; ich hoffe ich nerve nicht allzu sehr, leider ist die Frage recht dringlich.
Aus didaktischen Gründen habe ich, zusätzlich meinen Regressionen, die Schätzfunktionen angegeben und dort, wo die Koeffizienten signifikant sind, eingesetzt (die nicht signifikanten Koeffizienten bzw. Variablen sind ebenfalls in der Formel inbegriffen, aber ohne konkreten Wert des Betakoeffizienten).
Das ergibt z.B. folgende Gleichung:
y ̂_WBT=α+β_RU x_RU+β_SA x_SA+β_RUSA(x_RU*x_SA),

wobei WBT = Wahlbeteiligung, RU = Ruralität (0/1) und SA = Selbstständigenanteil.

Um beim vorherigen Beispiel zu bleiben: wenn β_RU = -3.7 (signifikant) und β_SA = - 15.8 (nicht signifikant) und β_RUSA = 32.6 (signifikant),

würde ich das für Ruralität = 1 (rurale Regionen) schreiben als y ̂_WBT=α -3.7 +(β_SA + 32.6) x_SA,

da β_SA bzw. x_SA nicht signifikant ist. Als Formel ist das natürlich so oder so korrekt, doch wie interpretiere ich das jetzt?

Möglichkeiten, die ich sehe:

a) In ruralen Regionen wird die Wahlbeteiligung um -3.7 zuzüglich des 32.6-fachen des Selbstständigenanteils "verändert" (während in urbanen Regionen keine Reduktion durch den Selbstständigenanteil stattfindet)

oder

b) In ruralen Regionen wird die Wahlbeteiligung um -3.7 zuzüglich des (-15.8 + 32.6)-fachen des Selbstständigenanteils "verändert" (obwohl der Selbstständigenanteil als Haupteffekt nicht signifikant ist).

Falls dir keine der Möglichkeiten zusagt - könntest du mir schreiben, wie du den Effekt interpretieren würdest, wenn es deine Arbeit wäre?

Nachtrag: Ich denke ich habs jetzt verstanden - die Signifikanzen berühren die Formel in keinster Weise (die ist, wie sie ist, und enthält unabhängig von den Signifikanzen der Variablen alle Variablen). Aber in verbalen Interpretation ist die Nicht-Signifikanz anzumerken, sodass ich Formel b) schreiben müsste. Sagen müsste ich, dass in ruralen Regionen, je nach Höhe des Selbstständigenanteils, eine niedrigere oder höhere Wahlbeteiligung vorliegt, während der Selbstständigenanteil in urbanen Regionen keinen Einfluss ausübt. Liegt der Selbstständigenanteil bei 0 ist die Wahlbeteiligung um 3.7 Prozentpunkte niedriger als in urbanen Regionen. Korrekt?
Jacky
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mo 14. Aug 2017, 22:17
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Interaktionseffekte/nicht signifikante Variablen in Regr

Beitragvon mango » Mi 16. Aug 2017, 09:00

Klingt für mich richtig (ohne das jetzt nochmal in allen Details nachvollzogen zu haben). Wie gesagt: Das Wichtige ist, dass du den Vorhersagecharakter einer Regression und den hypothesenprüfenden Aspekt nicht durcheinanderbringst. Wie du richtig schreibst, ist die Regressionsgleichung die beste Lösung für den empirischen Zusammenhang zwischen den spezifizierten Variablen. Willst du eine Variable vernachlässigen (z. B. aufgrund fehlender Signifikanz), musst du sie vorher aus der Gleichung ausschließen. Willst du auf den Prognoseaspekt verzichten (und ich sehe nicht, wo der Vorteil dieser hakeligen Formulierungen ist, du musst ja in deiner Arbeit keine tatsächlichen Prognosen machen, nehme ich an), reicht es, sich die t-Tests sowie die Vorzeichen der Regressionskoeffizienten anzuschauen.
mango
Elite
Elite
 
Beiträge: 330
Registriert: Fr 2. Mai 2014, 16:55
Danke gegeben: 3
Danke bekommen: 55 mal in 55 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 11 Gäste

cron