Multiple Regression: Log-Log-Trasnformation

Alle Verfahren der Regressionanalyse.

Multiple Regression: Log-Log-Trasnformation

Beitragvon Stilo » Mo 11. Mär 2024, 19:32

Hallo liebe Community,

im Rahmen meiner Arbeit habe ich die entscheidenden Inputfaktoren für die Wirtschaftlichkeit im Sinne von Umsätzen oder Profitabilität untersucht. Hierbei habe ich verschiedene statistische Analysen durchgeführt und stehe nun vor zwei wichtigen Fragen, auf die ich gerne eure Meinungen und Ratschläge hören würde.

1. Umgang mit kategorialen Variablen in einer multiplen Regression: Ich habe neben den kontinuierlichen Variablen auch drei kategoriale Variablen, nämlich Länder (mit 25 Ausprägungen), Methodiken (mit 8 Ausprägungen) und angebotene Services (mit 3 Ausprägungen). Bisher habe ich diese nicht in meine Regression aufgenommen, da die Erstellung von Dummy-Variablen viele weitere Variablen hinzufügen würde, insbesondere bei den Ländern mit 25 Ausprägungen. Meine Frage ist daher, ob ich diese kategorialen Variablen ebenfalls berücksichtigen sollte und wie ich argumentieren könnte, falls ich mich dafür entscheide, sie auszulassen.

2. Log-log-Transformation in der multiplen Regression: Zur Vergleichbarkeit mit anderen Studien möchte ich eine log-log-Transformation anwenden. Diese ermöglicht eine Interpretation wie folgt: Eine 1%-ige Änderung einer unabhängigen Variablen führt zu einer x%-igen Änderung der abhängigen Variablen. Meine Frage hierzu ist, ob diese Interpretationsweise auch bei einer multiplen Regression dieselbe bleibt oder ob ich dabei zusätzliche Aspekte beachten muss. Weiterhin habe ich negative Werte für meine abhängige Variable, die ich nicht log-transformieren kann. Gibt es hierfür eine Lösung oder alternative Herangehensweisen?

Ich bin gespannt auf eure Gedanken und Erfahrungen zu diesen Fragen. Vielen Dank im Voraus für eure Hilfe!

Viele Grüße
Stilo
Stilo
Beobachter
Beobachter
 
Beiträge: 11
Registriert: Di 5. Mär 2024, 16:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Multiple Regression: Log-Log-Trasnformation

Beitragvon PonderStibbons » Mo 11. Mär 2024, 21:34

Meine Frage ist daher, ob ich diese kategorialen Variablen ebenfalls berücksichtigen sollte und wie ich argumentieren könnte, falls ich mich dafür entscheide, sie auszulassen.

Je nun, wie soll man das wissen? Es fehlt die Angabe zumindest des konkreten Themas, der Fragestellungen, des Erhebungsdesigns, der Stichprobengröße.
Weiterhin habe ich negative Werte für meine abhängige Variable, die ich nicht log-transformieren kann. Gibt es hierfür eine Lösung oder alternative Herangehensweisen?

Addition einer Konstante, sodass alle Werte positiv sind.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Multiple Regression: Log-Log-Trasnformation

Beitragvon Stilo » Mo 11. Mär 2024, 22:45

Hallo PonderStibbons,

danke dir für deine Antwort :)

Bzgl. den Angaben: Es handelt sich hierbei generell um die Betrachtung der Wirtschaftlichkeit einer Energiespeicheranwendung, welche durch den erzielbaren Umsatz bzw. Profit charakterisiert wird. Hierzu habe ich aus einer Vielzahl an Papern Daten gesammelt und möchte diese in einer Metastudie bündeln. Da ich in meiner Excel ursprünglich 20 Faktoren und häufig mit Missing Values zu kämpfen hatte (aufgrund der Paper), wollte ich zuerst die Signifikanz über eine One-Way ANOVA (kategoriell) bzw. dem Pearson-Koeffizienten (nicht-kategoriell) testen. Bei der ANOVA sind 3 Faktoren rausgekommen - Land, Methode, angebotene Dienstleistung. Da ich für jedes Land eine eigenen Regressionkoeffizenten und somit 25 "Länderkoeffizienten" hätte, stelle ich mir das nicht sehr aufschlussreich für eine multiple Regression vor. Selbes Spiel mit Methode (8 Ausprägungen) und angebotene DL (3).

Bzgl. der Addition: Ich hatte gedacht, dass dies zur Verzerrung der Werte führen würde. Ich habe 5 Werte (aus ca. 170), die einen negativen Profit von max. 550€ aufweisen. D.h. ich würde auf Profit entsprechend 550€ aufschlagen?

Vielen Dank vorab :)
Stilo
Beobachter
Beobachter
 
Beiträge: 11
Registriert: Di 5. Mär 2024, 16:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Multiple Regression: Log-Log-Trasnformation

Beitragvon PonderStibbons » Mo 11. Mär 2024, 22:58

Da ich in meiner Excel ursprünglich 20 Faktoren und häufig mit Missing Values zu kämpfen hatte (aufgrund der Paper), wollte ich zuerst die Signifikanz über eine One-Way ANOVA (kategoriell) bzw. dem Pearson-Koeffizienten (nicht-kategoriell) testen. Bei der ANOVA sind 3 Faktoren rausgekommen - Land, Methode, angebotene Dienstleistung.

Damit hast Du doch Dein Ergebnis, worin besteht das Problem? Ein Regressionsmodell auf Basis einer
solchen Selektionsprozedur zu bauen, würde zu verzerrten Ergebnissen führen, weil die Regression
nicht wissen kann, dass der Zufall bereits in der vorgelagerten Selektion ausgenutzt werden
konnte.

Was unabhängig davon das Problem der vielen Kategorien angeht, man kann auch eine mehrfaktorielle
Varianzanalyse rechnen und dabei intervallskalierte Prädiktoren einbeziehen (Kovarianzanalyse). Da
immer noch die zentrale Angabe der Stichprobengröße fehlt, ist nur wenig dazu zu sagen.
Bzgl. der Addition: Ich hatte gedacht, dass dies zur Verzerrung der Werte führen würde. Ich habe 5 Werte (aus ca. 170), die einen negativen Profit von max. 550€ aufweisen. D.h. ich würde auf Profit entsprechend 550€ aufschlagen?

Was soll da verzerrt sein? Es ist eine Lineartransformation.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Multiple Regression: Log-Log-Trasnformation

Beitragvon Stilo » Mi 13. Mär 2024, 14:16

Hallo,

erstmal danke für die ausführliche Erläuterung

PonderStibbons hat geschrieben:
Damit hast Du doch Dein Ergebnis, worin besteht das Problem? Ein Regressionsmodell auf Basis einer
solchen Selektionsprozedur zu bauen, würde zu verzerrten Ergebnissen führen, weil die Regression
nicht wissen kann, dass der Zufall bereits in der vorgelagerten Selektion ausgenutzt werden
konnte.


Leider habe ich noch nicht ganz verstanden, was du damit konkret meinst. Ich dachte dieses Verfahren wäre soweit in Ordnung.

Vielen Dank vorab!

Viele Grüße
Stilo
Stilo
Beobachter
Beobachter
 
Beiträge: 11
Registriert: Di 5. Mär 2024, 16:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Multiple Regression: Log-Log-Trasnformation

Beitragvon bele » Mi 13. Mär 2024, 15:02

Stell Dir vor, Du hast eine metrische Abhängige Variable (AV) und tausend rein zufällige Variablen, die alle nichts mit der Abhängigen zu tun haben. Rein zufällig, wird unter den tausend aber eine sein, die gut mit der AV korreliert. Diese eine identifizierst Du durch dein Herumprobieren und stellst dann ein Regressionsmodell mit dieser einen als UV und unserer AV auf. Natürlich entsteht jetzt ein hoch signifikantes Regressionsmodell obwohl wir doch im ersten Satz geklärt haben, dass es gar keinen Zusammenhang gibt.

Siehe hier beispielsweise den Zusammenhang zwischen dem Umsatz US-amerikanischer Farmer und der Häufigkeit des Suchtermn "who ist the doctor" bei Google über die Zeit: https://www.tylervigen.com/spurious/cor ... the-doctor oder hier den Zusammenhang zwischen der Zahl der Elektoringenieure (?) in MExico und den Anzahl der Gand Slam Finale, die Roger Federer gespielt hat: https://www.tylervigen.com/spurious/cor ... new-mexico

Diese Korrleationen sind genau nach dem oben genannten Schema entstanden. Erscheinen Dir die Zusammenhänge glaubwürdig?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

Re: Multiple Regression: Log-Log-Trasnformation

Beitragvon PonderStibbons » Mi 13. Mär 2024, 15:07

Wenn ich 100 Variablen auf ihre Beziehung hin zur AV überprüfe und es haben 3 eine "signifikante" Beziehung auf dem 5%-Niveau,
und daraus mache ich ein Regressionmodell, dann habe ich damit ein Modell, das mit großer Wahrscheinlichkeit auf Zufallsfluktuationen
beruht. Die Varianzaufklärung, Stichprobengewichte, Standardfehler und dementsprechend die p-Werte der Regressionsanalyse sind
dann nicht brauchbar, weil das Modell nicht "weiß", dass es implizit 100 und nicht nur 3 Variablen einbezogen hat. Das bedeutet auch,
dass die Ergebnisse über die Stichprobe hinaus nicht generalisierbar sind, was man in der Wissenschaft aber anstrebt.

Das Beispiel ist extrem gewählt, aber im Prinzip stellt sich dieses Problem der Überanpassung (overfitting) jedesmal, wenn aus vielen
Variablen anhand statistischer Kriterien diejenigen ausgewählt werden, welche in ein statistisches Erklärungs- bzw. Vorhersagemodell
hinein sollen.
https://pubmed.ncbi.nlm.nih.gov/8699212/
https://pubmed.ncbi.nlm.nih.gov/8668867/

Zudem kann diese Prozedur auch Variablen als "im bivariaten Test nicht statistisch signifikant" unangebrachter Weise ausschließen, die
in einem multiplen Regressionmodell durchaus relevant gewesen wären.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Multiple Regression: Log-Log-Trasnformation

Beitragvon Stilo » Do 14. Mär 2024, 13:46

Hallo Zusammen,

ich glaube, dass hier ein Missverständnis aufgekommen ist. Aus den 20 UV habe ich eine Signifikanz für 8 UV feststellen können über den Pearson Korrelationskoeffizienten bzw. One-Way ANOVA. Ich weiß, dass ich hierdurch UV ausschließe, die eventuell in einem multiplen Regressionsmodell signifikant sein könnten, jedoch haben die Daten einige Missing Values.

Im Folgenden ging es mir darum, dass 3 UV kategoriell sind und ich bei Überführung in das Regressionsmodell viele Dummy-Variablen hinzufügen müsste. So habe ich allein 25 Marktregionen, 8 Methodiken und 3 angebotene DL, die entsprechend Dummy codiert werden müssten. Ich wollte mich erkundigen, ob ich nicht eher diese UV nicht in mein Modell einbauen sollte, da ich beispielsweise einen Koeffizienten für verschiedene Marktregionen unsinnig fände oder einen Regressionskoeffizienten für eine deterministische Optimierung.

Viele Grüße
Stilo
Stilo
Beobachter
Beobachter
 
Beiträge: 11
Registriert: Di 5. Mär 2024, 16:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Multiple Regression: Log-Log-Trasnformation

Beitragvon bele » Do 14. Mär 2024, 17:32

Stilo hat geschrieben:So habe ich allein 25 Marktregionen, [...]Ich wollte mich erkundigen, ob ich nicht eher diese UV nicht in mein Modell einbauen sollte, da ich beispielsweise einen Koeffizienten für verschiedene Marktregionen unsinnig fände


Hallo Stilo,

bist Du mit random effects Modellen vertraut? Du kannst damit sagen: Ich unterstelle, dass diesen 25 Marktregionen jeweils ein Koeffizient zustehen sollte, ich glaube, dass diese 25 Koeffizienten aus einer Normalverteilung stammen und ich will keine Freiheitsgrade opfern, um jeden einzelnen dieser Koeffizienten zu testen. Anstelle der 25 Koeffizienten bestimmt das Modell dann nur noch zwei: Den durchschnittlichen Marktregionskoeffizienten und dessen Standardabweichung. Wenn man solche random effects mit normalen, sog. fixed effects, kombiniert, spricht man von einem mixed effects model. Könnte hier passen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste

cron