Hi bele,
tatsächlich geht es um ein gut vorhersagendes Modell. Es sollte u.a. mit der funktion lm() gearbeitet werden.
summary(model) zeigt anhand der Signifikanzcodes, dass die Variable
brand (also Marke) speziell für die Ausprägung der Luxusmarken (darunter Auston Martin) sehr signifikant ist.
Im Gegensatz dazu meckert vif(modell), dass mit der variable
brand eine sehr starke Multikollinearität herrscht und ich die Variable
brand verwerfen soll.
Mein Bauchgefühl sagt, dass ich die Variable
brand unbedingt mit einbeziehen sollte.
und man könnte R sagen, dass es die hohen Preise von PS-starken Porsches einigermaßen gleichmäßig auf PS und Porsche verteilen soll. Dann weiß R wieder, was es zu tun hat und liefert trotz Multikollinearität stabile Werte, wenn auch ohne p-Wert.
Ich habe einen guten p-Wert mit < 0,001 unter
brand Ausprägung "Auston Martin", aber diese
brand weist sehr starke Multikollinearität aus.
Sollte ich nun in mein Modell mit der Funktion lm() die die Variable
brand hinzufügen, weil der vorhergesagte Preis des zu schätzenden Auston Martin Fahrzeugs realistischer ist oder nicht?
Wie lässt es sich am besten begründen, wieso die Empfehlung von vif() missacht wird?