Hallo zusammen,
folgendes Problem:
Ich schreibe zur Zeit meine Diplomarbeit und habe eine Datenbasis, die ich auswerte.
Die Datenbasis ist nicht von mir selber erstellt worden und umschreibt ein komplettes Experimentaldesign.
Nun habe ich eine (multiple) Regressionsanalyse vorgenommen und ein R² von 0,89 erhalten. Soweit so gut.
Als ich die Experimentellen und Berechneten Daten gegeneinander geplottet habe, viel mir auf, dass ein Datenpunkt eine starke Abweichung besitzt (über 20% zwischen dem experimentellen und berechnetem Wert).
Wenn ich diesen aus der Regressionsrechnung rausnehme, bekomme ich ein neues R² von 0,97 also viel besser.
Leider kann ich den Datensatz nicht anhand seiner Rohdaten ausschließen, da dieser keine wirklichen Aufälligkeiten zeigt.
Also es wäre schön, wenn ich irgendwie für meine Diplomarbeit begründen könnte, dass ich den Datensatz rauslasse. Meine DA schreibe ich in einem Unternehmen und die wollen vor allem, dass die Ergebnisse stimmen
Hat jemand eine Idee?
Vielen Dank
Maggoo