Hallo liebe Forumgemeinde,
Ich habe einen großen Datensatz mit biologischen Daten (2000 Proben, 30 Parameter), die 2 verschiedenen Gruppen angehören. Nun habe ich eine LDA (lineare Diskriminanzanalyse) mit der Software R durchgeführt (package MASS, function "lda").
Dazu habe ich meinen Datensatz in 60% Trainingsgruppe und den Rest (=40%) als Testgruppe geteilt.
Die Ergebnisse sind zufriedenstellend, das heißt die Klassifzierung meiner Testgruppe klappt sehr gut (hohe "Spezifität" und "Sensitivität").
Dann habe ich meine Datensatz standardisiert (function "scale" in R verwendet), die gleiche Trainingsgruppe und die gleiche Testgruppe ausgewählt. Anschließend habe ich erneut eine LDA in R gemacht. Nun sind diese Ergebnisse noch besser! (bezüglich Spezifität, Sensitivität)
Das erscheint mir insofern logisch, da LDA besonders gut bei multivariat normalverteilten Datensätzen funktioniert, wo die Kovarianz-Matrizen in beiden Gruppen gleich sind. Allerdings habe ich nirgendwo in der Literatur Hinweise gefunden, dass man die Daten standardisieren soll, bevor man eine LDA durchführt.
Daher meine Fragen:
1. Ist es immer von Vorteil die Daten vor der LDA zu standardisieren?
2. Welche Nachteile kann das haben?
Vielen Dank für eure Hilfe!
Gruß,
Beate