Hallo,
ich würde gerne auf meinem Windows-Rechner verschiedene Aufgaben ausführen (z.B. send E-Mail, open Internet Explorer, scave File, close Google Chrome etc.) und dabei den Ressourcen-Verbrauch (CPU-Usage, System-State before idle or not idle etc.) messen. Anschließend soll dann geclustert werden welche Jobs "teuer", "billig" oder "mittelmäßig" sind. Dabei muss ich aber zuerst heraus finden welche der möglichen Windows-Messwerte überhaupt gut für solche Schätzungen sind. Dies soll anhand der Dauer für die durchgeführte Aufgabe geschätzt werden. Ich würde also eine Feature Selection anwenden, die mir auswählt welche der möglichen Messwerte die Response Time am besten schätzen können. Eigentlich würde ich das beispielsweise einfach mit irgendwelchen Wrapper-Methoden (stepwise selection etc.) oder anhand von Filtermethoden (z.B. Entropie oder Fisher-Score etc.) machen, aber das Problem ist, dass es sehr viele Möglichkeiten für die relevanten unabhängigen Variablen gibt. die voneinander abhängig sind oder sich sogar gegenseitig durch Linearkombination zweier anderer ausdrücken lassn etc. Beispielsweise werden die Daten aggregiert und dann könnte es sein, dass der Mittelwert, die Summe, der Median, das Maximum etc. der CPU-Messung am aussagekräftigsten ist, diese vier jedoch stark miteinander korrellieren.
Könnt ihr mir Tipps geben welche Variablenselektionsmethoden mit solchen Variablen gut umgehen können? Dimensionsreduzierende Methoden kommen dabei nicht in Frage, da die anschließende Interpretierbarkeit gegeben sein muss.
Vielen Dank für eure Hilfe und liebe Grüße,
Mira