Filtern/Glätten von Werten

Fragen, die sich auf kein spezielles Verfahren beziehen.

Filtern/Glätten von Werten

Beitragvon peterchenpan » Sa 12. Mär 2016, 15:37

Guten Tag zusammen,

ich wollte mich bei euch erkundigen, ob ihr vllt ein geeignetes Verfahren für mich kennt. Leider finde ich unter den Verteilungsverfahren kein geeignetes oder sehe den Wald vor lauter Bäumen nicht.

Es geht darum, dass ich eine große Menge an Messdaten erhalten habe, in denen einige "Fehler" enthalten sind - eine Art "Rauschen" (obwohl dies sicher nicht der korrekte Begriff ist). Dieses sind kleine Werte, da die Werte nur selten aufgetreten sind, aber in ihrer Anzahl machen sie einen Großteil aus, so dass ich nicht einfach einen Mittelwert, eine Standartabweichung oä nutzen kann. Ein kleines Beispiel: [1, 1, 2, 4, 11, 9, 3, 1000, 1312, 2, 5, 7230, 112]
Ich würde jetzt gern ein Verfahren anwenden, welches mir die kleinen Werte "filtert", wobei ich den Grenzwert leider nicht kenne und der für verschiedene Messungen sicherlich auch anders sein wird.

Kennt jmd ein solches Verfahren?
Ich würde mich sehr über den einen oder anderen Hinweis freuen.

Vielen Dank schon einmal für eure Hilfe und Zeit.

Mit freundlichem Gruß
peterchenpan
peterchenpan
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Sa 12. Mär 2016, 15:09
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Filtern/Glätten von Werten

Beitragvon mango » Sa 12. Mär 2016, 18:35

Hallo, mir ist nicht so ganz klar, was du genau von dem Verfahren erwartest. Datensätze mit Werten unter einem bestimmten Grenzwert löschen oder ersetzen kannst du mit den einfachen Kommandos deines Statistikprogramms. Du kannst auch von allen Werten einen bestimmten Wert abziehen. Aber wenn es sich dabei um einen nicht genau bestimmbaren Störterm handelt, kann keine Software ihn auf Kommando entfernen.

Aber erklär doch nochmal etwas genauer, was du möchtest.
mango
Elite
Elite
 
Beiträge: 330
Registriert: Fr 2. Mai 2014, 16:55
Danke gegeben: 3
Danke bekommen: 55 mal in 55 Posts

Re: Filtern/Glätten von Werten

Beitragvon peterchenpan » Sa 12. Mär 2016, 19:00

Guten Abend Mango,

danke für deine schnelle Antwort.

Ich möchte die Werte unter einem Grenzwert quasi entfernen bzw. ignorieren, also benötige ich genau diese Funktion eines Statistikprogramms. Ich extrahiere die Daten aus einer Vielzahl von Dateien und bereite diese anschließend auf damit ich diese verwenden kann. Da dies ziemlich viele Dateien sind und ich diverse Szenarien durchspielen möchte, möchte ich die Funktion selbst bauen und dann meine Skripte damit ausstatten. Leider weiß ich vorher nicht wie die einzelnen Grenzwerte aussehen und würde diese eben gern nach einer sinnvollen Methode berechnen und genau diese Methode bzw dieses Verfahren suche ich.

Ich dachte erst an eine Art Streuverhalten, aber der Ansatz brachte mich nicht wirklich weiter.
Ich hoffe, dass dies mein Vorhaben etwas besser beschreibt.

Gruß
peterchenpan
peterchenpan
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Sa 12. Mär 2016, 15:09
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Filtern/Glätten von Werten

Beitragvon bele » Sa 12. Mär 2016, 19:20

Zeichne mal ein Histogramm der Daten. Wenn die Werte so wie in Deinem Beispiel streuen kann man den cut-off vielleicht ganz einfach festlegen. Wenn es unbedingt objektiv sein muss, hilft vielleicht eine Clusteranalyse. Üblicher wäre es, einen getrimmten Mittelweg zu nehmen, also die größten und kleinsten 2,5% wegzuschneiden.


LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

Re: Filtern/Glätten von Werten

Beitragvon mango » Sa 12. Mär 2016, 19:31

Wenn du tatsächlich verschiedene Grenzwerte ermitteln lassen möchtest, würde ich Clusteranalysen mit verschiedenen Parametern darüber laufen lassen. Alles andere ist immer mit deiner eigenen Entscheidung darüber verbunden, was nun ein Rauschen ist und was nicht. Anders wäre es, wenn du eine Vorannahme darüber hättest, woher das Rauschen den stammt. Wird es durch eine andere erfasste Variable vorhergesagt, lassen sich ganz bequem die Residuen ermitteln.
mango
Elite
Elite
 
Beiträge: 330
Registriert: Fr 2. Mai 2014, 16:55
Danke gegeben: 3
Danke bekommen: 55 mal in 55 Posts

Re: Filtern/Glätten von Werten

Beitragvon peterchenpan » Sa 12. Mär 2016, 19:43

Guten Abend Bernhard,

das mit dem Histogramm hatte ich exemplarisch schon versucht und dort klar gesehen, dass es einen Grenzwert geben muss. Leider ist dieser jedoch nicht bei allen gleich und ich möchte ungern einen fixen Wert einfach so bestimmen. Ich habe insgesamt über 500 Punkte die ich auswerten möchte, jeder einzelne hat wiederum eigene Daten (von ein paar wenigen bis zu ein paar hunderten).
Ich habe mir zwei exemplarische Punkte genommen und dort je 300-350 Daten gefunden. Davon sind jedoch nur 5-10% relevant, da die anderen Daten nur kleine Ausschläge sind, die ich mal allgemein als "Rauschen" oder "Fehler" betitelt hatte. Ungefiltert sind die Daten nicht wirklich aussagekräftig, aber ich kann diesen Grenzwert nicht für jeden Punkt visuell oder händisch bestimmen, dafür sind es einfach zu viele.

Ich habe in einem Beispiel 9 Werte mit >2.000 gesehen und die restlichen 300+ Werte sind deutlich geringer. Andere Punkte kommen jedoch nicht einmal im Maximum an die 2.000.
Ich überlege nun einfach die oberen 10 Werte zu nehmen und den Rest als "Rauschen" zu bewerten, jedoch empfinde ich dies als sehr unschöne Lösung.

Gruß
peterchenpan


edit:\\ Vielleicht versuche ich es nur mit Werten die mindestens größer als 1-2% des Maximums sind. Meint ihr das wäre sinnvoll?
Zuletzt geändert von peterchenpan am Sa 12. Mär 2016, 19:52, insgesamt 1-mal geändert.
peterchenpan
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Sa 12. Mär 2016, 15:09
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Filtern/Glätten von Werten

Beitragvon bele » Sa 12. Mär 2016, 19:50

Wenn Du die Histogramme gesehen hast kannst Du vielleicht abschätzen, on mein Vorschlag mit der Clusteranalyse (kurz danach auch von mango vorgeschlagen) klappen wird oder nicht.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

Re: Filtern/Glätten von Werten

Beitragvon peterchenpan » Sa 12. Mär 2016, 19:55

Guten Abend Bernhard und Mango,

ich werde mir das mit der Clusteranalyse überlegen. Ich schaue mir auch die Variante mit den 1-2% des Maximums an ggf reicht schon das.

Vielen Dank für eure Hilfe.

Gruß
peterchenpan
peterchenpan
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Sa 12. Mär 2016, 15:09
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Filtern/Glätten von Werten

Beitragvon bele » Sa 12. Mär 2016, 19:58

Du könntest sonst auch die Ausreißerdefinition vom Boxplot erwägen: Was mehr als 1,5 IQR vom Median weg ist, gehört nicht mehr dazu...
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 15 Gäste

cron