Interpolation fehlender Daten mit Nebenbedingung

Fragen, die sich auf kein spezielles Verfahren beziehen.

Interpolation fehlender Daten mit Nebenbedingung

Beitragvon keyfeyo » So 29. Jan 2017, 15:58

Hallo zusammen!

Ich reihe mich dann mal ein in die Gruppe "Studenten, die sich nur für eine eigene Frage hier einmal kurz melden" ein... :-)

Ich bin leider ein wenig am verzweifeln, bzw. habe schon zu viel Zeit in ein statisches Problem für meine Bachelorarbeit gesteckt, ohne eine zufriedenstellende Lösung gefunden zu haben. Zu viel Zeit deswegen, da meine Arbeit eigentlich in einer ganz anderen Disziplin angesiedelt ist, als Statistik. Weil es aber eben eine Abschlussarbeit ist, möchte ich mein Problem gerne "wissenschaftlich" und nicht einfach "improvisiert" lösen.

Ich schildere mein Problem im ersten Abschnitt einmal rein wörtlich, im zweiten Abschnitt bringe ich dann die meiner Meinung nach relevanten Informationen mit ein.

Es geht um das Beschreiben einer beobachteten Marktsituation aus den Jahren 2010 bis 2016, ich brauche also keine Extrapolation. Leider habe ich eben teilweise unvollständige Daten der Marktteilnehmer, die es zu interpolieren gilt. Das grobe Problem an der Sache: Ich habe sämtliche Daten lediglich in Form einer Top10-Rangliste für jeden Monat vorliegen. Das führt dazu, dass ich starke Marktteilnehmer, die jeden Monat unter den Top10 sind, vollständig beschreiben kann. Allerdings gibt es eben auch Marktteilnehmer, die nur 11 oder 10 Mal (oder eben auch nur 1-6 Mal) in einem Jahr in den Top 10 zu finden sind, und mir dementsprechend keine vollständigen Daten geben. Ich kenne allerdings jeden Monat das Gesamtvolumen des Marktes exakt. Jetzt ist ja an sich das am naheliegendste eine Regression, um die Werte zu interpolieren. Habe ich auch (zugegeben, in Excel) ein paar mal durchgespielt. Damit kann ich mir auch auf den ersten Blick plausibele Werte mit einem hohen Bestimmtheitsmaß basteln, allerdings habe ich eine Art Nebenbedingung, die mir rein logisch widerspricht. Dadurch, dass ich Jahr jeden Monat den Wert von Platz 10 des Rankings kenne, weiß ich, dass fehlende Werte von Marktteilnehmern hier drunter liegen müssen. Und das widerspricht in den meisten Fällen den interpolierten Werten meiner Regression. Um es in meinen Worten zu beschreiben suche ich eine Möglichkeit der Interpolation mit Beachtung einer Nebenbedingung in Form einer Max-Beschränkung.

Im folgenden nun ein Ansatz meiner Problembeschreibung bzw. meiner Gedanken, für ein besseres Verständnis:

Marktteilnehmer n: Kann ich absolut nicht genau bestimmen. Es sind mind. 19, die ich in den Top 10 sicher beobachten kann. Ich weiß jedoch nicht, wie viele sich in der "grauen Masse" mit ganz kleinen Anteilen befinden, die ich eben nie in den Top10 zu Gesicht bekomme (die interessieren mich inhaltlich auch nicht). Ich könnte hier eine plausible Annahme treffen, wenn es nötig wäre, vermutlich n = 50 - 60

Sehe ich das richtig, dass ich die Daten hier als abhängige Variablen interpretieren muss? Da sie sich ja gegenseitig beeinflussen. Was der eine Marktteilnehmer aufnimmt, fehlt ja dem anderen irgendwo...

Auch wenn es sich um Jahreswerte handelt, so kann ich Saisonalitäten in dieser Hinsicht vernachlässigen (meine Beobachtung)

Ich habe 7 Jahre beobachtet, heißt im Idealfall liegen 7 x 12 (Monate) = 84 Werte pro Marktteilnehmer vor.
Genau genommen handelt es sich um eine Top-11 Liste, zuzüglich "dem Rest", heißt ich habe 12 (Werte) x 12 (Monate) = 144 Werte pro Jahr

Im Anhang einmal eine beispielhafte Übersicht (quantitativ!): grün = liegt vollständig vor, gelb = fehlen wenige Werte, rot = fehlen viele Werte

Weiterhin lade ich einmal eine Grafik zur Beschreibung meines Problems mit der Grenze hoch.
x-Achse = Monat 1 bis 12
y-Achse = nummerischer Marktanteil (nicht prozentual)
Die rote Linie kennzeichnet die besagte Obergrenze, unter der ein fehlender Wert zwingend liegen muss. Die Kreuze zeigen eine Datenreihe mit 11 vorhandenen Werte, der Septemper (09) fehlt eben. Hier sieht man ganz gut, das die Interpolation Polynom 6. Grades logisch nicht stimmen kann, weil dieser Wert unter der roten Linke liegen müsste. Das Bestimmtheitsmaß war das Beste, was ich erreichen konnte, ist aber auch nicht wirklich zufriedenstellend...

Das ist jetzt ganz schön viel Text geworden. Es wäre klasse, wenn hier jemand einen Tipp oder vllt sogar eine Lösungskizze für mich hätte. Ich hab definitiv Lust daran zu basteln, muss aber wie oben angedeutet schauen, dass ich mich da nicht im Statistiksumpf verliere, da es nur eine kleine Nebenleistung ist...

Einen schönen Sonntag euch allen!

EDIT: Leider klappt der Datenupload nicht. Mein Kontingent ist bereitsüberschritten? :-(

Bild
Bild
Zuletzt geändert von keyfeyo am Mi 1. Feb 2017, 16:12, insgesamt 1-mal geändert.
keyfeyo
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Sa 28. Jan 2017, 16:53
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Interpolation fehlender Daten mit Nebenbedingung

Beitragvon forenthomas » Mi 1. Feb 2017, 12:23

Hallo keyfeyo,

da sich dir sonst keiner annimmt, versuche ich mal ein paar Anregungen zu geben.

Zum einen ist die angewandte Statistik sicher keine Frage einer Disziplin. Statistiker bzw. Mathematiker mit Schwerpunkt Statistik, wenn du die als die im Kopf hast, deren Disziplin das sein soll, beschäftigen sich mit ganz anderen Fragen. Statistik ist hingegen Grundlage für einen großen Teil des Erkenntnisgewinns in allen Disziplinen und sollte daher auch fester Bestandteil jeder Disziplin sein - meine Meinung.

In deinem Fall frage ich mich allerdings, ob du die Statistik nicht etwas überstrapazierst. Natürlich kannst du über Regression interpolieren - aber ... Wie sieht es denn mit deinen Daten aus? Erfüllen diese die Voraussetzung? Und wie sieht denn die Regression aus? Einen linearen Zusammenhang würde ich ganz stark anzweifeln, denn wenn Unternehmen A erst in den Top 10 war, dann nicht, dann aber wieder drin ... sieht mir das nicht sehr linear aus. Und was machst du mit der Unsicherheit? Jede Regression impliziert Unsicherheit, wie bewertest du die bzw. baust du die ein?

Ehrlich gesagt würde ich die Interpolation lassen. Beschränk dich auf die Daten, die dir vorliegen. Behandle die Aufsteiger als Aufsteiger, die Absteiger als Absteiger, die Wackelkandidaten als Wackelkandidaten und versuch, die sich daraus ergebenden Erkenntnisse sauber herauszuarbeiten. Alles andere hört sich für mich erst mal mehr nach Kaffeesatzleserei an als nach Statistik.

Gruß, Thomas
forenthomas
Power-User
Power-User
 
Beiträge: 76
Registriert: Mi 3. Aug 2016, 18:52
Danke gegeben: 9
Danke bekommen: 7 mal in 7 Posts

Re: Interpolation fehlender Daten mit Nebenbedingung

Beitragvon bele » Mi 1. Feb 2017, 14:12

Hallo!

@forenthomas: Keine Entschuldigungen nötig - wer zuerst glaubt, dass er was zu sagen hat, der darf das auch als erster sagen.

@keyfeyo: Das mit dem Hochladen klappt bei keinem und bislang hat von den Forenbetreibern m. W. noch keiner auf die Klagen reagiert. Vielleicht schreibst Du es trotzdem nochmal beispielsweise in diesen Thread: nutzung-des-forums-f44/dateien-anhangen-t7988.html

Ansonsten habe ich verstanden, dass Du über monatliche Abstände hinweg jeweils die Top Ten aus einem Ranking kennst und irgendwas interpolieren möchtest. Ich habe noch nicht verstanden, was Du mit dem Ergebnis dann tun willst. Wenn Du "vermutete Rangplätze der nicht aufgelisteten" publizieren willst, wäre das wohl unseriös. Wenn Du etwas anderes damit rechnen oder darstellen möchtest, dann beschreibt das bitte nochmal. So ohne Endziel vor Augen, ist es schwer, Dir was zu raten.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5921
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

Re: Interpolation fehlender Daten mit Nebenbedingung

Beitragvon keyfeyo » Mi 1. Feb 2017, 16:49

forenthomas hat geschrieben:Hallo keyfeyo,

da sich dir sonst keiner annimmt, versuche ich mal ein paar Anregungen zu geben.

Zum einen ist die angewandte Statistik sicher keine Frage einer Disziplin. Statistiker bzw. Mathematiker mit Schwerpunkt Statistik, wenn du die als die im Kopf hast, deren Disziplin das sein soll, beschäftigen sich mit ganz anderen Fragen. Statistik ist hingegen Grundlage für einen großen Teil des Erkenntnisgewinns in allen Disziplinen und sollte daher auch fester Bestandteil jeder Disziplin sein - meine Meinung.


Hallo Thomas,
vielen Dank, dass du noch auf mich zurückkommst. Genau, das sehe ich identisch. Deswegen ist es ja auch mein Anspruch, das Problem mit angewandter Statistik zu lösen. :-)

forenthomas hat geschrieben:In deinem Fall frage ich mich allerdings, ob du die Statistik nicht etwas überstrapazierst. Natürlich kannst du über Regression interpolieren - aber ... Wie sieht es denn mit deinen Daten aus? Erfüllen diese die Voraussetzung? Und wie sieht denn die Regression aus? Einen linearen Zusammenhang würde ich ganz stark anzweifeln, denn wenn Unternehmen A erst in den Top 10 war, dann nicht, dann aber wieder drin ... sieht mir das nicht sehr linear aus. Und was machst du mit der Unsicherheit? Jede Regression impliziert Unsicherheit, wie bewertest du die bzw. baust du die ein?


Die Voraussetzungen sind - nach meinem Verständnis - nicht vollends erfüllt, da wie oben beschrieben die Variablen stochastisch abhängig sind (darf ich prinzipiell trotzdem eine Regression machen, oder einfach Unabhängigkeit voraussetzen?). Eine Unsicherheit kann ich akzeptieren, da die Auswirkungen der Wertewahl eine eher kleine Auswirkung auf die Jahresperformance hat. (Bei anderen Unternehmen kann dies schon brenzliger werden, wenn sie mehrmals unter der roten Linie liegen..)

Ich habe meinen Ursprungsbeitrag jetzt editiert und die beiden Links via Hoster angefügt. Ein linearer Zusammenhang ist absolut nicht gegeben. Die besten Bestimmtheitsmaße konnte ich mit Polynomen 4. 5. oder 6. Ordnung erreichen.
In der beigefügten Regression stellt die rote Linie den 10. Platz jedes Monats des Rankings dar, also den Wert, der maximal von einem Teilnehmer erreicht werden kann, der nicht unter den Top10 ist. Die Punkte stellen die bekannten Werte des Marktteilnehmers dar. Man sieht, dass es keinen Punkt im September gibt. Die Regression gibt mir nun einen Wert von ca. 620.000. Das scheint auch an sich plausibel, aber ist eben rein logisch nicht möglich, da ich aufgrund der Eigenschaften eines Top10 Rankings weiß, dass der Wert unter der roten Linie liegen muss...

forenthomas hat geschrieben:Ehrlich gesagt würde ich die Interpolation lassen. Beschränk dich auf die Daten, die dir vorliegen. Behandle die Aufsteiger als Aufsteiger, die Absteiger als Absteiger, die Wackelkandidaten als Wackelkandidaten und versuch, die sich daraus ergebenden Erkenntnisse sauber herauszuarbeiten. Alles andere hört sich für mich erst mal mehr nach Kaffeesatzleserei an als nach Statistik.


Ja, den Entschluss habe ich mittlerweile auch gefasst. Ich habe das Spiel noch soweit getrieben, dass ich meine Regressionskurve mit einem linearen Optimierungsproblem verbunden habe, à la "Maximiere R² unter der Bedinungung, dass x_September kleinergleich rote Linie ist". Das ließ sich auch umsetzen, aber als Konsequenz wurde x_September dann natürlich immer exakt auf die rote Linie gesetzt. Unter keinen Umständen wird mir eine Regression "freiwillig" Werte geben, die so tief in der Wertereihe noch nicht vorgekommen sind..., macht Sinn.
Ich werde nun einfach den Ansatz verwenden, fehlende Daten mit dem Wert der roten Linie gleichzusetzen. Es ist aufgrund der vorliegenden Daten halt wahrscheinlich, dass sich der September Wert eher an der roten Linie befindet, als bei 0.

Also, das Thema kann so gesehen als erledigt betrachtet werden, es sei denn dir kommt nach meinen neuesten Erläuterungen noch ein Geistesblitz hierzu :-)

Viele Grüße
Carsten
Zuletzt geändert von keyfeyo am Mi 1. Feb 2017, 17:47, insgesamt 1-mal geändert.
keyfeyo
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Sa 28. Jan 2017, 16:53
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Interpolation fehlender Daten mit Nebenbedingung

Beitragvon keyfeyo » Mi 1. Feb 2017, 17:01

bele hat geschrieben:Hallo!

@forenthomas: Keine Entschuldigungen nötig - wer zuerst glaubt, dass er was zu sagen hat, der darf das auch als erster sagen.

@keyfeyo: Das mit dem Hochladen klappt bei keinem und bislang hat von den Forenbetreibern m. W. noch keiner auf die Klagen reagiert. Vielleicht schreibst Du es trotzdem nochmal beispielsweise in diesen Thread: nutzung-des-forums-f44/dateien-anhangen-t7988.html

Ansonsten habe ich verstanden, dass Du über monatliche Abstände hinweg jeweils die Top Ten aus einem Ranking kennst und irgendwas interpolieren möchtest. Ich habe noch nicht verstanden, was Du mit dem Ergebnis dann tun willst. Wenn Du "vermutete Rangplätze der nicht aufgelisteten" publizieren willst, wäre das wohl unseriös. Wenn Du etwas anderes damit rechnen oder darstellen möchtest, dann beschreibt das bitte nochmal. So ohne Endziel vor Augen, ist es schwer, Dir was zu raten.

LG,
Bernhard


Hallo Bernhard,

auch Dir noch vielen Dank für deine Antwort.

Ich habe mein Problem in der Antwort auf Thomas Beitrag noch etwas ausgeführt.
Mein Ziel ist es eigentlich "nur" eine plausible Annahme für den fehlenden September Wert zu treffen, ohne meine logische Nebenbedingung (rote Linie) zu verletzen. (Der Platz des Rankings ist mir an sich egal, mich interessierten die Marktanteile bzw. die absoluten Werte eines Teilnehmers, wobei diese natürlich korrelieren werden).

Wie bereits zu Thomas geschrieben, ich habe mich entschlossen einen improvisierten Ansatz ohne statische Anwendung zu wählen.

Habe in dem von dir verlinkten Thread nochmal auf die Upload-Probleme hingewiesen.

Danke Dir und viele Grüße
Carsten
keyfeyo
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Sa 28. Jan 2017, 16:53
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste