Hallo zusammen!
Ich reihe mich dann mal ein in die Gruppe "Studenten, die sich nur für eine eigene Frage hier einmal kurz melden" ein...
Ich bin leider ein wenig am verzweifeln, bzw. habe schon zu viel Zeit in ein statisches Problem für meine Bachelorarbeit gesteckt, ohne eine zufriedenstellende Lösung gefunden zu haben. Zu viel Zeit deswegen, da meine Arbeit eigentlich in einer ganz anderen Disziplin angesiedelt ist, als Statistik. Weil es aber eben eine Abschlussarbeit ist, möchte ich mein Problem gerne "wissenschaftlich" und nicht einfach "improvisiert" lösen.
Ich schildere mein Problem im ersten Abschnitt einmal rein wörtlich, im zweiten Abschnitt bringe ich dann die meiner Meinung nach relevanten Informationen mit ein.
Es geht um das Beschreiben einer beobachteten Marktsituation aus den Jahren 2010 bis 2016, ich brauche also keine Extrapolation. Leider habe ich eben teilweise unvollständige Daten der Marktteilnehmer, die es zu interpolieren gilt. Das grobe Problem an der Sache: Ich habe sämtliche Daten lediglich in Form einer Top10-Rangliste für jeden Monat vorliegen. Das führt dazu, dass ich starke Marktteilnehmer, die jeden Monat unter den Top10 sind, vollständig beschreiben kann. Allerdings gibt es eben auch Marktteilnehmer, die nur 11 oder 10 Mal (oder eben auch nur 1-6 Mal) in einem Jahr in den Top 10 zu finden sind, und mir dementsprechend keine vollständigen Daten geben. Ich kenne allerdings jeden Monat das Gesamtvolumen des Marktes exakt. Jetzt ist ja an sich das am naheliegendste eine Regression, um die Werte zu interpolieren. Habe ich auch (zugegeben, in Excel) ein paar mal durchgespielt. Damit kann ich mir auch auf den ersten Blick plausibele Werte mit einem hohen Bestimmtheitsmaß basteln, allerdings habe ich eine Art Nebenbedingung, die mir rein logisch widerspricht. Dadurch, dass ich Jahr jeden Monat den Wert von Platz 10 des Rankings kenne, weiß ich, dass fehlende Werte von Marktteilnehmern hier drunter liegen müssen. Und das widerspricht in den meisten Fällen den interpolierten Werten meiner Regression. Um es in meinen Worten zu beschreiben suche ich eine Möglichkeit der Interpolation mit Beachtung einer Nebenbedingung in Form einer Max-Beschränkung.
Im folgenden nun ein Ansatz meiner Problembeschreibung bzw. meiner Gedanken, für ein besseres Verständnis:
Marktteilnehmer n: Kann ich absolut nicht genau bestimmen. Es sind mind. 19, die ich in den Top 10 sicher beobachten kann. Ich weiß jedoch nicht, wie viele sich in der "grauen Masse" mit ganz kleinen Anteilen befinden, die ich eben nie in den Top10 zu Gesicht bekomme (die interessieren mich inhaltlich auch nicht). Ich könnte hier eine plausible Annahme treffen, wenn es nötig wäre, vermutlich n = 50 - 60
Sehe ich das richtig, dass ich die Daten hier als abhängige Variablen interpretieren muss? Da sie sich ja gegenseitig beeinflussen. Was der eine Marktteilnehmer aufnimmt, fehlt ja dem anderen irgendwo...
Auch wenn es sich um Jahreswerte handelt, so kann ich Saisonalitäten in dieser Hinsicht vernachlässigen (meine Beobachtung)
Ich habe 7 Jahre beobachtet, heißt im Idealfall liegen 7 x 12 (Monate) = 84 Werte pro Marktteilnehmer vor.
Genau genommen handelt es sich um eine Top-11 Liste, zuzüglich "dem Rest", heißt ich habe 12 (Werte) x 12 (Monate) = 144 Werte pro Jahr
Im Anhang einmal eine beispielhafte Übersicht (quantitativ!): grün = liegt vollständig vor, gelb = fehlen wenige Werte, rot = fehlen viele Werte
Weiterhin lade ich einmal eine Grafik zur Beschreibung meines Problems mit der Grenze hoch.
x-Achse = Monat 1 bis 12
y-Achse = nummerischer Marktanteil (nicht prozentual)
Die rote Linie kennzeichnet die besagte Obergrenze, unter der ein fehlender Wert zwingend liegen muss. Die Kreuze zeigen eine Datenreihe mit 11 vorhandenen Werte, der Septemper (09) fehlt eben. Hier sieht man ganz gut, das die Interpolation Polynom 6. Grades logisch nicht stimmen kann, weil dieser Wert unter der roten Linke liegen müsste. Das Bestimmtheitsmaß war das Beste, was ich erreichen konnte, ist aber auch nicht wirklich zufriedenstellend...
Das ist jetzt ganz schön viel Text geworden. Es wäre klasse, wenn hier jemand einen Tipp oder vllt sogar eine Lösungskizze für mich hätte. Ich hab definitiv Lust daran zu basteln, muss aber wie oben angedeutet schauen, dass ich mich da nicht im Statistiksumpf verliere, da es nur eine kleine Nebenleistung ist...
Einen schönen Sonntag euch allen!
EDIT: Leider klappt der Datenupload nicht. Mein Kontingent ist bereitsüberschritten?