Optimale Gewichtung von Daten zur Prognose

Fragen, die sich auf kein spezielles Verfahren beziehen.

Optimale Gewichtung von Daten zur Prognose

Beitragvon jorge8 » Mo 24. Jul 2023, 14:26

Hallo zusammen,

ich suche eine Lösung für ein praktisches Problem. Es geht um die Prognose der aktuellen Stärke eines Fußballteams anhand diverser Daten aus der Vergangenheit. Hier gibt es den Konflikt zwischen "je mehr Daten, desto besser die Prognose für die Stärke des Teams" und "je älter die Daten, desto weniger aussagekräftig sind diese für die aktuelle Stärke des Teams". Es müsste somit eine „optimale“ Gewichtung von älteren und neueren Daten geben.

Konkretes Beispiel (bezogen auf die Fußball-Bundesliga):
Die Stärke eines Teams X in einer Saison sei eine normalverteilte Zufallsvariable.
Die Daten aus der letzten Saison (34 Spieltage) ergeben für das Team X einen Stichprobenmittelwert von µ1 = 0,80 für die Teamstärke bei einer Standardabweichung von σ1 = 0,60/Wurzel(34)
Die Daten aus der aktuellen Saison (nach 17 Spieltagen) ergeben für das Team X einen Stichprobenmittelwert von µ2 = 0,40 für die Teamstärke bei einer Standardabweichung von σ2 = 0,60/Wurzel(17)
Zusätzlich sei noch die Info gegeben, dass die Veränderung der Stärke eines (beliebigen) Teams zwischen der letzten Saison und der aktuellen Saison auch eine normalverteilte Zufallsvariable sei mit µ3 = 0 und σ3 = 0,20.

Nun geht es mir darum, eine saubere Formel-Lösung für die optimale prozentuale Gewichtung zwischen µ1 und µ2 zu finden. Auf jeden Fall müsste gelten: Je größer σ3, desto mehr Gewicht müsste die neue Saison erhalten. Für das obige Beispiel habe ich in einem früheren eher iterativen bzw. simulationstechnischen Ansatz (den ich heute allerdings von der Logik her nicht mehr wirklich nachvollziehen kann) folgende Werte erhalten:
Gewichtung µ1 = ca. 0.295
Gewichtung µ2 = ca. 0.705

Würde mich interessieren, ob es für das geschilderte Problem eine saubere analytische (Formel)Lösung gibt. Und vorab schon mal sorry, falls ich mich als Laie an der ein oder anderen Stelle unsauber ausgedrückt habe.
Danke im Voraus für euer Interesse und Bemühen.
jorge8
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mo 24. Jul 2023, 13:13
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Optimale Gewichtung von Daten zur Prognose

Beitragvon PonderStibbons » Mo 24. Jul 2023, 16:56

jorge8 hat geschrieben:Die Daten aus der letzten Saison (34 Spieltage) ergeben für das Team X einen Stichprobenmittelwert von µ1 = 0,80 für die Teamstärke bei einer Standardabweichung von σ1 = 0,60/Wurzel(34)

Letzteres ist die Formel für den Standardfehler des Mittelwertes, in den die Standardabweichung σ1 = 0,60 eingeht.
Zusätzlich sei noch die Info gegeben, dass die Veränderung der Stärke eines (beliebigen) Teams zwischen der letzten Saison und der aktuellen Saison auch eine normalverteilte Zufallsvariable sei mit µ3 = 0 und σ3 = 0,20.

Verstehe ich erstmal nicht. Sieht nach einer absichtlich zentrierten Variable aus, aber wozu dient die?
Nun geht es mir darum, eine saubere Formel-Lösung für die optimale prozentuale Gewichtung zwischen µ1 und µ2 zu finden.

Du kannst das doch empirisch machen und mit den vorhandenen Daten die Gewichtung durch eine lineare Regression ermitteln.
Wenn Spielstärke an Tag 18 = y, dann ist y = b0 + b1*µ1+ b2*µ2 + Fehler .

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Optimale Gewichtung von Daten zur Prognose

Beitragvon jorge8 » Mo 24. Jul 2023, 19:29

[quote]Zusätzlich sei noch die Info gegeben, dass die Veränderung der Stärke eines (beliebigen) Teams zwischen der letzten Saison und der aktuellen Saison auch eine normalverteilte Zufallsvariable sei mit µ3 = 0 und σ3 = 0,20.
[quote]Verstehe ich erstmal nicht. Sieht nach einer absichtlich zentrierten Variable aus, aber wozu dient die?

Diese Variable soll darstellen, wie stark sich IM DURCHSCHNITT die Stärken der Teams von Saison zu Saison verändern. Die TATSÄCHLICHE Veränderung der Stärke eines BESTIMMTEN Teams (aktuelle Saison gegen vorherige Saison) kenn ich ja erstmal nicht, ich habe ja "nur" die Stichprobenwerte µ1 und µ2. Habe ich z.B. µ1 = 0,80 und µ2 = 0,40, so könnten die "wahren" Werte für die Teamstärken z.B auch 0,70 bzw. 0,50 sein. Die wahren Werte kenn ich aber nicht und die TATSÄCHLICHE Veränderung (hier: 0,50 minus 0,70 = -0,20) folglich auch nicht. Also unterstelle ich zunächst einmal, diese wäre Null, also µ3 = 0. Ist insofern tatsächlich eine absichtlich zentrierte Variable, die sagen soll: "Ich habe keine zusätzlichen Infos zur Veränderung der Teamstärke wie z.B. Spielertransfers etc.". Wenn ich also unterstelle, dass ich über die tatsächliche Veränderung der Stärke eines Teams im Einzelfall erstmal nicht weiß, ich aber (aus empirischen Analysen) weiß, dass die Teams sich im Schnitt von einer Saison zur anderen um 0,20 in der Stärke verändern, dann müsste das eine Relevanz für die Berechnung haben. Ist z.B. σ3 = 0,01 sehr gering (die Teams verändern ihre Stärke von einer Saison zur anderen kaum), dann müsste in meinem ursprünglichen Zahlenbeispiel µ1 (im Vergleich zu µ2) sehr viel stärker gewichtet werden als wenn z.B. σ3 = 0,40 wäre.
Nach meinem Verständnis müsste die Gewichtung zur bestmöglichen Schätzung der (normalverteilten) Zufallsvariablen "Teamstärke aktuelle Saison" so aussehen: x * µ1 + (1-x) * µ2. Die abhängigen Variablen müssten die beiden Standardabweichungen der Stichproben σ1 und σ2 sein (deren Werte wiederum von der Anzahl der gespielten Spieltage abhängen) sowie zusätzlich der Wert σ3. Der Einfachheit halber habe ich unterstellt, dass alle drei Zufallsvariablen "Teamstärke letzte Saison", "Teamstärke aktuelle Saison" und "Durchschnittliche Veränderung der Teamstärke von einer zur anderen Saison" normalverteilt sein sollen, in der Hoffnung, dass es dafür eine Formel-Lösung gibt. Ich denke da an eine Art Markowitz-Ansatz. Dieser wird in der Finanzindustrie benutzt um das varianzminimale Portfolio zu berechnen.
Ich hoffe, dass ich das Problem damit besser umschreiben konnte.
jorge8
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mo 24. Jul 2023, 13:13
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Optimale Gewichtung von Daten zur Prognose

Beitragvon PonderStibbons » Mo 24. Jul 2023, 21:48

Wenn es darum geht eine Formel auf Basis von Annahmen zu generieren, ist das vielleicht was für ein Finanzmarkt-Forum.

Gewichtungen anhand der empirischen Gegebenheiten kann man wie gesagt mithilfe einer Regressionsanalyse ermitteln.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Optimale Gewichtung von Daten zur Prognose

Beitragvon jorge8 » Di 25. Jul 2023, 17:53

Dann erstmal vielen Dank. Vielleicht hat ja noch jemand eine Idee?
jorge8
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mo 24. Jul 2023, 13:13
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 9 Gäste

cron