Wie kann ich die Signifikanz berechnen zu diesen Beispielen?

Statistik mit Excel

Wie kann ich die Signifikanz berechnen zu diesen Beispielen?

Beitragvon joebe » Do 18. Apr 2013, 18:21

Hallo,

ich bin dabei einen Empfehlungsdienst für Filme zu entwickeln. Nun habe ich verschiedene Algorithmen implementiert und möchte gerne wissen ob die unterschiedlichen Ergebnisse signifikant sind. Leider habe ich wenig Ahnung von Statistik und würde mich sehr freuen, wenn mir hier jemand helfen kann.

Es geht um folgendes. Ich habe vier grundlegend verschiedene Algorithmen programmiert. Zu jedem der Algorithmen weiß ich wie oft Empfehlungen damit angezeigt wurden und wie oft die Empfehlungen geklickt wurden (also „gut“ sind). Die Tabelle veranschaulicht das. Mit Algorithmus 1 wurden 3604 Empfehlungen angezeigt, von denen auf 352 geklickt wurde (also eine Klickrate von 9.77%). Mit Algorithmus 2 wurden 4520 Empfehlungen erzeugt von denen 383 geklickt wurden, und so weiter. (je höher die Klickrate desto besser)

Bild

Nun die Frage: Wie kann ich ausrechnen ob die Unterschiede bei den Klickraten wirklich signifikant sind? Ist Algorithmus 1 wirklich besser als Algorithmus 2 und ist Algorithmus 3 wirklich der beste?

Genial wäre wenn ihr mir sagen könnt, wie ich das in Excel genau mache. Aber auch schon ein Hinweis welches statistische Verfahren allgemein angewendet werden sollte, wäre extrem hilfreich. Ich blicke bei den ganzen Möglichkeiten (t-test, z-test, regression, Annova, …) nämlich einfach nicht durch.

Und noch eine weitere Frage. Angenommen die Algorithmen nutzen verschiedene Faktoren, wie kann ich deren Einfluss bestimmen? Zum Beispiel: Algorithmus 1 verwendet 5 Faktoren um Empfehlungen zu berechnen (z.B. Alter, Geschlecht, Einkommen, Ähnlichkeit der Filmtitel, …). Wie kann ich herausfinden ob die einzelnen Faktoren wirklich einen Einfluss haben? Und am besten: Wie kann ich herausfinden wie stark dieser Einfluss ist?

Bild

Und eine letzte Frage. Angenommen einer der Faktoren ist das Alter der Nutzer. In der Tabelle (unten) sehe ich, dass junge Nutzer deutlich geringere Klickraten haben als ältere Nutzer. Wie kann ich hier ausrechnen ob die Unterschiede signifikant sind? Und vor allem, was ist wenn die Entwicklung nicht linear ist (also nicht gilt: je älter die Nutzer werden desto höher sind die Klickraten, sondern eine „Kurve“ vorliegt, also sowohl ganz junge als auch ganz alte Nutzer geringe Klickraten haben, aber mittlere deutlich höhere - so wie im Graph veranschaulicht).

Bild

Bild

Wenn ihr mir bei diesen Fragen behilflich seid.... wow, das wäre großartig :-)

Joebe
joebe
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Do 18. Apr 2013, 17:26
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Wie kann ich die Signifikanz berechnen zu diesen Beispie

Beitragvon aziz » Fr 19. Apr 2013, 12:07

Hallo,

joebe hat geschrieben:Nun die Frage: Wie kann ich ausrechnen ob die Unterschiede bei den Klickraten wirklich signifikant sind? Ist Algorithmus 1 wirklich besser als Algorithmus 2 und ist Algorithmus 3 wirklich der beste?

Binomialtest oder t-Test (Stichprobenumfang sollte groß genug sein).

joebe hat geschrieben:Und noch eine weitere Frage. Angenommen die Algorithmen nutzen verschiedene Faktoren, wie kann ich deren Einfluss bestimmen? Zum Beispiel: Algorithmus 1 verwendet 5 Faktoren um Empfehlungen zu berechnen (z.B. Alter, Geschlecht, Einkommen, Ähnlichkeit der Filmtitel, …). Wie kann ich herausfinden ob die einzelnen Faktoren wirklich einen Einfluss haben? Und am besten: Wie kann ich herausfinden wie stark dieser Einfluss ist?

Logistische Regression mit einer unabhängigen Variable (Nominalskaliert).

joebe hat geschrieben:Und eine letzte Frage. Angenommen einer der Faktoren ist das Alter der Nutzer. In der Tabelle (unten) sehe ich, dass junge Nutzer deutlich geringere Klickraten haben als ältere Nutzer. Wie kann ich hier ausrechnen ob die Unterschiede signifikant sind?

Mit dem -Test.

joebe hat geschrieben:Und vor allem, was ist wenn die Entwicklung nicht linear ist (also nicht gilt: je älter die Nutzer werden desto höher sind die Klickraten, sondern eine „Kurve“ vorliegt, also sowohl ganz junge als auch ganz alte Nutzer geringe Klickraten haben, aber mittlere deutlich höhere - so wie im Graph veranschaulicht).


Mit dem Cochran-Armitage-Test kannst du auf einen linearen Trend Testen bei -Kontingenztafeln. Nur kannst du bei diesem Test nicht auf eine bestimmte Richtung des Trends testen

Gruß
Aziz
aziz
 
Danke gegeben:
Danke bekommen: mal in Post

Re: Wie kann ich die Signifikanz berechnen zu diesen Beispie

Beitragvon joebe » Mo 22. Apr 2013, 11:30

Mist, soviele verschiedene Verfahren ;-). Aber vielen Dank für die Antwort, dann werde ich jetzt mal versuchen rauszubekommen wie ich diese ganzen Tests mit Excel mache (und was genau die Tests bedeuten, damit ich auch weiss was ich da mache ;-))
joebe
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Do 18. Apr 2013, 17:26
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Excel

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste

cron