Statistische Analyse möglich?

Fragen, die sich auf kein spezielles Verfahren beziehen.

Statistische Analyse möglich?

Beitragvon balavu » Sa 11. Okt 2014, 14:04

Hallo,

meine Statistik Kenntnisse sind schon etwas eingerostet. Daher möchte ich hier gerne eine Einschätzung einholen, ob mein Vorhaben überhaupt sinnvoll/durchführbar ist, und wie ich mich weiter orientieren kann.

Es gibt einen funktionalen (nicht linearen) Zusammenhang zwischen meinen beobachteten Werten (Häufigkeiten) und einer Variablen x. Ich kann den Zusammenhang allerdings nicht analytisch oder intuitiv herleiten. Muss also anhand der Beobachtungen eine Schätzfunktion erraten, wenn ich es richtig verstanden habe. Zur Verdeutlichung hier mal die beobachteten Werte:

Bild

Die X-Achse stellt eine ordinal skalierte Variable dar. Auf der Y-Achse werden die, zu jeder Ausprägung beobachteten Häufigkeiten abgelesen (man kann glaube ich jede Kurve als Histogramm mit einer Klassenbreite von 1 ansehen). Zu jeder Ausprägung der unabhängigen Variable x gehört eine Kurve. D.h. je nach Ausprägung von x ändert sich die Form des Histogramms.

Mein Ziel ist es, anhand einer Beobachtung (Häufigkeitstabelle) eine Prognose für die Variable x machen zu können. Geht das überhaupt? Und wenn ja, ist mein Ansatz sinnvoll?

1. Schätzfunktion finden (hat jemand eine Idee, welche Funktion zu dem Snapshot passen könnte?)
2. Statistische Analyse um x so zu bestimmen, dass die Variable zu den Beobachtungen in der Häufigkeitstabelle passt (Regression? Maximum-Likelyhood?)

Zur Analyse würden mir (fast) unbegrenzt Daten zur Verfügung stehen.

lg balavu
balavu
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Sa 11. Okt 2014, 12:23
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Statistische Analyse möglich?

Beitragvon bele » Sa 11. Okt 2014, 14:33

Hallo Balavu,

Deine Schilderung habe ich nicht ganz verstandenaber ich glaube zu verstehen, was Du meinen könntest. Kurven, die Deiner ähneln, habe ich im Zusammenhang mit der Item Response Theory (IRT) gesehen. Da geht es um Fragebögen. Ein Mensch, der von der zu messenden Eigenschaft einen "wahren Wert" von 50 hat, hat für ein gewisses Item eine Wahrscheinlichkeit bei diesem Item eine 1, eine 2, eine 3 oder eine 4 usw anzukreuzen. Jede Farbe in Deinem Diagramm würde dann einer Antwortmöglichkeit entsprechen und die nach oben abgetragene Häufigkeit entspräche in meiner Analogie der Wahrscheinlichkeit, dass dieses Item angekreuzt wird in Abhängigkeit vom "wahren Wert". Im Falle der IRT summieren sich alle Kurven in jedem Punkt auf 100% Wahrscheinlichkeit auf. OB sich analoges auch für Deine Kurven sagen lässt musst Du überlegen. Wenn ja, würde es vielleicht Sinn machen, sich im Umfeld der IRT umzuschauen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5928
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

folgende User möchten sich bei bele bedanken:
balavu

Re: Statistische Analyse möglich?

Beitragvon balavu » So 12. Okt 2014, 13:29

Stimmt, die Funktionen summieren sich tatsächlich immer zu 100%. Ich glaube es gibt zumindest Parallelen zur IRT. Weiß aber noch nicht, ob mich das weiter bringt.

Eigentlich wollte ich gar nicht so weit ausholen. Aber für den Fall, das es bei der Lösung meines kleinen Problemchens hilft - hier mal der ganze Hintergrund:

Es geht um die Analyse von Suchmaschinen-Rankings verschiedener Webseiten. Ich habe versucht die Rankings von qualitativ hochwertigen und weniger hochwertigen Webseiten in excel zu simulieren. Heraus kommen dabei Funktionen wie oben abgebildet. Auf der X-Achse die Suchergebnis-Platzierungen, auf der Y-Achse die Häufigkeiten. QR0 ist eine (aus sicht der Suchmaschine) sehr hochwertige Website, wie zB wikipedia.org mit sehr vielen Top10 Platzierungen. QR100 ist die minderwertigste Seite in der Simulation. Die Kurven haben einen erstaunlich ähnlichen Verlauf wie real beobachteten Ranking Histogramme (zB aus SEO Tools). Die Simulation habe ich so gemacht:

1. Ich bestimme für 100 (hypothetische) Webseiten jeweils einen Quality Score (exponentialverteilt mit Lambda=1) und ordne sie nach diesem Wert. Also wie auf dem freien Markt gibt es einige starke Webseiten und sehr viele kleinere Blogs etc.
2. Ich gebe jeder der Webseiten für 10 000 (hypothetische) Suchbegriffe jeweils einen Relevance Score (exponentialverteilt mit Lambda=1). So ist simuliert, dass jede Webseite nur für einige Suchbegriffe (in ihrem Themengebiet) relevant ist.
3. Das Produkt aus beiden Werten (Qualität * Relevanz) ergibt den Wert, nachdem die Suchmaschine die Sortierung der Suchergebnisse vornimmt (zumindest in meinem stark vereinfachten Modell).
4. Ich kann also für jedes der 10 000 Keywords jeder der Webseiten ein Ranking zuordnen

Nachdem ich jetzt (im Experiment) herausgefunden habe, wie sich das Ranking Histogramm verändert, wenn sich der Quality Score verändert (siehe Screenshot), möchte ich real beobachtete Ranking Histogramme dafür verwenden, auf die Qualität der Webseite zu schließen (bzw auf die von der Suchmaschine unterstellte Qualität zu schließen).

Wahrscheinlich ist es auch möglich, die Funktion eines Ranking Histogramms analytisch zu bestimmen. Da mir das aber zu kompliziert ist, wäre meine Frage, ob es ein großes Verbrechen ist, wenn ich einfach eine Funktion errate, die dem Histogramm möglichst nahe kommt. Wenn ich das dann habe, muss ich "nur" noch von real beobachteten Daten auf den Quality Score schließen. Mit welchem Verfahren weiß ich noch nicht :D
balavu
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Sa 11. Okt 2014, 12:23
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 13 Gäste