Hallo zusammen,
erstmal, ich hoffe ich habe das Thema im richtigen Bereich erstellt. Bin mir nicht sicher, ich denke es gehört eher zu nicht parametrischen Tests oder Regressionsanalyse!? Aber da in diesem Bereich bereits über Bootstrap geredet wurde, dacht ich mir, ich bleib dabei. Ich muss mich seit kurzem mit Bootstrapping beschäftigen, aber so richtig steig ich nicht dahinter, da ich kein Intuitives Beispiel finde. Ich finde wenn dann immer nur Zahlenbeispiele, aber ohne eine Interpretation steig ich bei sowas nur schwer dahinter.
Was der Bootstrap theoretisch leisten soll, kann ich halbwegs nachvollziehen, aber wie der funktioniert versteh ich nicht. Ich hab mir mal ein Beispiel ausgedacht:
Angenommen ich will untersuchen, ob exotische Früchte (Litschi, Sternenfrucht, ...) besser oder schlechter schmecken als bekannte Früchte (Äpfel, Birnen, Bananen, ...). D.h. das Ziel ist quasi zu schauen, ob es einen signifikanten Einfluss auf die Geschmackswahrnehmung hat, ob es eine untypische Frucht für die jeweilige Region ist. Dazu habe ich eine Stichprobengröße von 500 Datensätzen. Ein Spalteneintrag der Daten Datensätze beschreibt dann beispielsweise, ist es eine exotische Frucht die grade beschrieben wird oder nicht (d.h. hier stehen nur 0 oder 1 drin) und ein anderer Spalteneintrag beschreibt wie gut die Frucht geschmeckt hat (hier stehen Werte von 0 für "gar nicht gut" bis 1 "sehr gut" drin). Angenommen in der Stichprobe sind nur 13 Einträge, die eine exotische Frucht beschreiben, der Rest der Einträge sind entsprechend bekannte Früchte. Eine einfaktorielle Anova Analyse liefert, dass hier kein signifikanter Zusammenhang zwischen der Art Frucht und dem Geschmacksempfinden besteht. Aber da die eine Teilgruppe nur aus 13 Einträgen besteht, ist das ganze nicht aussagekräftig.
Um statistisch auswertbarere Daten zu bekommen und die Anzahl der exotischen Frucht-Beschreibungen zu erhöhen, würde es sich anbieten ein Bootstrap drüber zu legen?! Ist das richtig oder ist da bereits ein grundlegender Fehler im Verständnis?
Und wenn es richtig ist, wie würde man das machen? Ich würde das quasi mit R umsetzen, hab mir das Paket da grundsätzlich auch schon mal angeschaut. Da gibt es jedoch ein Argument, das lautet: "es handelt sich um eine Funktion, welche, wenn sie auf die Daten angewendet wird, eine Vektor wiedergibt, der die Statistik von Interesse enthält." Aber was ist denn die Statistik von Interesse in dem oben beschriebenen Problem, das versteh ich irgendwie nicht?