Hallo jegramme,
Sorry. Ich bin super gestresst und aufgeregt und sehe langsam nur noch Schleier vor den Augen...
Cool bleiben. Keiner meint es hier böse, aber mit Antworten aufgrund unzureichender Problembeschreibung kannst Du halt auch nichts anfangen. Man kann so ein Problem immer verschieden betrachten und kommt dann zu unterschiedlichen Ergebnissen.
Da sieht man zumindest bildlich, dass der prozentuale Anteil der Nutzer in allen Altersgruppen über die Zeit steigt, dass aber die "jüngeren" älteren (also 60-69) prozentual einen höheren Anteil der Nutzer haben (tatsächlich ist es schön von jung nach alt abgestuft).
Ich finde es immer noch nicht ganz einfach, die genaue Fragestellung zu erkennen. Vielleicht ist sie Dir auch nicht klar. In diesem Zitat sprichts Du beispielsweise gar nicht mehr von Wachstum, sondern von einem höheren Anteil. Es ist ganz leicht, zu einem bestimmten Zeitpunkt zu zeigen, dass die ganz Jungen mehr Anteil haben als die halbjungen und die halbjungen mehr Anteil als die Alten. Dafür malst Du eine Kontingenztabelle, in den Spalten steht, ob einer alt oder mittelalt ist, in den Zeilen, ob er Deine Technologie verwendet oder nicht und dann rechnest Du einen Chi-Quadrattest und angesichts von wirklich großen Zahlen in den Tausendern wird das
immer signifikant werden.
Die grafisch-visuelle Alternative dazu ist auch ganz einfach: Wenn zu einem Zeitpunkt 1903 von 3408 jungen die Technologie benutzen, dann kannst Du darüber ein 95%-Konfidenzintervall für den prozentualen Anteil berechnen. Das tust Du für jeden Zeitpunkt und zeichnest die um Deine Kurven. Dann wird man sehen, dass die Konfidenzintervalle sich nicht überlagern. Denn angesichts der großen Zahlen werden die Konfidenzintervalle entsprechend schmal ausfallen.
Sobald Du aber über mehrere Zeitpunkte hinweg rechnen willst wird es zum Problem, dass Du teils verbundene und teils unverbundene Stichproben hast. Das ist alles andere als banal und eine korrekte Lösung wirst Du IMHO dafür bis Donnerstag nicht finden. Also musst Du bereit sein, Vereinfachungen hinzunehmen.
Wenn man als Vereinfachung sagen würde, dass man die Jahre alle getrennt betrachtet, als ob es keine verbundenen Datensatzanteile gibt und weiter annimmt, dass der Anstieg irgendwie kontinuierlich über die Zeit im Sinne einer Geraden oder einer S-Kurve erfolgt, dann bietet sich die von PonderStibbons erwähnte logistische Regression an. Die kann man sich bis Donnerstag anschauen, die bewertet alle Jahre gemeinsam und die kennen auch die Prüfer. Außerdem kann man da dann tatsächlich die Steigerungs/Wachstumsrate über die Zeit beurteilen. Hat aber methodische Schwierigkeiten die Du auslassen kannst, wenn Du eine Grafik mit Konfidenzintervallbändern aus der Tasche ziehst und sagst: Wie man sieht, überlappen die sich nicht.
Mein Bauchgefühl sagt mir, dass man irgendwie einen Likelihood-ratio-Test basteln können müsste wie man das bei Sterbekurven in der Survival-Analyse macht, wenn man keine bestimmte Verteilung über die Zeit unterstellen will. Das kriebe ich aber gerade nicht zusammen. Bestimmt hat PonderStibbons noch eine bessere Idee.
JMTC,
Bernhard