Hallo!
Ich habe einen Zeitreihen Datensatz von ca. 50000 Zeiteinheiten. Dieser besteht aus 5 Minuten Intervallen der letzten 8 Monate und beinhaltet Kursinformationen über Aktien. Aus diesen 50000 enstsprechen ca. 250 meinen definierten Kritierien des Typ A, so dass sie für eine weitere Untersuchung in Frage kommen.
Als Randinformation will ich sagen, dass die in Frage kommenden Einheiten je nach Parametereinstellung in der Summe variieren können (mal sind es 230, mal 260, mal nur 80...). Es kann auch sein, dass bei einer anderen Parametereinstellung eine andere Menge von 250 Einheiten meinen Kriterien des Typ A entspricht.
Von diesen 250 Einheiten des Typ A erfüllen 50 weitere Einheiten Kriterien des Typ B. Also: 20% aller in Frage kommenden Einheiten des Typ A erfüllen das Kriterium B (=A und B).
Jetzt möchte ich wissen: Welches Verfahren oder welche Tests kann ich durchführen, damit ich sagen kann, diese 50 sind nicht reiner Zufall, sondern haben eine gewisse Konsistenz? Also, wieviel Einheiten mit dem Kriterium B benötige ich, damit ich verlässliche Aussage machen kann? Die Quote ist dabei egal. Es wäre mir auch recht, dass bei einer Verdoppplung des Datensatzes, die Quote sinkt. Wichtig ist mir eine gewisse Mindestanforderung, dass ich mit einer gewissen Sicherheit dies als allgemeingültig betrachten kann.
Es wäre auch in Ordnung, wenn ich den Versuch neu anordnen müsste.
Könnt ihr mir helfen? Das wäre sehr nett.