Hallo Leute,
ich schreibe derzeit meine Masterarbeit und merke, dass meine Forschungsfrage recht wenig Sinn ergibt und ich darüber hinaus mein statistisches Können überschätzt habe, weshalb ich jetzt irgendwie das schlimmste verhindern muss.
Aber von vorne: Thema meiner Arbeit sind Dark Pools (anonyme Handelsplattformen für Wertpapiere). Diese Handelsplattformen werden (angeblich) von Hochfrequenzhändlern heimgesucht. Ich möchte in meiner Arbeit den Einfluss gewisser technischer Eigenschaften der einzelnen Pools auf ihre "Beliebtheit" bei Hochfrequenzhändlern untersuchen, mittels multipler linearer regression. Ich habe 30+ verschiedene Dark Pools, die sich teilweise in ihren technischen Modalitäten sehr unterscheiden, beispielsweise in welcher Reihenfolge Bestellungen im Orderbook aufgenommen werden oder welche Algorithmen erlaubt sind. Diese Eigenschaften sollen meine unabhängigen Variablen werden. Meine abhängige Variable hingegen ergibt sich aus den Handelsvolumen, welche die amerikanische Finanzbehörde wöchentlich veröffentlicht. Jetzt meine erste Frage: Macht das so weit Sinn (mein Professor hat zwar mein Expose akzeptiert, ist seitdem aber leider abgetaucht, deshalb kann ich ihn nicht fragen)?
Wenn ja, ergeben sich für mich weitere Fragen (die in euren Augen möglicherweise ziemlich dumm sind, aber ich hab ewig keine Statistik mehr gemacht ):
Inwieweit muss ich Regressoren als auch Regressant quantifizieren? Reicht es, pro Regressor einfach beispielsweise 3 mögliche Ausprägungen zu erlauben? Als Beispiel time-in-force instructions (gibt an, wie lange eine order im orderbook bleibt, bis sie wieder gelöscht wird): Kann ich da einfach sagen, die time-in-force Variable kann die Werte annehmen:
1: nur (immediate-or-cancel)
2: (Immediate-or-cancel) + Resting order
3: (Immediate-or-cancel) + Resting order + (Fill-or-kill)
Oder ist das völliger Stuss und ich muss das wesentlich genauer quantifizieren?
Dieselbe Frage stellt sich für mich letztlich auch für den Regressanten. Aus den Finanzbehörden Daten kann ich Dinge wie daily average volume order average trade size ableiten, aus denen man wiederum auf die Aktivität von Hochfrequenzhändlern schließen kann. Kann ich da auch einfach die einzelnen Werte kombinieren und dann eine jeweilige Ausprägung bestimmen? Zum Beispiel: Bei average trade size ist der Pool im 4. Qantil und Overall Trade size im 2. Quantil, ergo steck ich ihn in Gruppe 3!? (dass average trade size und overall trade size korreliert sind, vergessen wir jetzt einfach mal)
Ihr merkt, dass mein statistisches Wissen arg begrenzt ist, es geht mir auch schon gar nicht mehr darum, einen großartigen Beitrag zur Finanzwissenschaft abzuliefern, der Zug ist leider abgefahren. Ich muss diese Arbeit nur irgendwie halbwegs glimpflich über die Bühne bringen (bin an einer Business School und das ist hier ohnehin kein akademisches Hochreck).
Ich bin für jede Hilfe extrem dankbar!