Hallo Nadinee,
Nadinee hat geschrieben:Zur ersten Frage ich arbeite gerade mit Python über Jupiterlab. Damit hatte ich vorher auch nichts zutun aber ich versuche mir das gerade beizubringen.
Das Gute daran ist, dass Dir von der Software keine Grenzen gesetzt werden. Mit Python geht alles. Du kannst scikit-learn verwenden, PyStan oder selbst was programmieren. The sky is the limit. Dafür wird die Lernkurve etwas steiler sein als in einer Software, in der Du einfach Datenreihen anklickst. Das andere Problem ist, dass Du hier im Forum zur Umsetzung mit Python nicht viel Unterstützung erwarten solltest.
https://www.python-forum.de/ war mal ein sehr gut funktionierendes, freundliches Forum mit viel Know-how. Da ich seit vielen Jahren kein Python mehr genutzt habe, kann ich nicht berichten, ob das heute noch so ist.
Stress und nennen wir es mal Temperatur habe ich im grob 2000 Jahres Abschnitt und komme da auch 96 Daten
Ich bin nicht sicher, ob ich das verstehe. Es gibt 96 Werte, die jeweils einen Zeitraum von 2000 Jahren beschreiben und so kommen wir dann auf die etwa 200000 Jahre, aus denen Daten vorliegen?
Muss ich um das vergleichen zu können gleich viele Daten in allen Datenreihen haben?
Das verstehe ich nicht.
Sind das zu wenige Daten um Verfahren des Maschinenlernens zu nutzen?
Nein, das wäre falsch. Aber es sind definitiv zu wenige, um dem Computer alle Freiheiten zu geben und ihn einfach mal frei assoziieren zu lassen, wonach man suchen könnte. Stattdessen musst Du eine hinreichend einfache, zugleich aber auch geologisch sinnhafte Struktur vorgeben. Ein Arzt für schwerhörige Kinder im Internet der Granit kaum von Quartz unterscheiden kann, könnte sich das so denken:
Wir haben 23 Ereignisse, und weil das nicht viele sind, kann man ohne große Python-Programmierung händisch nachschauen, was der letzte vor jedem Ereignis gemessene Stress und der letzte vor jedem Ereignis gemessene Temperatur ist. Dann können wir entweder 23 oder 46 oder so Zeitpunkte auswürfeln, an denen es möglichst sicher nicht zu einem Ereignis gekommen ist. Für die suchen wir auch wieder den zuletzt davor gemessenen Stress und die letzte davor gemessene Temperatur und schreiben das alles in eine Tabelle. Dann nimmt man beispielsweise eine
logistische Regression (oder einen
randomForest, beide sind in scikit-learn als Classifier verfügbar) und versucht, aus Stress und Temperatur vorherzusagen, ob es sich um einen Eintrag mit oder ohne Ausbruch handelt.
...wobei der größte Teil in den vergangenen 25000 Jahren liegt und diese Verteilung wahrscheinlich aufgrund von besserer Nachweisbarkeit der aktuellen VUlkane, nicht im Ansatz der Wahrheit entspricht. Gibt es da eine Methode wie man dieses Wissen mit einbeziehen kann?
Dann muss man erstens überlegen, ob man vielleicht nur die letzten 25.000 Jahre untersucht. Kommt halt drauf an, ob das von der Fragestellung her akzeptabel ist und ob genügend Datensätze übrigbleiben. Sonst könnte ich mir vorstellen, dass man eine zusätzliche Spalte in die Tabelle mit den Ereignissen und den Nicht-Ereignissen macht, in der eine 0 für Daten älter als 25.000 und eine 1 für Daten jünger als 25.000. Wenn man die als Prädiktor mit in das logistische Modell aufnimmt kann das Modell für jüngere Daten eine höhere Prävalenz modellieren als für alte. Vielleicht macht auch die Stufe bei 25.000 keinen Sinn und man überlegt sich irgendeine andere Variable die geologisch begründet ein Maß für den Einfluss des Alters abbildet. Oder man geht alles ganz anders an
Das muss alles nicht perfekt sein, aber dennoch geologisch gut durchdacht.
Ich hoffe, ich konnte Dir etwas helfen,
LG,
Bernhard