Hallo arooon,
vorab: ich kenne keine etablierten Verfahren, das anzugehen. Weiß aber, wie ich persönlich anfangen würde, dem zu nähern. Zunächst würde ich jeder Deiner Aktivitäten einen von 26 Buchstaben oder Zeichen zuordnen, dann daraus Buchstabenfolgen bilden. Wenn einer erst Aktivität E, dann Aktivität V und dann A gewählt hat, beschreibe ich seine Antwort als:
- Code: Alles auswählen
EVA
Die Summe Deiner 168 Beobachtungen ließe sich dann in 168 Zeilen abbilden:
- Code: Alles auswählen
EVA
NORLHK
EWAH
RUITE
ERHA
...
Jetzt brauchen wir eine in ihrer oberflächlichen Nutzung leicht erlernbare Scriptsprache. Ich würde da primär an Python, JavaScript oder R denken, nachranging an Unixtools wie awk, grep oder Perl. Je nachdem, wo vielleicht schon Vorkenntnisse vorhanden sind oder wo sich interessenindividuell vielleicht später eine nützliche Zweitverwertung ergibt.
Alle diese Sprachen können solche Zeilenfolgen zeilenweise untersuchen. Alle bringen sie Funktionen dafür mit und meistens lassen sich Funktionen ergänzen. Aufgrund von Vorkenntnissen wäre meine persönliche erste Wahl die Progammiersprache R, für die man Textuntersuchungsfunktionen beispielsweise mit dem Paket stringi nachrüsten kann: Schau hier mal kurz rein um einen Eindruck von der Vielfalt zu erhalten:
https://stringi.gagolewski.com/Allen diesen Sprachen ist gemein, dass sie sogenannte "Reguläre Ausdrücke" aka "regular expressions" aka "regex" nutzen. Das ist eine kleine Spezialsprache, mit der sich Muster in Zeichenfolgen effizient beschreiben und suchen lassen. Es ist also ganz leicht, mit regex zu beschreiben, dass man nach Zeichenfolgen "E"- irgendeines- "A" sucht und dann kann man mit den Mitteln der übergeordneten Sprache danach in den 18 Zeilen suchen lassen und die Vorkommen zählen.
Wenn Du Dir zunächst Regex angeeignet hast (das sollte mit wenigen Webseiten getan sein) und Dir Grundlagen in der übergeordneten Sprache Deiner Wahl angeeignet hast (das geht nicht so schnell, aber es Foren für jede Sprache die Dir helfen werden, das richtige auszuwählen und Abkürzungen zu nehmen), dann kannst rasch Fragen an Deine Daten stellen wie:
- Was ist die drei häufigsten Anfangsaktivitäten
- Was sind die häufigstens Endaktivitäten
- Wenn jemand mit A anfängt, mit welcher Aktivität hört er dann meistens auf
- Wie häufig kommt irgendwo das Muster E*A vor
- Welche 5-Buchstabenfolgen kommen wie häufig vor
- ...
Klar, das wird nicht ganz leicht, sich gleichzeitig clevere Fragen ausdenken zu müssen und zugleich die nötigen Programmierkenntnisse zu entwickeln, aber wenn es leicht wäre, würde es ja jeder machen.
Das Deutsche Python-Forum:
https://www.python-forum.de/Das Deutsche R Forum
http://forum.r-statistik.de/JavaScript -- musst Du selbst suchen.
Ich vermute mal, dass die Genetiker auch irgendwo schon Standardverfahren etabliert haben, wie man Muster in Buchstabenfolgen sucht und findet. Die Frage ist, wie man das als Nicht-Genetiker am besten finden kann.
LG,
Bernhard