Ähnliche Sequenzen in einer sehr langen Zeichenfolge finden

Fragen, die sich auf kein spezielles Verfahren beziehen.

Ähnliche Sequenzen in einer sehr langen Zeichenfolge finden

Beitragvon Willy » Do 10. Jan 2013, 00:30

Hallo zusammen

Ich habe wieder ein neues Problem. Evtl. fällt jemandem was kluges dazu ein. Folgende Problemstellung:

Ich habe eine sehr lange Zeichenkette (die Anzahl der Zeichen liegt im zweistelligen Millionenbereich) die aus ca. 50-100 verschiedenen Zeichen besteht. Ich will innerhalb der Zeichenkette ähnliche Sequenzen finden, die ca. 20-200 Zeichen lang sind.

Natürlich könnte man das Problem lösen, indem man mit einem einfachen Distanzmaß (z.B. Levenshtein-Distanz) alle möglichen Sequenzen miteinander vergleicht. Aber das wäre natürlich ein extremer Rechenaufwand. Ich habe versucht den Suchraum zu begrenzen indem ich nur Zeichenketten miteinander vergleiche die mit der selben Dreierfolge beginnen und enden und zwischen 20 und 200 Zeichen lang sind. Aber selbst so würde es noch immer Tage dauern.

Weiß jemand eine bessere Lösung?

MfG
Willy
Willy
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 28. Nov 2012, 22:37
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 19 Gäste

cron