Variierende Grundmenge

Fragen, die sich auf kein spezielles Verfahren beziehen.

Variierende Grundmenge

Beitragvon Samarions » Mo 15. Sep 2014, 11:16

Wir machen gerade eine Auswertung der Genauigkeit von Texterkennung. Um die Genauigkeit zu berechnen haben wir ein paar Stichproben der erkannten Text genommen haben, sie manuell gegenüber der Scan entwertet haben und danach durch die t-Verteilung die Genauigkeit geschätzt.

Uns ist aber ein Problem zugestoßen.Es kann sein, dass Zeichen mal gelöscht/mal zugefügt worden sind. Das heißt, dass unsere ursprüngliche Grundmenge (sagen wir 100 Zeichen) nicht immer die gleiche Grundmenge in dem Scan entspricht.

Ich kann es in 2 Szenarios besser beschreiben:

Szenario 1: Die Grundmenge der Stichprobe entspricht 1000 Zeichen, die per Script aus dem durch OCR erkannten Text entnommen worden sind. Jedoch ist der Druck des Scans ziemlich schwach gewesen und dadurch ist ein großer Teil des Textes nicht erkannt worden. Insgesamt sind 52 Zeichen gelöscht worden. Das heißt, dass der erkannte Bereich mit 1000 Zeichen, 1052 Zeichen im Scan entspricht.

Szenario 2: Die Grundmenge der Stichprobe entspricht 1000 Zeichen, die per Hand aus dem Scan ausgezählt worden sind. Durch einen sehr starken Bindefalls ist mindestens eine ganze Zeile schräg erkannt worden und dadurch ist eine extra Zeile „Unsinnstext“ entstanden. 78 Zeichen sind extra dazu gekommen. Wie erfolgt dann die statistische Berechnung? Was ist jetzt die Grundmenge? Die 1000 Zeichen in dem Scan oder die insgesamt 1078 Zeichen in dem erkannten Text?

Ich habe es versucht, dies zu googlen aber bin leer ausgekommen. Gibt es irgendwelche Methode um dies zu lösen? Der Schnitt zwischen den beiden Grundmengen nehmen?
Samarions
Einmal-Poster
Einmal-Poster
 
Beiträge: 1
Registriert: Mo 15. Sep 2014, 11:02
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 12 Gäste