STATISTIK-FORUM.de

Samarions · von **Samarions** » Mo 15. Sep 2014, 11:16

Wir machen gerade eine Auswertung der Genauigkeit von Texterkennung. Um die Genauigkeit zu berechnen haben wir ein paar Stichproben der erkannten Text genommen haben, sie manuell gegenüber der Scan entwertet haben und danach durch die t-Verteilung die Genauigkeit geschätzt.

Uns ist aber ein Problem zugestoßen.Es kann sein, dass Zeichen mal gelöscht/mal zugefügt worden sind. Das heißt, dass unsere ursprüngliche Grundmenge (sagen wir 100 Zeichen) nicht immer die gleiche Grundmenge in dem Scan entspricht.

Ich kann es in 2 Szenarios besser beschreiben:

Szenario 1: Die Grundmenge der Stichprobe entspricht 1000 Zeichen, die per Script aus dem durch OCR erkannten Text entnommen worden sind. Jedoch ist der Druck des Scans ziemlich schwach gewesen und dadurch ist ein großer Teil des Textes nicht erkannt worden. Insgesamt sind 52 Zeichen gelöscht worden. Das heißt, dass der erkannte Bereich mit 1000 Zeichen, 1052 Zeichen im Scan entspricht.

Szenario 2: Die Grundmenge der Stichprobe entspricht 1000 Zeichen, die per Hand aus dem Scan ausgezählt worden sind. Durch einen sehr starken Bindefalls ist mindestens eine ganze Zeile schräg erkannt worden und dadurch ist eine extra Zeile „Unsinnstext“ entstanden. 78 Zeichen sind extra dazu gekommen. Wie erfolgt dann die statistische Berechnung? Was ist jetzt die Grundmenge? Die 1000 Zeichen in dem Scan oder die insgesamt 1078 Zeichen in dem erkannten Text?

Ich habe es versucht, dies zu googlen aber bin leer ausgekommen. Gibt es irgendwelche Methode um dies zu lösen? Der Schnitt zwischen den beiden Grundmengen nehmen?

STATISTIK-FORUM.de

Variierende Grundmenge

Variierende Grundmenge

Wer ist online?