Dieses Programm dient zur Unterstützung bei der Umsetzung des in den "DFG-Praxisregeln Digitalisierung" auf Seite 35f. vorgeschlagenen Bernoulli-Experiments.
Es soll für 500 zufällig ausgewählte Buchstaben erfasst werden, ob diese korrekt erkannt wurden. Mit dem Ergebnis dieses Verfahrens kann dann bestimmt werden, ob die Behauptung eines Dienstleisters zur OCR-Qualität mit einer Irrtumswahrscheinlichkeit von 2,5 % akzeptiert werden kann. Nebenstehend finden Sie die Tabelle mit den für gewisse Behauptungen zu erreichenden Zahlen.
Das in dieser Anwendung gewählte Verfahren unterscheidet sich dahingehend von dem von der DFG vorgeschlagenen, dass hier aus den OCR-Ergebnissen 500 Buchstaben zufällig ausgewählt werden - die DFG schlägt vor auf dem Bild einen zufälligen Buchstaben auszuwählen. Dies ist für einen Computer jedoch ohne vorherige OCR (die die Buchstaben erkennt) schwierig möglich.
Von daher gibt es hier noch die Möglichkeit einen Buchstaben zu überspringen. Dies ist nötig wenn es sich nicht um einen Buchstaben handelt, sondern um einen von der OCR fälschlicherweise als Buchstaben erkannten Schmutzfleck. Dieser Schmutz wäre nach dem von der DFG vorgeschlagenen Verfahren gar nicht erst in Betracht gezogen worden.
Behauptete Erkennungsquote | Mindestzahl der korrekt erkannten Zeichen (Stichprobengröße=500) |
---|---|
95 % | 485 |
96 % | 489 |
97 % | 493 |
98 % | 496 |
99 % | 499 |
> 99 % | 500 |
Die Zip-Datei muss JPG-Bilder und dazugehörige ALTO oder ABBYY-Ergebnisse enthalten und folgenden Aufbau haben:
alto ├── 00000001.xml ├── 00000002.xml └── 00000003.xml abbyy ├── 00000001.xml ├── 00000002.xml └── 00000003.xml jpg ├── 00000001.jpg ├── 00000002.jpg └── 00000003.jpg