Anders Thapper skrev:
Jag förundras ibland över OCR-programmet och de tolkningar det [...] I uppfinningarnas bok förekommer ofta orten München och i väldigt många fall tolkas detta som Mimenen, jag kan se att antalet staplar
OCR-program är något som fortfarande förbättras. Det som jag använder nu (ABBYY FineReader 6.0 Professional) är betydligt bättre än det som jag använde för 3--7 år sedan. Men förmodligen kan jag också bli bättre på att använda det.
Att München feltolkas så ofta beror på att ü inte ingår bland de tänkbara bokstäverna när man tolkar svensk text. Denna inställning går att ändra på, men inte förrän förra veckan insåg jag hur det går till. Man måste "skapa ett nytt språk" som baserar sig på svenska, och därmed ärver dess ordlista, men som dessutom kan innehålla ytterligare några bokstäver. Jag gjorde en egen variant av finska språket som förutom ü och æ klarar de s-hacek och c-hacek som användes (för sje-ljud) på 1920-talet när "Pieni tieotsanakirja" gavs ut. Resultatet är att en del u feltolkas som ü, men som helhet tror jag att det blivit en förbättring.
Sen är ett vanligt fel att "om" tolkas som "örn", "han" som "lian", och "ro" som "rö", även när det inte finns något synligt smuts som kan lura tolkningen. I alla dess tre fall är det rätta ordet betydligt vanligare i svenska språket än det feltolkade och om programmet var osäkert så skulle det väl gissa på det mer använda, eller?
Jag tror att programmet gissar rätt betydligt fler gånger, men det är felen som dina ögon fastnar på. Jag stör mig också på dessa fel, men jag är ju en människa som läser en hel mening, medan programmet verkar stirra på varje ord för sig.
En annan jobbig sak med OCR-tolkning är att programmet ibland missar sidans indelning i fält och spalter. Att manuellt kontrollera detta tar en massa tid, och vi skulle behöva fler medhjälpare som kör OCR. För det behöver man ha en bredbandsanslutning, så att man kan ladda ner TIFF-filer, ett OCR-program, och gott om tid. Det är de jobbiga uppslagsverken och flerspaltiga tidskrifterna som vi behöver hjälp med. Vanliga romaner blir nästan perfekta vid första körningen. Just nu finns några årgångar av Teknisk Ukeblad och några av Svensk Läraretidning som väntar på OCR.
Till sist undrar jag om det finns någon förklaring till att vissa ord får kapitäl även när de inte ska ha det, till exempel verkar detta drabba jern och jernet ganska ofta medan jag inte har märkt det på andra ord som börjar på j, beror det på att jern inte känns igen som ett ord?
Jern är ett av många gammalstavade ord som jag har lagt till i OCR-ordlistan. Om jag av misstag har lagt till "JERN" så kanske ordet tolkas som detta. Mina svenska och danska OCR-ordlistor, som är vanliga textfiler, finns på http://runeberg.org/words/