Re: [Runeberg] OCR-program, hur funkar det?

24 Feb 2005


      Anders Thapper skrev:
...
Jag förundras ibland över OCR-programmet och de tolkningar det
[...]
I uppfinningarnas bok förekommer ofta orten München och i väldigt
många fall tolkas detta som Mimenen, jag kan se att antalet staplar
OCR-program är något som fortfarande förbättras.  Det som jag
använder nu (ABBYY FineReader 6.0 Professional)  är betydligt
bättre än det som jag använde för 3--7 år sedan.  Men
förmodligen kan jag också bli bättre på att använda det.
Att München feltolkas så ofta beror på att ü inte ingår bland de
tänkbara bokstäverna när man tolkar svensk text.  Denna
inställning går att ändra på, men inte förrän förra veckan
insåg jag hur det går till.  Man måste "skapa ett nytt språk" som
baserar sig på svenska, och därmed ärver dess ordlista, men som
dessutom kan innehålla ytterligare några bokstäver.  Jag gjorde en
egen variant av finska språket som förutom ü och æ klarar de
s-hacek och c-hacek som användes (för sje-ljud) på 1920-talet när
"Pieni tieotsanakirja" gavs ut.  Resultatet är att en del u feltolkas
som ü, men som helhet tror jag att det blivit en förbättring.
...
Sen är ett vanligt fel att "om" tolkas som "örn", "han" som
"lian", och "ro" som "rö", även när det inte finns något synligt
smuts som kan lura tolkningen. I alla dess tre fall är det rätta
ordet betydligt vanligare i svenska språket än det feltolkade och
om programmet var osäkert så skulle det väl gissa på det mer
använda, eller?
Jag tror att programmet gissar rätt betydligt fler gånger, men det
är felen som dina ögon fastnar på.  Jag stör mig också på dessa
fel, men jag är ju en människa som läser en hel mening, medan
programmet verkar stirra på varje ord för sig.
En annan jobbig sak med OCR-tolkning är att programmet ibland missar
sidans indelning i fält och spalter.  Att manuellt kontrollera detta
tar en massa tid, och vi skulle behöva fler medhjälpare som kör
OCR.  För det behöver man ha en bredbandsanslutning, så att man kan
ladda ner TIFF-filer, ett OCR-program, och gott om tid.  Det är de
jobbiga uppslagsverken och flerspaltiga tidskrifterna som vi behöver
hjälp med.  Vanliga romaner blir nästan perfekta vid första
körningen.  Just nu finns några årgångar av Teknisk Ukeblad och
några av Svensk Läraretidning som väntar på OCR.
...
Till sist undrar jag om det finns någon förklaring till att vissa
ord får kapitäl även när de inte ska ha det, till exempel verkar
detta drabba jern och jernet ganska ofta medan jag inte har märkt
det på andra ord som börjar på j, beror det på att jern inte
känns igen som ett ord?
Jern är ett av många gammalstavade ord som jag har lagt till i
OCR-ordlistan.  Om jag av misstag har lagt till "JERN" så kanske
ordet tolkas som detta.  Mina svenska och danska OCR-ordlistor, som
är vanliga textfiler, finns på http://runeberg.org/words/
-- 
  Lars Aronsson (lars@aronsson.se)
  Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

Re: [Runeberg] OCR-program, hur funkar det?