Det här är en kommentar till ett inlägg som Roger Persson postade till listan den 28 januari 2004, och som blivit liggande i min inbox. Bättre sent än aldrig! (Det kanske borde vara en devis för hela Projekt Runeberg...)
Varför översätter inte OCR-programmet tankestreck till tankestreck, bindestreck till bindestreck och minustecken till minustecken? Jag har stött på "inte-tecken" (¬, eller ¬) som översatts till ett "minustecken". Det som scriptet ska bearbeta verkar ju vara s.k. "mjuka bindestreck", som har sin egen kod (­). Detta är definierat i HTML 4.0, om än inte Safari eller IE för Macintosh verkar ha det klart för sig...
Tankstreck finns inte i den standard ISO 8859-1 som Projekt Runeberg använder sig av. Vi skriver två minustecken (--) när vi vill ange ett tankstreck. Någon gång i framtiden kommer vi att växla till Unicode (UTF-8) men vi är inte riktigt mogna för det än.
Mina egna rutiner för OCR (och det är jag som OCR:ar det mesta här) förbättras hela tiden. I några av de senast inscannade verken har jag lyckats sammanföra alla avstavade ord, och därmed gjort det väsentligt enklare och roligare att korrekturläsa (om jag får säga det själv).
Om OCR är riktigt dålig för ett verk, och en pina i bakdelen att korrekturläsa, så kan vi köra en förnyad OCR. Berätta vilket verk det gäller.
Förhoppningsvis står det i verkets "förord till den digitala utgåvan" när verket digitaliserades. Annars kan man från titelsidan scrolla till botten av sidan och klicka på länken "(history)". För exempelvis Medeltidens magi (http://www.lysator.liu.se/runeberg/magi/) avslöjar "history" att version 1.1 lades in 18 februari 1996 (!) men först den 2 december 1998 sparades faksimilbilder av alla 279 sidorna. Detta verk är fortfarande inte fullständigt korrekturläst. Åldern för den digitala utgåvan säger en hel del om tekniken och kvaliteten.
Det finns även endel ord som är icke-svenska exempelvis 1800-tals utgåvans "mytologi" ("lapsk mytologi"). Endel ord skrivs som bokstäver åtskilda med mellanrum, men bindestrecket fungerar både som hårt och mjukt.
Ordet "L u o t - c h o z i k" är ett sådant exempel, där bindestreck
Detta kallas spärrad stil och har sin egen typografiska historia. Det användes som ett mellanting mellan fetstil och kursivering för att markera viktiga ord, t.ex. hänvisningar till andra uppslagsord i Nordisk familjebok. Bakgrunden är att den gamla frakturstilen inte hade några kursiva bokstäver. När "fraktur-länderna" Tyskland, Danmark och Sverige övergick från fraktur till dagens antikva, så behöll man ovanan att använda spärrad still för markeringar.
Vid korrekturläsning skriver vi <spärr>Luotchozik</spärr> eller kanske <spärr>Luot-chozik</spärr> om det är ett ord som ska ha bindestreck.
Detta nämns i våra instruktioner för korrekturläsare, men kan säkert formuleras tydligare.