Hej runebergare,
Några av er har upptäckt det förut, men jag tänkte berätta om hur de första stegen av att skapa ett nytt verk går till.
Först scannas verket. Jag håller just nu på att scanna en massa tidskriftsårgångar som vi fått från Universitetsbiblioteket i Linköping. Årgångarna av Samlaren som jag håller på att ladda upp nu är det första därifrån, men jag har även andra tidskrifter på lager.
När något är färdigscannat och uppladdat till vår server så kan man se verket på sidan http://runeberg.org/upload.pl?mode=ocrlist Här syns alla verk som ännu inte har fått OCR-text. Innan det går att köra OCR på ett verk så behöver någon titta på alla de scannade bilderna för att se att alla finns med och ser vettiga ut (det händer exempelvis ibland att scannern matar dubbelt, eller att papper hamnar snett). Det är dumt om dessa fel upptäcks efter OCR-körningen, för då är de mycket jobbigare att rätta till.
För att slippa sådana problem kan man "korrekturläsa" faksimilbilderna. Längst ut till höger på sidan ovan finns ibland en länk som heter "Verket är ännu ej kontrollerat - gör det". Detta betyder att ingen har kollat bilderna för det här verket. Det är bara att klicka sig in där och sätta igång. När man bläddrat igenom varje sida, satt kryss i rätt rutor där det behövs, och sparat för varje sida så ändras kommentaren på översiktssidan till "[Ladda upp OCR]" vilket naturligtvis betyder att det nu är fritt fram att OCR:a verket.
Ibland går det dock inte riktigt som man tänkt sig, och något i scanningen (eller pagineringen) har blivit fel. Den som kontrollerar verket upptäcker det och markerar rätt kryssrutor. När verket är genomgånget kommer det då att få kommentaren "Verket är kontrollerat men åtminstone någon sida behöver scannas om (titta ändå)". Då kan den som scannat verket gå in och se vilka sidor som är fel och rätta till det. Sedan kan man släppa verket till OCR.
Varför berättar jag då allt detta just nu? Jo, det har som synes samlats rätt många verk där ingen har tittat igenom faksimilbilderna. När du vill ha ett lätt jobb att hjälpa till med så passar det att kontrollera faksimilbilder. Det enda man behöver göra är att se till att bilden ser bra ut (rak och läsbar) och att sidnumreringen på bilden stämmer med den i sidhuvudet. Om man har bredband tar det inte mer än en kvart eller så att klara av ett helt verk.
Hans