Den 1 februari skrev Roger Persson till denna lista:
Får man fråga, är filterna plug-in-scripts till OCR-programmet, eller till webbsiten ? Finns det någon wikisida som beskriver Runeberg-tekniken, från manuell inscannring, översättning och till korrekturläsning. (Information om den sistnämnda har jag hittat redan).
Vi har varit dåliga på att beskriva detta, delvis kanske för att det är rätt så komplicerat. Jag strävar efter att förenkla och pedagogisera det jag gör, och rätt ofta handlar det om att dölja komplicerade detaljer.
En av mina principer är den här: Om något är jobbigt att förklara, så är det uppbyggt på fel sätt. Man borde bygga upp det så, att det blir enkelt att förklara. T.ex. börjar det bli jobbigt att förklara varför tankstreck och grekiska bokstäver inte fungerar, och detta skulle vi slippa förklara om vi bytte från ISO 8859-1 till Unicode. Både Distributed Proofreaders och Wikipedia kör Unicode och har stor framgång med detta. Tiden börjar bli mogen. Det jag vill undvika är att byta för tidigt och tvingas förklara för alla vad Unicode är.
För inscanning finns det just nu på vår wiki en del sidor om:
Valet av förlaga, http://runeberg.org/wiki/F%f6rlaga Valet av scanner, http://runeberg.org/wiki/Scanner Scanning, http://runeberg.org/wiki/Scanning Korrekturläsning, http://runeberg.org/wiki/Korrekturl%e4sning
men de kan säkert göras mer utförliga och bättre strukturerade.
Jag har nu haft möjlighet att jämföra Distributed Proofreaders och deras instruktioner är en enda jättelång och jättedetaljerad text. Själv misstänker jag att många läsare storknar innan de hunnit halvvägs i en så lång text.
En sak som börjar bli jobbig att förklara är varför vi ska scanna i 600 dpi svartvitt och spara som TIFF G4, och sedan måste färgsidor dessutom scannas i färg, där vi hittills använt 300 dpi JPEG. Kanske borde vi i stället scanna allting i färg och spara som PNG? Då kanske 300 dpi eller 400 dpi är tillräckligt hög upplösning?
Det här är frågan om en generationsväxling, där gamla storskaliga scanninglösningar på myndigheter i över tio års tid har använt svartvit TIFF med G3 eller G4-komprimering, medan webbläsare och enkla scanners för 700 kronor på Elgiganten knappast stöder TIFF-formatet. JPEG är inte bra för text som ska OCR-tolkas, men PNG kanske fungerar för alla? Distributed Proofreaders verkar standardisera på PNG.