Hej,
Verket "Svenska Fornsånger" består totalt av tre delar. Jag har scannat in del ett som publicerades 1834. Jag tror de två andra delarna blev publicerade några år senare.
Så här gick jag till väga:
Jag använde en scanner av modellen "Epson Perfection 1660 Photo". Med mjukvaran XSane ( på Linux ) så scannade jag in i 600 dpi gråskala och sparade i PNM-format.
I XSane ställde jag då in följande:
Gamma value: 1.42 Brightness: 12.3 Contrast: 12.3
Så här i efterhand så undrar jag om det är bra att ändra dessa värden. Kanske är det bättre att låta bli och istället låta allt sådant göras med bildbehandling i efterhand?
Varje inscannad bild blev 24 MB och den består av 2 boksidor. Sedan roterade jag bilderna med programmet "ImageMagick" version 6.2.8. och sparade ner dom i bildformatet TIFF-G4. Jag provade då att använda några olika procent-värden till flaggan "-threshold". Procent-värdet anger hur ljus en grå punkt måste vara för att bli betraktad som vit när bilden görs om till svart-vitt.
( se det bifogade bash-skriptet "convert_to_monochrome.sh" )
Därefter provade jag att rita ut rektanglar på bilderna för att kunna se var sidorna skulle beskäras.
convert -draw "fill transparent stroke black stroke-width 2 rectangle 200,20,2550,4000" och så vidare....
De koordinater jag hittade använde jag sedan till flaggan "-crop", t ex så här,
convert -crop 2350X4030+200+10 uppslag.tiff vänster-sida.tiff convert -crop 2350X4030+2750+10 uppslag.tiff höger-sida.tiff
Nu släpper jag materialet fritt ( http://creativecommons.org/licenses/publicdomain/ ) och det går att ladda ned här:
http://www.abc.se/~m10828/svenska_fornsanger/Articles.lst ( 3 kB ) http://www.abc.se/~m10828/svenska_fornsanger/bw_54.zip ( 21 MB ) http://www.abc.se/~m10828/svenska_fornsanger/bw_57.zip ( 23 MB ) http://www.abc.se/~m10828/svenska_fornsanger/bw_60.zip ( 25 MB ) http://www.abc.se/~m10828/svenska_fornsanger/bw_63.zip ( 27 MB )
( 54, 57 ,60 och 63 anger olika threshold-värden )
Jag har inte tillgång till något OCR-program så jag hoppas någon annan kan ta över här och lägga upp materialet på www.runeberg.org.
hälsningar, Erik Sjölund
sön 2006-12-31 klockan 11:52 +0100 skrev Erik Sjölund:
Jag har inte tillgång till något OCR-program så jag hoppas någon annan kan ta över här och lägga upp materialet på www.runeberg.org.
Om du vill kan du ladda upp och publicera materialet själv via formuläret på http://runeberg.org/upload.pl. Det går bra även om du inte har någon OCR-text (den kommer i ett senare steg i processen, och kan laddas upp av någon annan).
Säg till om du har några frågor eller kommentarer om uppladdningsprocessen. Det är fortfarande lite primitivt.
Om du inte vill ladda upp verket själv kan vi naturligtvis ta hand om det åt dig.
Hans
On Mon, 2007-01-01 at 10:46 +0100, Hans Persson wrote:
Om du vill kan du ladda upp och publicera materialet själv via formuläret på http://runeberg.org/upload.pl. Det går bra även om du inte har någon OCR-text (den kommer i ett senare steg i processen, och kan laddas upp av någon annan).
Jag gjorde först ett försök men hade oturen att ladda upp samtidigt som sajten www.runeberg.org gick ner. I vilket fall som helst har Joakim Ragnvaldsson varit mycket hjälpsam och rett ut problemet samt kört OCR på gråskalebilderna. Nu ligger boken uppe på
http://runeberg.org/fornsang/1/
Tack för hjälpen! hälsningar, Erik Sjölund