tis 2005-03-08 klockan 22.45 skrev Lars Aronsson:
Nu tänker jag ta för vana att hoppa över OCR på de böcker jag scannar, och lämnar därför fältet öppet för den som vill att göra ett försök med OCR. När man ser att ett verk saknar OCR-texter under faksimilbilderna, kan man gå till verkets innehållsförteckning, och där finns länken "download" längst ner på sidan. Den länken leder till en speciell download-sida varifrån man kan ladda ner de inscannade bilderna och även ladda upp den färdiga OCR-texten. Nedladdningen kräver i de flesta fall att man har en bredbandsanslutning eftersom det rör sig om många megabyte.
På det sättet måste man hålla koll på vilka verk som är nya eller klicka sig igenom alla för att få reda på vilka som saknar OCR-text. Det finns ett enklare sätt. Sidan
http://runeberg.org/upload.pl?mode=ocrlist
listar alla verk som just nu saknar OCR-texter och har länkar både för att ladda ner faksimilbilderna och för att ladda upp nygjorda OCR-texter.
Under "Recently published titles" finns nu flera verk som saknar OCR-text. De här två har vanlig löpande text:
- "Betänken Eder!" http://runeberg.org/betanken/
- "Kungl. Maj:ts förordningar om automobiltrafik", http://runeberg.org/automob/
Detsamma gäller de två volymerna av Aurora Ljungstedts Samlade berättelser som listas.
Den som vill ha något lätt till att börja med rekommenderas däremot *inte* att försöka sig på http://runeberg.org/treresor/. ;-) Speciellt inte som jag har textfiler för ungefär halva volymen liggande som jag inte hunnit ladda upp än.
Hans