Projekt Runeberg,
Det som bromsar mig mest just nu är OCR. Komplicerade sidor med spalter och tabeller (i uppslagsverk och tidskrifter) gör att jag måste gå igenom och se att OCR-programmet har hittat rätt. För att komma snabbare framåt måste fler dela på det arbetet. Romaner och diktsamlingar där sidorna har en enkel struktur går däremot lätt att OCR-tolka, nästan helt automatiskt. Här finns ett pedagogiskt problem. Som nybörjare kan man ju inte från start ta på sig de mest komplicerade uppgifterna. Man måste öva upp sina färdigheter och gradvis ta på sig de svårare arbetena.
Nu tänker jag ta för vana att hoppa över OCR på de böcker jag scannar, och lämnar därför fältet öppet för den som vill att göra ett försök med OCR. När man ser att ett verk saknar OCR-texter under faksimilbilderna, kan man gå till verkets innehållsförteckning, och där finns länken "download" längst ner på sidan. Den länken leder till en speciell download-sida varifrån man kan ladda ner de inscannade bilderna och även ladda upp den färdiga OCR-texten. Nedladdningen kräver i de flesta fall att man har en bredbandsanslutning eftersom det rör sig om många megabyte.
Under "Recently published titles" finns nu flera verk som saknar OCR-text. De här två har vanlig löpande text:
* "Betänken Eder!" http://runeberg.org/betanken/ * "Kungl. Maj:ts förordningar om automobiltrafik", http://runeberg.org/automob/
De här tre har notskrift som man får se till att OCR-programmet hoppar förbi:
* Vita bandets sångbok, http://runeberg.org/vitaband/ * Svensk söndagsskolsångbok, http://runeberg.org/sondag/ * Sånglekar från Nääs, http://runeberg.org/sangnaas/
En början till instruktioner för OCR-tolkning finns på wiki-sidan http://runeberg.org/wiki/OCR och som för alla wiki-sidor så välkomnar vi hjälp att förbättra dem.
tis 2005-03-08 klockan 22.45 skrev Lars Aronsson:
Nu tänker jag ta för vana att hoppa över OCR på de böcker jag scannar, och lämnar därför fältet öppet för den som vill att göra ett försök med OCR. När man ser att ett verk saknar OCR-texter under faksimilbilderna, kan man gå till verkets innehållsförteckning, och där finns länken "download" längst ner på sidan. Den länken leder till en speciell download-sida varifrån man kan ladda ner de inscannade bilderna och även ladda upp den färdiga OCR-texten. Nedladdningen kräver i de flesta fall att man har en bredbandsanslutning eftersom det rör sig om många megabyte.
På det sättet måste man hålla koll på vilka verk som är nya eller klicka sig igenom alla för att få reda på vilka som saknar OCR-text. Det finns ett enklare sätt. Sidan
http://runeberg.org/upload.pl?mode=ocrlist
listar alla verk som just nu saknar OCR-texter och har länkar både för att ladda ner faksimilbilderna och för att ladda upp nygjorda OCR-texter.
Under "Recently published titles" finns nu flera verk som saknar OCR-text. De här två har vanlig löpande text:
- "Betänken Eder!" http://runeberg.org/betanken/
- "Kungl. Maj:ts förordningar om automobiltrafik", http://runeberg.org/automob/
Detsamma gäller de två volymerna av Aurora Ljungstedts Samlade berättelser som listas.
Den som vill ha något lätt till att börja med rekommenderas däremot *inte* att försöka sig på http://runeberg.org/treresor/. ;-) Speciellt inte som jag har textfiler för ungefär halva volymen liggande som jag inte hunnit ladda upp än.
Hans
2005-03-09 kl. 08.08 skrev Hans Persson:
På det sättet måste man hålla koll på vilka verk som är nya eller klicka sig igenom alla för att få reda på vilka som saknar OCR-text. Det finns ett enklare sätt. Sidan
http://runeberg.org/upload.pl?mode=ocrlist
Inloggningsfunktionen fungerar inte ännu? Eller är det bara ladda ner en bund och börja OCR:a?
Hälsningar Roger