Projekt Runeberg,
Det som bromsar mig mest just nu är OCR. Komplicerade sidor med spalter och tabeller (i uppslagsverk och tidskrifter) gör att jag måste gå igenom och se att OCR-programmet har hittat rätt. För att komma snabbare framåt måste fler dela på det arbetet. Romaner och diktsamlingar där sidorna har en enkel struktur går däremot lätt att OCR-tolka, nästan helt automatiskt. Här finns ett pedagogiskt problem. Som nybörjare kan man ju inte från start ta på sig de mest komplicerade uppgifterna. Man måste öva upp sina färdigheter och gradvis ta på sig de svårare arbetena.
Nu tänker jag ta för vana att hoppa över OCR på de böcker jag scannar, och lämnar därför fältet öppet för den som vill att göra ett försök med OCR. När man ser att ett verk saknar OCR-texter under faksimilbilderna, kan man gå till verkets innehållsförteckning, och där finns länken "download" längst ner på sidan. Den länken leder till en speciell download-sida varifrån man kan ladda ner de inscannade bilderna och även ladda upp den färdiga OCR-texten. Nedladdningen kräver i de flesta fall att man har en bredbandsanslutning eftersom det rör sig om många megabyte.
Under "Recently published titles" finns nu flera verk som saknar OCR-text. De här två har vanlig löpande text:
* "Betänken Eder!" http://runeberg.org/betanken/ * "Kungl. Maj:ts förordningar om automobiltrafik", http://runeberg.org/automob/
De här tre har notskrift som man får se till att OCR-programmet hoppar förbi:
* Vita bandets sångbok, http://runeberg.org/vitaband/ * Svensk söndagsskolsångbok, http://runeberg.org/sondag/ * Sånglekar från Nääs, http://runeberg.org/sangnaas/
En början till instruktioner för OCR-tolkning finns på wiki-sidan http://runeberg.org/wiki/OCR och som för alla wiki-sidor så välkomnar vi hjälp att förbättra dem.