OCR-rekrytering - Runeberg

8 Mar 2005


      Projekt Runeberg,
Det som bromsar mig mest just nu är OCR.  Komplicerade sidor med
spalter och tabeller (i uppslagsverk och tidskrifter) gör att jag
måste gå igenom och se att OCR-programmet har hittat rätt.  För
att komma snabbare framåt måste fler dela på det arbetet. Romaner
och diktsamlingar där sidorna har en enkel struktur går däremot
lätt att OCR-tolka, nästan helt automatiskt.  Här finns ett
pedagogiskt problem.  Som nybörjare kan man ju inte från start ta
på sig de mest komplicerade uppgifterna.  Man måste öva upp sina
färdigheter och gradvis ta på sig de svårare arbetena.
Nu tänker jag ta för vana att hoppa över OCR på de böcker jag
scannar, och lämnar därför fältet öppet för den som vill att
göra ett försök med OCR. När man ser att ett verk saknar
OCR-texter under faksimilbilderna, kan man gå till verkets
innehållsförteckning, och där finns länken "download" längst ner
på sidan. Den länken leder till en speciell download-sida varifrån
man kan ladda ner de inscannade bilderna och även ladda upp den
färdiga OCR-texten.  Nedladdningen kräver i de flesta fall att man
har en bredbandsanslutning eftersom det rör sig om många megabyte.
Under "Recently published titles" finns nu flera verk som saknar
OCR-text.  De här två har vanlig löpande text:
* "Betänken Eder!" http://runeberg.org/betanken/
 * "Kungl. Maj:ts förordningar om automobiltrafik",
   http://runeberg.org/automob/
De här tre har notskrift som man får se till att OCR-programmet
hoppar förbi:
* Vita bandets sångbok, http://runeberg.org/vitaband/
 * Svensk söndagsskolsångbok, http://runeberg.org/sondag/
 * Sånglekar från Nääs, http://runeberg.org/sangnaas/
En början till instruktioner för OCR-tolkning finns på wiki-sidan
http://runeberg.org/wiki/OCR och som för alla wiki-sidor så
välkomnar vi hjälp att förbättra dem.
-- 
  Lars Aronsson (lars@aronsson.se)
  Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/