Projekt Runeberg,
[This software development challenge is presented
in Swedish only.]
Några gamla inscannade årgångar av "Vem är det" är en märklig
erfarenhet att läsa och korrekturläsa. Utgivaren har gjort ett
tappert försök att klämma in cirka 5000 biografier på 1000
sidor och lösningen är en extrem användning av förkortningar.
Ett exempel: KTH 16, tekn. dr 30, res:off. 11,
bitr. ing. i V. o. V:styr. 16, ing. v. SKF fr. 17,
ch. f. tekn. avd. där fr. 37.
Detta uttyds: Examen från Kungliga Tekniska Högskolan 1916,
teknologie doktor 1930, reservofficer 1911, biträndande
ingenjör i Väg- och vattenbyggnadsstyrelsen 1916,
ingenjör vid Svenska Kullagerfabriken från 1917,
chef för tekniska avdelningen där från 1937.
Detta skapar flera problem: OCR-programmet bygger på ordlistor,
men de här förkortningarna finns inte i ordlistan och därför
är det en stor andel OCR-fel, som kräver mycket korrekturläsning.
När väl OCR-texten är korrekturläst, är resultatet ändå en
samling kryptiska förkortningar, som är svår för läsaren att
begripa och omöjlig för sökmotorerna att indexera. Det är ju
ingen som söker på "hhövd i Hbg", utan man vill kunna söka på
"häradshövding i Helsingborg".
Jag tror att lösningen är att "skriva rent" de biografiska
upplysningarna i klartext (som jag gjorde ovan) och göra dem
till artiklar i Wikipedia.
Men kanske kan man automatisera den här uttydningen?
Den programmerare som vill ha lite julpyssel kanske kan
försöka skriva ett program för att göra översättningen?
Enklast är väl att skriva ett program som arbetar på den
korrekturlästa texten (som i exemplet ovan). Men kanske
går det också att bearbeta OCR-texten före korrekturläsning?
Vi har flera titlar och årgångar att bjuda på, som alla bjuder
på variationer i förkortningarna, men grundproblemet är detsamma:
svenska,
http://runeberg.org/vemardet/http://runeberg.org/vemarvem/http://runeberg.org/vemindu/
norska,
http://runeberg.org/hvemerhvem/http://runeberg.org/merkbio/
danska,
http://runeberg.org/blaabog/
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
Projekt Runeberg,
ENGLISH: So, our server is now running Ubuntu Linux 9.10
and most things seem to have gone fine. We're still not
sure about everything. We had some more interruptions.
If you read Wired magazine, you'll find a description of
a home-made book scanner built from two cheap digital
cameras. It would be interesting to know if any of you
have tried to build something similar?
http://www.wired.com/gadgetlab/2009/12/diy-book-scanner/
SVENSKA: Vår server är nu uppgraderad till Ubuntu Linux 9.10
och det mesta verkar ha gått fint. Men det har varit lite
skakigt så allt är kanske inte på plats än.
Om ni läser amerikanska datortidningen Wired, så hittar
ni en beskrivning av hur man kan bygga en bokscanner av
två billiga digitalkameror. Det vore intressant att höra
om någon av er försökt att göra något liknande?
http://www.wired.com/gadgetlab/2009/12/diy-book-scanner/
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg - free Nordic literature - http://runeberg.org/
Projekt Runeberg,
ENGLISH: Our web server has been running without
interruption for more than 200 days, and we need
to upgrade the operating system. This will cause
a (hopefully short) interruption in availability
this Sunday evening and/or Monday morning, local
Swedish time.
SVENSKA: Vår webbserver har utan avbrott varit i
gång under 200 dygn. Nu behöver operativsystemet
uppgraderas och detta innebär ett (som vi hoppas
kort) driftavbrott nu på söndag kväll och måndag
morgon, lokal svensk tid.
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg - free Nordic literature - http://runeberg.org/