Projekt Runeberg,
[This software development challenge is presented in Swedish only.]
Några gamla inscannade årgångar av "Vem är det" är en märklig erfarenhet att läsa och korrekturläsa. Utgivaren har gjort ett tappert försök att klämma in cirka 5000 biografier på 1000 sidor och lösningen är en extrem användning av förkortningar.
Ett exempel: KTH 16, tekn. dr 30, res:off. 11, bitr. ing. i V. o. V:styr. 16, ing. v. SKF fr. 17, ch. f. tekn. avd. där fr. 37.
Detta uttyds: Examen från Kungliga Tekniska Högskolan 1916, teknologie doktor 1930, reservofficer 1911, biträndande ingenjör i Väg- och vattenbyggnadsstyrelsen 1916, ingenjör vid Svenska Kullagerfabriken från 1917, chef för tekniska avdelningen där från 1937.
Detta skapar flera problem: OCR-programmet bygger på ordlistor, men de här förkortningarna finns inte i ordlistan och därför är det en stor andel OCR-fel, som kräver mycket korrekturläsning.
När väl OCR-texten är korrekturläst, är resultatet ändå en samling kryptiska förkortningar, som är svår för läsaren att begripa och omöjlig för sökmotorerna att indexera. Det är ju ingen som söker på "hhövd i Hbg", utan man vill kunna söka på "häradshövding i Helsingborg".
Jag tror att lösningen är att "skriva rent" de biografiska upplysningarna i klartext (som jag gjorde ovan) och göra dem till artiklar i Wikipedia.
Men kanske kan man automatisera den här uttydningen? Den programmerare som vill ha lite julpyssel kanske kan försöka skriva ett program för att göra översättningen? Enklast är väl att skriva ett program som arbetar på den korrekturlästa texten (som i exemplet ovan). Men kanske går det också att bearbeta OCR-texten före korrekturläsning?
Vi har flera titlar och årgångar att bjuda på, som alla bjuder på variationer i förkortningarna, men grundproblemet är detsamma:
svenska, http://runeberg.org/vemardet/ http://runeberg.org/vemarvem/ http://runeberg.org/vemindu/
norska, http://runeberg.org/hvemerhvem/ http://runeberg.org/merkbio/
danska, http://runeberg.org/blaabog/