Projekt Runeberg,
Bara fyra band återstår nu att scanna av Nordisk familjebok. Det
första bandet scannades i maj 2000 och det andra i december 2001.
Inte mindre än sex band har scannats under mars och april 2003.
Min förhoppning är att under maj månad kunna annonsera att alla 58
banden från de två första utgåvorna är inscannade, vilket är
128-årsjubileet av utgivningen av det allra första häftet i maj 1875.
Men det som är viktigare är att jag äntligen skaffat mig ett vettigt
OCR-program, som läser ut en redigerbar text ur faksimilsidorna.
Under den senaste månaden har nästan alla band OCR-tolkats och det
betyder att mer än 200 megabyte text (34 miljoner ord) har tillkommit
på vår webbplats, som nu går att korrekturläsa via webbformulär.
Som jämförelse kan nämnas att Bibeln är 5 megabyte (800 tusen ord).
Sökmotorn Google (http://www.google.com/) har satt sina robotar i
arbete och de har tuggat i sig det mesta av detta, så vår "träffyta"
har ökats markant. När man söker hos Google på svenska ord är det
numera vanligt att man får träff i Nordisk familjebok, åtminstone om
orden är någorlunda ovanliga (som "kalospinterokromatokrene"). Vill
man vara säker på att få träff i Nordisk familjebok, kan man lägga
till ordet "familjebok" i sökrutan, för det nämns ju på varje sida.
En som fick sökträff i familjeboken är Marcus Boldemann,
kulturskribent på Dagens Nyheter. Strax före påsk ringde han och
gjorde en telefonintervju med mig, och resultatet publicerades i
onsdags den 23 april, på världsbokdagen. Artikeln finns att läsa på
http://www.dn.se/DNet/jsp/polopoly.jsp?d=1058&a=133282
Fulltextsökning är givetvis bra, men det är ett trubbigt verktyg.
Söker man på Ryssland, så hittar man alla förekomster av det ordet.
Men överst ville man ju hitta *artikeln* om Ryssland. För detta måste
vi få klart indexeringen av artiklarna. Några arbetar redan med detta,
men vi behöver bli fler. Arbetsplanen och framstegen syns i den stora
tabellen på http://runeberg.org/nf/
Kontakta redaktionen på info(a)runeberg.org om du vill hjälpa till.
Korrekturläsning via webbformulär förekommer numera dagligen. De
senaste aktiviteterna syns på sidan http://runeberg.org/rc.pike
Om man klickar "(diff)" i vänsterkanten så får man se vad som
ändrats i just den sparningen. Formatet är lite kryptiskt, och vi
hoppas utveckla den funktionen vidare.
Andra framsteg har den senaste tiden skett inom korrekturläsning av
Hofbergs "Svenskt biografiskt handlexikon" (http://runeberg.org/sbh/)
och Eichhorns "De bildande konsternas historia i kort öfversigt"
(http://runeberg.org/bildhist/). De senaste
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - ditt digitala bibliotek - http://runeberg.org/