Projekt Runeberg,
Bara fyra band återstår nu att scanna av Nordisk familjebok. Det första bandet scannades i maj 2000 och det andra i december 2001. Inte mindre än sex band har scannats under mars och april 2003. Min förhoppning är att under maj månad kunna annonsera att alla 58 banden från de två första utgåvorna är inscannade, vilket är 128-årsjubileet av utgivningen av det allra första häftet i maj 1875.
Men det som är viktigare är att jag äntligen skaffat mig ett vettigt OCR-program, som läser ut en redigerbar text ur faksimilsidorna. Under den senaste månaden har nästan alla band OCR-tolkats och det betyder att mer än 200 megabyte text (34 miljoner ord) har tillkommit på vår webbplats, som nu går att korrekturläsa via webbformulär. Som jämförelse kan nämnas att Bibeln är 5 megabyte (800 tusen ord).
Sökmotorn Google (http://www.google.com/) har satt sina robotar i arbete och de har tuggat i sig det mesta av detta, så vår "träffyta" har ökats markant. När man söker hos Google på svenska ord är det numera vanligt att man får träff i Nordisk familjebok, åtminstone om orden är någorlunda ovanliga (som "kalospinterokromatokrene"). Vill man vara säker på att få träff i Nordisk familjebok, kan man lägga till ordet "familjebok" i sökrutan, för det nämns ju på varje sida.
En som fick sökträff i familjeboken är Marcus Boldemann, kulturskribent på Dagens Nyheter. Strax före påsk ringde han och gjorde en telefonintervju med mig, och resultatet publicerades i onsdags den 23 april, på världsbokdagen. Artikeln finns att läsa på http://www.dn.se/DNet/jsp/polopoly.jsp?d=1058&a=133282
Fulltextsökning är givetvis bra, men det är ett trubbigt verktyg. Söker man på Ryssland, så hittar man alla förekomster av det ordet. Men överst ville man ju hitta *artikeln* om Ryssland. För detta måste vi få klart indexeringen av artiklarna. Några arbetar redan med detta, men vi behöver bli fler. Arbetsplanen och framstegen syns i den stora tabellen på http://runeberg.org/nf/ Kontakta redaktionen på info@runeberg.org om du vill hjälpa till.
Korrekturläsning via webbformulär förekommer numera dagligen. De senaste aktiviteterna syns på sidan http://runeberg.org/rc.pike Om man klickar "(diff)" i vänsterkanten så får man se vad som ändrats i just den sparningen. Formatet är lite kryptiskt, och vi hoppas utveckla den funktionen vidare.
Andra framsteg har den senaste tiden skett inom korrekturläsning av Hofbergs "Svenskt biografiskt handlexikon" (http://runeberg.org/sbh/) och Eichhorns "De bildande konsternas historia i kort öfversigt" (http://runeberg.org/bildhist/). De senaste