Ingemar Olson skrev:
Ibland händer det att artiklarna inte följer varandra så bra.
Detta är allt för sant. Vi har idag minst tre olika sätt att indexera artiklar. Ett är <chapter>-taggarna vid korrekturläsning. Ett annat är sättet som vi indexerar uppslagsverken Nordisk familjebok och Salmonsens Konversationsleksikon, där frivilliga sammanställer listor av artiklar och intervall av sidnummer eller spaltnummer som de omfattar. Dessa båda metoder är rätt lätta att lära sig -- och detta är givetvis en stor poäng när vi vill dra till oss fler frivilliga medarbetare, men båda metoderna har också nackdelen att de är dåliga på att hantera "hoppande" artiklar.
Varning: Nu blir det lite tekniskt... läs vidare på egen risk.
En tredje metod är den som används internt i vårt webbmaskineri. Där representeras varje artikel eller kapitel av dels titeln, dels en följd av intervall av fysiska sidor. Det kan se ut så här:
|Ett fosterländskt Bildergalleri. XXXI. Bengt Lidner|0077-0079 0082
Exemplet är hämtat ur http://runeberg.org/famijour/1873/
Tecknen "|" (vertikalt streck) används för att skilja fälten åt. Varje rad har tre fält, varav det första är tomt i exemplet ovan. Det tredje fältet berättar att kapitlet omfattar sidorna med filnamnen 0077, 0078, 0079 och (hopp) 0082. Sådana här rader finns i en fil som heter Articles.lst och metoden beskrivs i min gamla uppsats från 1999, http://runeberg.org/admin/19990511.html
"Svensk Familj-Journal" är just ett sådant verk där många av artiklarna är "hoppande". I det här fallet är det två sidor med illustrationer till en annan artikel (0080, 0081) som är inklämda före slutet på Lidner-artikelns text på famijour/1873/0082.html
När Hans Perssons nya script tar hand om <chapter>-taggarna och infogar dem i verkets indexering, så är det sådana här rader som skapas.
Den här metoden har nackdelen att den inte berättar var på sidan ett visst kapitel börjar eller slutar. Det är information som bara fås med <chapter>-taggarna.
En annan nackdel, som gör det svårare att förklara metoden för nybörjare, är att den använder sidornas filnamn (0077) och inte pagineringen (sidan 73). Att det skiljer fyra enheter mellan dem beror på att titelsidan och innehållsförteckningen i början av volymen (0001 - 0004) ligger före sidan 1 (0005). Skillnaden blir extra tydlig för uppslagsverk med spaltnumrering, som Nordisk familjebok (där sidan med filnamn 0123 kan innehålla spalterna 221-222), eller när inbladade planscher gör att avståndet mellan filnamn och sidnummer förskjuts ytterligare.
Jag har inte sett något annat projekt som har en bättre lösning, som både är heltäckande och lätt att förklara för nybörjare. Men detta är helt klart ett område där vi kunde önska oss något bättre än det vi har.
Att för hand sitta och skriva hela Articles.lst är mödosamt om kapitlen är många, vilket i synnerhet gäller diktsamlingar, uppslagsverk och tidskrifter. Att en bredare allmänhet kan hjälpa till med <chapter>-taggar är till stor hjälp. Ju mer som kan täckas med den metoden, desto bättre, men det är till stor hjälp även om det inte är 100 %.