B L Wahlman:
- Ibland innehåller förlagan en figur på halvspalt eller så, med
kringflödande brödtext. OCR lämnar då figurens plats tom, med brödtexten kvarstående i smalspalt. Ska vi då låta det stå kvar på smalspalt som det är, eller ska vi ombryta kringflödet till normalspalt?
Hur gör du för att kontrollera spaltbredden? Om man inte använder sig av specialtekniker så görs alltid radbrytningen om av webbläsaren oavsett hur du brutit raden när du korrläser. Undantaget är t.ex. om man använder inledande blanktecken (tänkt för poesi). Om du inte använder sådant så kan du ha ett ord per rad eller hela stycket på en jättelång rad. När den slutgiltiga texten skickas ut till webbläsaren så bryter den om texten med tanke på bredden på användarens fönster och det aktuella typsnittet.
Jag kan inte se någon som helst fördel med att försöka hårdkoda radbrytningen i det här fallet. Du vet ju inte hur brett användarens webbläsarfönster är. Om du gör brytningen för en 5 cm smal spalt och användaren bara har plats för 4,5 cm långa rader så kommer man få en automatisk radbrytning av varje tänkt 5 cm-rad till en 4,5 cm-rad och en 0,5 cm-rad.
- ... En annan metod är att sätta en apostrof eller flera, så här: <sub>'
'</sub>. [Jag har] dessutom lagt emellan ett blanksteg. Detta blanksteg har jag dessutom skrivit som "hårt" (nödvändigt) blanksteg för att undvika en eventuell olycklig rabrytning. Hårt blanksteg fungerar på min dator och i min web-läsare. Men hur tolkas det av Runeberg, och, framför allt hur blir det tolkat vid efterbehandlingen av slut-korrat dokument vid hopslagningen till HTML?
Det borde inte vara något problem. Hårt mellanslag (non breaking space) ingår i iso 8859/1 och borde kunna användas för alla våra titlar. Det har ingått i html sen hedenhös så det borde inte bli några problem i praktiken när det visas.
- När det gäller gamla svenska mått ser jag ett behov av hantering av
skålpundtecknet. Känner någon till en font med skålpundtecken?
Kolla om det ingår i unicode. Du hittar unicode-tecknen på http://www.unicode.org/charts/ och i pdf-dokumenten som länkas därifrån. (I de här sammanghanget kan vi förenkla lite och låtsas som om unicode och utf-8 är två synonyma bregrepp).
- I Geodet förekommer på flera ställe hänvisning till KTH:s föregångare
Tekniska Institutet. Ibland stavas det just så, med versalt T och versalt I. Men ibland har sättaren skrivit 'Tekniska institutet' med gemen begynnelsebokstav på 'institutet'. Originalet är alltså inkonsekvent. Hur ska Runebergs korr-läsare förhålla sig till sådant?
Jag kan inte se något som helst skäl att försöka "förbättra" originalet på den punkten! Det ska vara mycket mera uppenbara misstag för att vi ska rätta dem. Om det någon gång stode "Tekniska intsitutet" så borde man rätta det fullständigt uppenbart felaktiga "ts" till "st", men låta "i" stå kvar.
- Frågan om hårt blanksteg har berörts i p 7 ovan. Nu har jag i UTF-8
någonstans sett något som kallas "unbreakable space" eller något liknande. Kan det vara något att ta vara på?
Non-breaking space. Ja, men använd det sparsamt: vi har ju ingen kontroll över spaltbredden.
Jag har ett eget spörsmål beträffande blanksteg. Enligt en gammal typografregel skulle man sätta texten så att mellanrummet mellan meningar blev det dubbla normala blanksteget jämfört med ordmellanrum inuti meningen. Detta synsätt förekommer i den äldre litteratur, som förekommer i Runebergprojektet. Detta återspeglas i OCR-texten. Då uppstår frågan: ska man eftersträva en "bokstavstrogen" återgivning i den slutliga digitaliserade utgåvan, eller ska man "modernisera" utförandet av författarens/förlagets syn på saken?
Här finns det teknikaliteter i html att ta hänsyn till. När html-koden innhåller en sekvens av blanktecken och radbrott så ska det visas som ett blanktecken. Det går att trixa så att det visas två blanktecken efter varandra, men i normalfallet så kommer det vara bortkastat att försöka lägga in dubbla blanka mellan meningar.
För ett snyggt och stabilt resultat MÅSTE leta rätt på alla dolda tab-steg, och efter behov byta mot blanksteg, ett eller flera.
Jag tror att samma sak som för dubbla blanktecken även gäller tab-tecken. När de visas i webbläsaren så blir det likadant som ett blanktecken. (Fast tabeller kanske skapas med pre-taggar?)
När det gäller Courier har jag kommit på en lus i åtminstone den font jag har i min dator: Grader-symbolen ' ° ' följer inte det normala fasta breddsteg som gäller för den aktuella graden. Det har givit mig en hel del huvudbry med trigonometriska tabeller. Det är stört omöjligt att få kolumnerna raka.
Även här spelar tekniken in. Det är upp till webbläsaren att presentera texten korrekt. Runeberg har ingen kontroll över om det finns fel eller ej i "slutanvändarens" font. Vi vet ens inte om det är Courier som används som skrivmaskinstypsnitt. Att gradtecknen visas fel på din dator är ingen anledning till att tro att de ska visas fel på andras datorer. Du borde kunna lägga in sådna och räkna med att de visas rätt för andra än dig.
Christer Romson