[Runeberg] Grektecken, OCR, Utf-8 och önskelista

26 Feb 2005


      1	Tack för grektecknen! Synd bara att de inte fanns tidigare. Geodet:s 
tidigare sidor torde (om ingen vänlig själ redan ändrat på det) 
innehålla mängder av surrogaten [alpha]. [beta] etc. Fråga: önskar 
Runeberg omläsning av 100-talet sidor för justering, eller kan det stå 
som det är och fixas av Redax vid efterbehandlingen?
2	Räcker det att jag kopierar och klistrar från de nytillsatta röda 
raderna eller bör jag dessutom ställa om kodsidan för mitt tangentbord 
från "Latin 1 = ISO vad-det-nu-är-för-nummer"  till UTF-8?
3	From önskan: Om det går, lägg in en blankrad mellan inmatningsfältet 
för korr och de nyinlagda UTF-8-teckning. De röda raderna tätt intill 
korr-fältet stör ögat, när man är nere på sista raden i korr-fältet.
4	Gemena sigma ser inte ut som jag hade väntat mig.
5	Bland övriga tecken förefaller versala THORN och gement thorn ha fått 
varandras placeringar, eller hur?
6	Har hittat ± bland högre ASCII-nummer i "Latin 1", och ser att ofta 
OCR klarar det. Men i matematiska sammanhang duger inte det alltid, 
utan man måste kunna skriva "minus plus" d v s — ovanför +. Det hittar 
jag inte i de vanliga fonterna. Finns i och för sig i den vanliga 
fonten SYMBOL, men kan man använda det i Runeberg? I något fall 
substituerade jag <minus plus> med [minus]/[plus] (tror jag det var). 
Vad säger Runeberg om det?
7	I formler förekommer ibland s k ellips … som jag här lockat fram som 
ligatur. (Undrar just om det blir rätt återgivet av läsarens 
e-post-program!) Tycker det är bättre än tre punkttecken i rad ... som 
ev kan uppfattas som felskrift eller i något elakt fall bli radbrutet 
mitt i. Hvad tyx om det?
8	För inte så länge sen "uppfann" någon <img>, som jag sett många 
praktiserat, och som jag själv ofta använt. Men när jag senast kollade 
tillåtna markeringar <i>, </i> etc så var inte <img> med som tillåtet. 
Verkar ha blivit "de-facto-standard", men borde legitimeras om det nu 
kan accepteras. Har dock sett att det tillämpas lite olika i samband 
med figurtitlar. Någon hade satt <img>Figurtitel</img>. Själv (och även 
andra) har skrivit <i>Figurtitel</i> <img> om texten varit bilden 
överställd resp <img><b>Figurtiltel</b> om texten varit bilden  
underställd. Formatering <i> eller <b> eller annat alltefter var 
förlagan antyder. Och så en eller annan blankrad extra för att 
förtydliga det hela.  Här behövs klara direktiv från Runebergledningen 
hur man ska göra, så att alla tillämpar det enhetligt.
9	Någan hade förundrat sig över att OCR ständigt missar på vissa saker. 
Jag har också noterat det, och jag tror att det ofta finns andra 
förklaringar än "smuts" till att det det blir ett svårt jobb för OCR. 
Egentligen har jag stor beundran för vad OCR verkligen klarar av. 
Exempelvis i ett tabellhuvud med vertikal text i smal kolumn ömsevis 
med horisontell text i en något bredare kolumn. Det vertikala roterades 
90° och blev alldeles rätt återgivet.
Nedan följer en lista på återkommande missar jämte eventuell förklaring 
på varför det blev så svårt för OCR. Kanske går det att lägga in någon 
sorts undantagslista för OCR att kolla mot.
•	En bov är typsnitt med seriffer i förlagan och att närliggande 
tecken hamnat så tätt att hårstrecken hakar i varandra. Typord För där 
gluggen i F upptill, till höger kommit så nära prickarna i ö att OCR 
uppfattar det som Por. Detta händer gång på gång med den stil som 
används i Geodet. I rubriker blir det än värre, då sättaren eventuellt 
avsiktligt tillämpat s k knipning (engelska kerning) av estetiska skäl. 
Exempelvis bigrammet "VA", där V.ets högraste del står något till höger 
om A:ets vänstraste del. I typografiskt "finlir" finns ett antal 
ligaturer typ "fj" som är svårt för OCR att bemästra. <footnote>Här 
skulle jag vilja skriva med "hängande indrag", men jag vet ej hur det 
ska gå till med mitt e-post-program och hur det kommer att uppfattas av 
mottagaren, som kanske ändrar på radbrytningen på skärmen och vid 
eventuell utskrift. Någon som vet hur det skulle kunna gå 
till?</footnote>. à tolkas alltid som å av OCR. Det vore tacknämligt om 
man kunde lära OCR att känna igen detta. Jag tror att jag minns att é 
gick bra, men vad jag minns har è aldrig varit aktuellt i de texter jag 
hållit på med.
•	J (Johan) är ett speciellt problem i det att olika typsnittmakare 
har olika uppfattning om hur denna symbol ska se ut:
— Enligt en skola (mycket vanligt i USA) ska det vara ett "tak" 
ovanpå så att det liknar ett T (Tore) med en krok åt vänster nedtill.
— En annan variant visar högra delen av "taket" stympat, så att det 
mera liknar siffran 7 med en krok nedtill. Men somliga människor menar 
att detta är ju ett i (Ivar).
I andra typsnitt är det gemena j som har nerstapel som överskrider 
baslinjen medan versala J håller sig vilande på baslinjen.
— Vid ett typsnitt är det versala J förlängt nedåt, så att det går en 
bit under raden (baslinjen) medan det gemena j ligger mycket högre med 
pricken över relativt högt,
Det säger sig självt att OCR får bekymmer att rätt tolka en krumelur 
som ska föreställa Johan i ett typsnitt medan samma (eller nära lika) 
krumelur ska vara Ivar i ett annat.
•	Ett klassiskt problem är att göra skillnad O (Olov) och 0 (nolla), 
på gement l (Ludvig), versalt I (Ivar) och 1 (siffran ett). OCR gör 
rätt ibland och fel ibland på ett slumpartat sätt. Korrekturläsare 
(inklusive jag själv) har ibland svårt att märka skillnaden. Man måste 
vara mycket observant. Val av typsnitt  har stor inverkan. Man bör 
försöka hitta nogot som skriver 0 som 0 s k signalistnolla. (Här MONACO 
med konstant breddsteg; hur kom det fram?
•	OCR har ju att fatta en mängd beslut. Om en pixel varken är svart 
eller vit utan mer eller mindre grå eller pixeln bara till en del är 
svart, Ska då OCR besluta pix = svart eller pix = vit?. När OCR gissar 
så blir det rätt ibland och fel ibland och tillsammans med övriga 
tecknets pixlar så kan det resultera i att fel tecken skrivs ut.
På blytypernas tid var hela maskineriet (sättmaskin, matriser, 
tryckpress etc) utsatt för slitage som resulterade i hoppande tecken 
(ojämn rad) och då kom stundom ett hårstreck lite högre eller lägre än 
det borde i det färdiga trycket, och då är det inte så konstigt om OCR 
blir lurat. Här har vi kanske en förklaring till att m läses som ni 
eller in och tvärt om. li blir h. För mig blir ofta (= nästan jämt) en 
versal begynnelsebokstav V i ett i övrigt gement ord feltolkat som Y, 
sannolikt beroende på "oren spets" i V:ets nederdel.
Semikolon förekommer ymnigt i Geodet.  Jag tror inte OCR har klarat 
semikolon rätt en enda gång: det blir - , eller något liknande för 
jämnan. Där borde det väl försökas att ge OCR någon extra 
tolkningsregel att hålla sig till. I dessa fall är det oftast helt 
klart i facsimilen att semikolon avses, ingen smuts. Det förefaller mig 
som om OCR helt enkelt inte läsrt sig tecknet semikolon.
•	Icke sällan uppstår onödiga blanksteg. Det kan bero på att förlagan 
är satt med radutjämning ("rak högermarg"), vilket innebär att  
mellanslag, d v s inte avsiktligt blanksteg, inlägges i trycksatsen här 
och där i ordmellanrummen efter vissa sätteriregler. Det kan då komma 
tolkas som extra blanksteg av OCR. Mellanslag har vanligen mindre bredd 
än ett blanksteg och i en lång rad uppfattar en normalläsare inte att 
ordmellanrummen kan vara något ojämna. Är spalten mycket smal, eller 
minskad då texten flödar kring en bild, händer det att texten ser 
påtagligt gles ut, även för ett otränat öga. Detta blir särskilt 
uppenbart om man slarvat med avstavningen av långa ord. Och då lägger 
OCR gärna till onödiga blanksteg.
En komplikation blir det i speciella fall. Tidvis har det varit en 
typografisk princip att efter punkt i avslutad mening  skall det vara 
dubbelt blanksteg innan nästa mening börjar. Det har jag konstaterat 
att OCR ofta iakttar vid tolkningen, men inte till 100 %. Tidigare har 
principen om dubbla blanksteg mellan meningar varit obligatoriskt i 
USA. men man tycks på senare tid ha omprövat denna princip; Jag har 
t o m sett direktiv att inte ha dubbla blanksteg mellan meningar. Om 
inte annat så är detta utrymmesbesparande, och i längre texter kan det 
ge flera raders påföljd, vilket i sin tur ger effekter på vettig 
sidbrytning (undvika s k horungar; engelsk term "widows and orphans ".)
Hur ska vi göra i Runeberg, vara bokstavstrogna och hålla på förlagans 
dubbla blanksteg mellan meningar, eller konsekvent se till att det bara 
blir ett?
10	Tabeller med komplexa huvuden är ett speciellt kapitel. Inom 
kolumnerna vill man ofta ha extra blanksteg här och var, exempelvis vid 
tal med decimaler, där man vill ha decimalkommat lodrakt oberoende av 
antalet siffror i heltasdelen resp decimaldelen. Där gör OCR hipp som 
happ, och det är kanske inte så mycket att säga någonting om. Det är en 
svår uppgift för OCR. Men jag har efter en del misslyckade tabellförsök 
kommit på att vid längre textlösa bitar på en rad, så har OCR, i st f 
att lägga in upprepade blanksteg (ASCII 32) dragit till med en TAB 
(ASCII 11), som inte är lätt att se vid ordbehandling, även vid den 
förhållandevis enkla ordbehandlingskapacitet vi har i korr-fältet. 
Denna TAB har "gummibandkaraktär". Ibland är dess verkan mindre än 
bredden på ett normalt blanksteg; ibland motsvarar ett TAB-tecken 
bredden hos två eller flera normala blanksteg. Hur det slår i praktiken 
beror på vad som finns i den närmaste omgivningen. Ändrar man något på 
raden kan en sådan osynlig TAB sträcka på sig eller krympa, och raden 
kan bli korrupt. Om man har vertikalstreck | eller kanske utropstecken 
! som kolumnavskiljare avslöjas det av att vertikallinjen slingrar sig 
något längs kolumnen, och då gäller det att leta reda på den förmädliga 
TAB:en och ersätta den med ett normalt blanksteg. Men ibland ska den 
bara tas bort och inte alls ersättas med något annat. Lurifaxen kan 
finnas var som helst på raden och stundom inte alls i den kolumn man 
först trodde. Det har hänt mig att det varit flera dolda TAB:ar på 
samma rad men i skilda kolumner. Först sedan man fått bort alla 
TAB-arna blir det något så när ordning i tabellen.
Efter ett flertal tabelljobb har jag kommit fram till att sedan jag i 
korr-fältet fåt fram något som jag är nöjd med måste jag spara och 
kontrollera hur Runeberg uppfattat hela sidan. Ofta ser jag då någon 
detalj som behöver förfinas. Jag gör en justering, sparar och 
kontrollerar. Men inget tycks ha hänt. Har inte Runeberg fattat vad jag 
vill? Svaret ligger i att min dators cach-minne i sin snabbhetsiver 
visar samma gamla version som nyss, trots att Runeberg noterat 
ändringen.
Boten är att spara, lämna Runeberg, tömma mitt cach-minne, och sedan 
anropa Runeberg från början, hämta fram aktuell sida och kontrollera. 
Och si, då visar det sig att Runeberg faktiskt har förstått mina 
intentioner. Om jag nu inte lyckas få allt rätt med det samma så kan 
det behövas flera omgångar med samma procedur, så blir det lätt lite 
tjatigt, eller i varje fall tidskrävande.
11	När det gäller tabeller så saknar jag möjliheten att göra 
sammanhängande vertikallinjer utan gluggar mellan raderna, fyra sorters 
hörn (hittills simulerade med + ) m m. Detta är möjligt med gamla 
kodsidan CP 437, men finns inte i den av Runeberg rekommenderade ISO 
vad-det-nu-är-för-nummer. Ger ett utökat UTF-8 denna möjlighet?
Jag har stickprovsvis tittat lite i Nordisk Familjebok och konstaterat 
att det finns en hel del kemiska strukturformler, där det skulle vara 
bra att kunna rita diverse enkla och dubbla linjer, även sneda linjer 
samt pilar i rekursionsformler.
Har sett kommentar från någon som saknat möjlighet skriva musikaliska 
kors och b. Det finns säkert en hel rad musiktecken som skulle vara 
önskvärda. Jag menar alltså situationer som är enlkare än t o m 
notexempel på treklang i moll och sådant. Mera komplicerade notexempel 
får man kanske finna sig att återge som bild.
För egen del så ser jag behov att kunna skriva matematik på något 
vettigt sätt. Bland de enklare (?) är väl att kunna skriva integraler 
och differentialer, men kommer man till någon bok med mängdlära och 
"upp-och-nedvända A", "bakvända E" o s v blir det värre. Redan i ren 
algebra vill man kunna skriva bråk med en riktig täljare och riktig 
nämnare separerade med ett lååångt horisontellt streck. Inte krångla 
sig fram med tangentbordets bråkstreck / på en enda lång rad. För att 
ett sådant förfarande ska bli entydigt måste man lägga till parenteser 
här och var, kanske i flera nivåer; parenteser som inte återfinns i 
förlagan. Då gäller det att placera alla parenteser rätt, vilket kräver 
viss matematisk skolning hos korrekturläsaren. Hur ska jag skriva 
"limes när x går mot noll" och samtidigt få det på rätt plats under den 
variabel det hör till? Samt med några punkter mindre grad? Dubbelbråk? 
Grrr!
Hur ska Runeberg hantera en vektor, som i förlagan återges med bokstav 
med överstreck? Att transkribera till fetstil skulle ju kunna innebära 
konflikt med matris, och det var ju inte meningen.
Det finns ett flertal specialprogram som klarar det här, exempelvis 
"Equation Editor", som brukar följa med MS WORD (fast man kanske måste 
söka lite i datorn innan får tag på det i en normalinstallation. Det 
går att göra ganska snygga saker med det , när man kommit underfund med 
hanteringen.
För notskrift finns det programmet MUSICATOR, som är gratis, åtminstone 
i demoversion. Har vidare av en slump råkat på IGOR ENGRAVER (svenskt 
program), som jag t v inte vet så mycket om, men det verkar klara 
mycket avancerade saker, och lär vara FREEWARE.
Har också sett någonstans specialprogram för kemiska formler, fast jag 
nu glömt vad det heter — är inte kemist själv.
Skulle man införa allt detta i Runeberg mister man naturligtvis den 
enkelhet som eftersträvas, men ska man lyckas med ambitionen att få med 
ALL nordisk litteratur måste man väl lösa detta på ett eller annat 
sätt. Kanske måste man tänka sig även frivilliga korr-läsare med 
specialkompetens, som kan eller kan lära sig använda något av dessa 
program (eller liknande) till Runebergs fromma? Om det nu överhuvud 
taget är praktiskt möjligt att baka in det i Runebergprojektet. Gör 
Gutenberg något med anknytning till nämnda problem, som kunde ge 
uppslag för Runeberg?
<—————oooooOOÔOOooooo—————>
Det bidde ganska långt det här, men det var mycket som tryckte på och 
ville ut. Det finns mer att diskutera kring dessa ting, men det får 
anstå till senare tillfälle. Pascal sade: Detta ärende är så brådskande 
att jag inte har tid att vara kortfattad. Det lite så jag känner det.
Jag hoppas att åtminstone någon orkar läsa igenom ända hit till slutet, 
och att åtminstone någon pärla ska falla i god jord.
B L Wahlman
bo.lennart.wahlman@wah.se

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

[Runeberg] Grektecken, OCR, Utf-8 och önskelista