1 Tack för grektecknen! Synd bara att de inte fanns tidigare. Geodet:s
tidigare sidor torde (om ingen vänlig själ redan ändrat på det)
innehålla mängder av surrogaten [alpha]. [beta] etc. Fråga: önskar
Runeberg omläsning av 100-talet sidor för justering, eller kan det stå
som det är och fixas av Redax vid efterbehandlingen?
2 Räcker det att jag kopierar och klistrar från de nytillsatta röda
raderna eller bör jag dessutom ställa om kodsidan för mitt tangentbord
från "Latin 1 = ISO vad-det-nu-är-för-nummer" till UTF-8?
3 From önskan: Om det går, lägg in en blankrad mellan inmatningsfältet
för korr och de nyinlagda UTF-8-teckning. De röda raderna tätt intill
korr-fältet stör ögat, när man är nere på sista raden i korr-fältet.
4 Gemena sigma ser inte ut som jag hade väntat mig.
5 Bland övriga tecken förefaller versala THORN och gement thorn ha fått
varandras placeringar, eller hur?
6 Har hittat ± bland högre ASCII-nummer i "Latin 1", och ser att ofta
OCR klarar det. Men i matematiska sammanhang duger inte det alltid,
utan man måste kunna skriva "minus plus" d v s — ovanför +. Det hittar
jag inte i de vanliga fonterna. Finns i och för sig i den vanliga
fonten SYMBOL, men kan man använda det i Runeberg? I något fall
substituerade jag <minus plus> med [minus]/[plus] (tror jag det var).
Vad säger Runeberg om det?
7 I formler förekommer ibland s k ellips … som jag här lockat fram som
ligatur. (Undrar just om det blir rätt återgivet av läsarens
e-post-program!) Tycker det är bättre än tre punkttecken i rad ... som
ev kan uppfattas som felskrift eller i något elakt fall bli radbrutet
mitt i. Hvad tyx om det?
8 För inte så länge sen "uppfann" någon <img>, som jag sett många
praktiserat, och som jag själv ofta använt. Men när jag senast kollade
tillåtna markeringar <i>, </i> etc så var inte <img> med som tillåtet.
Verkar ha blivit "de-facto-standard", men borde legitimeras om det nu
kan accepteras. Har dock sett att det tillämpas lite olika i samband
med figurtitlar. Någon hade satt <img>Figurtitel</img>. Själv (och även
andra) har skrivit <i>Figurtitel</i> <img> om texten varit bilden
överställd resp <img><b>Figurtiltel</b> om texten varit bilden
underställd. Formatering <i> eller <b> eller annat alltefter var
förlagan antyder. Och så en eller annan blankrad extra för att
förtydliga det hela. Här behövs klara direktiv från Runebergledningen
hur man ska göra, så att alla tillämpar det enhetligt.
9 Någan hade förundrat sig över att OCR ständigt missar på vissa saker.
Jag har också noterat det, och jag tror att det ofta finns andra
förklaringar än "smuts" till att det det blir ett svårt jobb för OCR.
Egentligen har jag stor beundran för vad OCR verkligen klarar av.
Exempelvis i ett tabellhuvud med vertikal text i smal kolumn ömsevis
med horisontell text i en något bredare kolumn. Det vertikala roterades
90° och blev alldeles rätt återgivet.
Nedan följer en lista på återkommande missar jämte eventuell förklaring
på varför det blev så svårt för OCR. Kanske går det att lägga in någon
sorts undantagslista för OCR att kolla mot.
• En bov är typsnitt med seriffer i förlagan och att närliggande
tecken hamnat så tätt att hårstrecken hakar i varandra. Typord För där
gluggen i F upptill, till höger kommit så nära prickarna i ö att OCR
uppfattar det som Por. Detta händer gång på gång med den stil som
används i Geodet. I rubriker blir det än värre, då sättaren eventuellt
avsiktligt tillämpat s k knipning (engelska kerning) av estetiska skäl.
Exempelvis bigrammet "VA", där V.ets högraste del står något till höger
om A:ets vänstraste del. I typografiskt "finlir" finns ett antal
ligaturer typ "fj" som är svårt för OCR att bemästra. <footnote>Här
skulle jag vilja skriva med "hängande indrag", men jag vet ej hur det
ska gå till med mitt e-post-program och hur det kommer att uppfattas av
mottagaren, som kanske ändrar på radbrytningen på skärmen och vid
eventuell utskrift. Någon som vet hur det skulle kunna gå
till?</footnote>. à tolkas alltid som å av OCR. Det vore tacknämligt om
man kunde lära OCR att känna igen detta. Jag tror att jag minns att é
gick bra, men vad jag minns har è aldrig varit aktuellt i de texter jag
hållit på med.
• J (Johan) är ett speciellt problem i det att olika typsnittmakare
har olika uppfattning om hur denna symbol ska se ut:
— Enligt en skola (mycket vanligt i USA) ska det vara ett "tak"
ovanpå så att det liknar ett T (Tore) med en krok åt vänster nedtill.
— En annan variant visar högra delen av "taket" stympat, så att det
mera liknar siffran 7 med en krok nedtill. Men somliga människor menar
att detta är ju ett i (Ivar).
I andra typsnitt är det gemena j som har nerstapel som överskrider
baslinjen medan versala J håller sig vilande på baslinjen.
— Vid ett typsnitt är det versala J förlängt nedåt, så att det går en
bit under raden (baslinjen) medan det gemena j ligger mycket högre med
pricken över relativt högt,
Det säger sig självt att OCR får bekymmer att rätt tolka en krumelur
som ska föreställa Johan i ett typsnitt medan samma (eller nära lika)
krumelur ska vara Ivar i ett annat.
• Ett klassiskt problem är att göra skillnad O (Olov) och 0 (nolla),
på gement l (Ludvig), versalt I (Ivar) och 1 (siffran ett). OCR gör
rätt ibland och fel ibland på ett slumpartat sätt. Korrekturläsare
(inklusive jag själv) har ibland svårt att märka skillnaden. Man måste
vara mycket observant. Val av typsnitt har stor inverkan. Man bör
försöka hitta nogot som skriver 0 som 0 s k signalistnolla. (Här MONACO
med konstant breddsteg; hur kom det fram?
• OCR har ju att fatta en mängd beslut. Om en pixel varken är svart
eller vit utan mer eller mindre grå eller pixeln bara till en del är
svart, Ska då OCR besluta pix = svart eller pix = vit?. När OCR gissar
så blir det rätt ibland och fel ibland och tillsammans med övriga
tecknets pixlar så kan det resultera i att fel tecken skrivs ut.
På blytypernas tid var hela maskineriet (sättmaskin, matriser,
tryckpress etc) utsatt för slitage som resulterade i hoppande tecken
(ojämn rad) och då kom stundom ett hårstreck lite högre eller lägre än
det borde i det färdiga trycket, och då är det inte så konstigt om OCR
blir lurat. Här har vi kanske en förklaring till att m läses som ni
eller in och tvärt om. li blir h. För mig blir ofta (= nästan jämt) en
versal begynnelsebokstav V i ett i övrigt gement ord feltolkat som Y,
sannolikt beroende på "oren spets" i V:ets nederdel.
Semikolon förekommer ymnigt i Geodet. Jag tror inte OCR har klarat
semikolon rätt en enda gång: det blir - , eller något liknande för
jämnan. Där borde det väl försökas att ge OCR någon extra
tolkningsregel att hålla sig till. I dessa fall är det oftast helt
klart i facsimilen att semikolon avses, ingen smuts. Det förefaller mig
som om OCR helt enkelt inte läsrt sig tecknet semikolon.
• Icke sällan uppstår onödiga blanksteg. Det kan bero på att förlagan
är satt med radutjämning ("rak högermarg"), vilket innebär att
mellanslag, d v s inte avsiktligt blanksteg, inlägges i trycksatsen här
och där i ordmellanrummen efter vissa sätteriregler. Det kan då komma
tolkas som extra blanksteg av OCR. Mellanslag har vanligen mindre bredd
än ett blanksteg och i en lång rad uppfattar en normalläsare inte att
ordmellanrummen kan vara något ojämna. Är spalten mycket smal, eller
minskad då texten flödar kring en bild, händer det att texten ser
påtagligt gles ut, även för ett otränat öga. Detta blir särskilt
uppenbart om man slarvat med avstavningen av långa ord. Och då lägger
OCR gärna till onödiga blanksteg.
En komplikation blir det i speciella fall. Tidvis har det varit en
typografisk princip att efter punkt i avslutad mening skall det vara
dubbelt blanksteg innan nästa mening börjar. Det har jag konstaterat
att OCR ofta iakttar vid tolkningen, men inte till 100 %. Tidigare har
principen om dubbla blanksteg mellan meningar varit obligatoriskt i
USA. men man tycks på senare tid ha omprövat denna princip; Jag har
t o m sett direktiv att inte ha dubbla blanksteg mellan meningar. Om
inte annat så är detta utrymmesbesparande, och i längre texter kan det
ge flera raders påföljd, vilket i sin tur ger effekter på vettig
sidbrytning (undvika s k horungar; engelsk term "widows and orphans ".)
Hur ska vi göra i Runeberg, vara bokstavstrogna och hålla på förlagans
dubbla blanksteg mellan meningar, eller konsekvent se till att det bara
blir ett?
10 Tabeller med komplexa huvuden är ett speciellt kapitel. Inom
kolumnerna vill man ofta ha extra blanksteg här och var, exempelvis vid
tal med decimaler, där man vill ha decimalkommat lodrakt oberoende av
antalet siffror i heltasdelen resp decimaldelen. Där gör OCR hipp som
happ, och det är kanske inte så mycket att säga någonting om. Det är en
svår uppgift för OCR. Men jag har efter en del misslyckade tabellförsök
kommit på att vid längre textlösa bitar på en rad, så har OCR, i st f
att lägga in upprepade blanksteg (ASCII 32) dragit till med en TAB
(ASCII 11), som inte är lätt att se vid ordbehandling, även vid den
förhållandevis enkla ordbehandlingskapacitet vi har i korr-fältet.
Denna TAB har "gummibandkaraktär". Ibland är dess verkan mindre än
bredden på ett normalt blanksteg; ibland motsvarar ett TAB-tecken
bredden hos två eller flera normala blanksteg. Hur det slår i praktiken
beror på vad som finns i den närmaste omgivningen. Ändrar man något på
raden kan en sådan osynlig TAB sträcka på sig eller krympa, och raden
kan bli korrupt. Om man har vertikalstreck | eller kanske utropstecken
! som kolumnavskiljare avslöjas det av att vertikallinjen slingrar sig
något längs kolumnen, och då gäller det att leta reda på den förmädliga
TAB:en och ersätta den med ett normalt blanksteg. Men ibland ska den
bara tas bort och inte alls ersättas med något annat. Lurifaxen kan
finnas var som helst på raden och stundom inte alls i den kolumn man
först trodde. Det har hänt mig att det varit flera dolda TAB:ar på
samma rad men i skilda kolumner. Först sedan man fått bort alla
TAB-arna blir det något så när ordning i tabellen.
Efter ett flertal tabelljobb har jag kommit fram till att sedan jag i
korr-fältet fåt fram något som jag är nöjd med måste jag spara och
kontrollera hur Runeberg uppfattat hela sidan. Ofta ser jag då någon
detalj som behöver förfinas. Jag gör en justering, sparar och
kontrollerar. Men inget tycks ha hänt. Har inte Runeberg fattat vad jag
vill? Svaret ligger i att min dators cach-minne i sin snabbhetsiver
visar samma gamla version som nyss, trots att Runeberg noterat
ändringen.
Boten är att spara, lämna Runeberg, tömma mitt cach-minne, och sedan
anropa Runeberg från början, hämta fram aktuell sida och kontrollera.
Och si, då visar det sig att Runeberg faktiskt har förstått mina
intentioner. Om jag nu inte lyckas få allt rätt med det samma så kan
det behövas flera omgångar med samma procedur, så blir det lätt lite
tjatigt, eller i varje fall tidskrävande.
11 När det gäller tabeller så saknar jag möjliheten att göra
sammanhängande vertikallinjer utan gluggar mellan raderna, fyra sorters
hörn (hittills simulerade med + ) m m. Detta är möjligt med gamla
kodsidan CP 437, men finns inte i den av Runeberg rekommenderade ISO
vad-det-nu-är-för-nummer. Ger ett utökat UTF-8 denna möjlighet?
Jag har stickprovsvis tittat lite i Nordisk Familjebok och konstaterat
att det finns en hel del kemiska strukturformler, där det skulle vara
bra att kunna rita diverse enkla och dubbla linjer, även sneda linjer
samt pilar i rekursionsformler.
Har sett kommentar från någon som saknat möjlighet skriva musikaliska
kors och b. Det finns säkert en hel rad musiktecken som skulle vara
önskvärda. Jag menar alltså situationer som är enlkare än t o m
notexempel på treklang i moll och sådant. Mera komplicerade notexempel
får man kanske finna sig att återge som bild.
För egen del så ser jag behov att kunna skriva matematik på något
vettigt sätt. Bland de enklare (?) är väl att kunna skriva integraler
och differentialer, men kommer man till någon bok med mängdlära och
"upp-och-nedvända A", "bakvända E" o s v blir det värre. Redan i ren
algebra vill man kunna skriva bråk med en riktig täljare och riktig
nämnare separerade med ett lååångt horisontellt streck. Inte krångla
sig fram med tangentbordets bråkstreck / på en enda lång rad. För att
ett sådant förfarande ska bli entydigt måste man lägga till parenteser
här och var, kanske i flera nivåer; parenteser som inte återfinns i
förlagan. Då gäller det att placera alla parenteser rätt, vilket kräver
viss matematisk skolning hos korrekturläsaren. Hur ska jag skriva
"limes när x går mot noll" och samtidigt få det på rätt plats under den
variabel det hör till? Samt med några punkter mindre grad? Dubbelbråk?
Grrr!
Hur ska Runeberg hantera en vektor, som i förlagan återges med bokstav
med överstreck? Att transkribera till fetstil skulle ju kunna innebära
konflikt med matris, och det var ju inte meningen.
Det finns ett flertal specialprogram som klarar det här, exempelvis
"Equation Editor", som brukar följa med MS WORD (fast man kanske måste
söka lite i datorn innan får tag på det i en normalinstallation. Det
går att göra ganska snygga saker med det , när man kommit underfund med
hanteringen.
För notskrift finns det programmet MUSICATOR, som är gratis, åtminstone
i demoversion. Har vidare av en slump råkat på IGOR ENGRAVER (svenskt
program), som jag t v inte vet så mycket om, men det verkar klara
mycket avancerade saker, och lär vara FREEWARE.
Har också sett någonstans specialprogram för kemiska formler, fast jag
nu glömt vad det heter — är inte kemist själv.
Skulle man införa allt detta i Runeberg mister man naturligtvis den
enkelhet som eftersträvas, men ska man lyckas med ambitionen att få med
ALL nordisk litteratur måste man väl lösa detta på ett eller annat
sätt. Kanske måste man tänka sig även frivilliga korr-läsare med
specialkompetens, som kan eller kan lära sig använda något av dessa
program (eller liknande) till Runebergs fromma? Om det nu överhuvud
taget är praktiskt möjligt att baka in det i Runebergprojektet. Gör
Gutenberg något med anknytning till nämnda problem, som kunde ge
uppslag för Runeberg?
<—————oooooOOÔOOooooo—————>
Det bidde ganska långt det här, men det var mycket som tryckte på och
ville ut. Det finns mer att diskutera kring dessa ting, men det får
anstå till senare tillfälle. Pascal sade: Detta ärende är så brådskande
att jag inte har tid att vara kortfattad. Det lite så jag känner det.
Jag hoppas att åtminstone någon orkar läsa igenom ända hit till slutet,
och att åtminstone någon pärla ska falla i god jord.
B L Wahlman
bo.lennart.wahlman(a)wah.se