Ulf Härnhammar wrote:
- förminska första bokstaven på nästa rad ("Väst-Tyskland" blir
"Västtyskland") Det går att slå av och på denna funktion
Jag tror att man bör behålla stor bokstav. När stor bokstav efter avstavning, vill man nog att det ska stå Schleswig-Holstein eller Karl-Erik.
Bakgrunden till det här problemet är att OCR-programmet ABBYY FineReader version 6 saknar en finess. Man kan bara välja att endera bevara alla radbrytningar (och avstavningar) eller att få de avstavade orden sammanfogade (enligt programmets ordlista), men då försvinner också alla radbrytningar.
Tidigare under sommaren-hösten 2003 använde jag det senare alternativet, varvid varje textstycke blev en enda lång textrad, vilken jag sedan bröt så att raderna blev 55 tecken långa. Mot detta fick vi i redaktionen flera kommentarer om att det var jobbigare att korrekturläsa när radbrytningarna inte följde den tryckta sidan.
Erik ("segfault") Johansson berättade då att PGDP (www.pgdp.net) använder samma OCR-program och sparar varje textsida både med och utan radbrytningar, och att de har utvecklat ett program som jämför dessa båda filer och pusslar ihop en optimal kombination, som sedan används för korrekturläsning.
Jag tog detta till mig, och började i november att spara varje OCR-tolkad sida både med och utan radbrytningar. Emellertid orkade jag inte leta på PGDP:s program, utan lade upp sidorna med radbrytningar för korrekturläsning. Verk med båda slagen sparade är dagligt, dbl, engsprak, hvar8dag, julfrid, krig1905, liwing, muslex, popradio, salmonsen, saol, stf, stjernor, univers, warkonst, wiesminn
Tillsammans är det 20895 sidor som dubbelsparats på det viset. Idag finns varianterna utan radbrytningar inte öppet tillgängliga. Om det visar sig användbart, kan jag gå tillbaka och spara OCR-sidor ur äldre inscannade verk (speciellt Nordisk familjebok) i båda formaten. Givetvis kommer vi inte att skriva över redan korrekturlästa sidor, men det finns ju fortfarande många sidor som ännu inte är korrekturlästa (bara 3554 av de ovan nämnda 20895 är korrekturlästa).
Exempelvis (http://runeberg.org/dbl/13/0114.html) kan det se ut så här med radbrytningar:
Piil, Christian Actonius Theodorus, 1804-84, Kemitypist, er født 20. Jan. 1804 paa Løjtved ved Svendborg, hvor Faderen, Rudolf Frederik P., var Forpagter-, Moderen var Else Birgitte f. Nyholm. Han blev Guldsmed og nedsatte sig som saadan i Aar- hus. Men da han fik en Tommelfinger knust i et Valseværk, kunde han ikke længer arbejde i sit Haandværk, og han, der alle- rede tidligere havde givet sig af med at opfinde, begyndte nu at arbejde paa at tilvejebringe Raderinger i Sinkplader, der ved en Slags kemisk Behandling kunde blive brugbare til Trykning i Bog- trykkerpressen. Han naaede Maalet, og 1842 fik han af Industri- foreningen i Kjøbenhavn en Anbefaling, der indbragte ham en
och så här utan radbrytningar (med reservation för att något mailprogram kan ha brutit om texten):
Piil, Christian Actonius Theodorus, 1804-84, Kemitypist, er født 20. Jan. 1804 paa Løjtved ved Svendborg, hvor Faderen, Rudolf Frederik P., var Forpagter-, Moderen var Else Birgitte f. Nyholm. Han blev Guldsmed og nedsatte sig som saadan i Aarhus. Men da han fik en Tommelfinger knust i et Valseværk, kunde han ikke længer arbejde i sit Haandværk, og han, der allerede tidligere havde givet sig af med at opfinde, begyndte nu at arbejde paa at tilvejebringe Raderinger i Sinkplader, der ved en Slags kemisk Behandling kunde blive brugbare til Trykning i Bogtrykkerpressen. Han naaede Maalet, og 1842 fik han af Industriforeningen i Kjøbenhavn en Anbefaling, der indbragte ham en
Just det här exemplet innehåller inget av specialfallen "Schleswig-Holstein", "last- och personbilar" eller "pall- lastare".
Vet ni förresten att den nya tyska stavningsreformen föreskriver att man ska ha tre av samma konsonant på rad i det sista fallet (palllastare).