Hej,
här är en annan lösning på programmeringsproblemet.
Den är också skriven i Perl, och den har följande finesser:
- bibehållning av vänstermarginal - förminska första bokstaven på nästa rad ("Väst-Tyskland" blir "Västtyskland") Det går att slå av och på denna funktion - hantering av avstavade ord i slutet på filen (med vänstermarginalen bibehållen)
Hej Ulf och ni andra.
När jag skriver detta ligger mitt eget senaste programmeringsbidrag och väntar på moderators godkännande (jag använde min "vanliga" mejladress som avsändare).
Jag har provat bindefeld.pl och konstaterar följande: ** Bra struktur (åtminstone i Perl-fallet), variablerna changed,next åstadkommer ju både att man slipper läsa före slingan - och därmed undviker andra komplikationer - samt att man säkert vet att $1 ($2, $3 etc) har relevant innehåll. ** För min egen del, bra exempel på hur man kan förenkla genom att använda (och successivt modifiera) "$_".
Men jag fann också att: ** Dos-format förutsätts i infilen (Unix-format fungerar inte). ** Sista ordet i exemplets rader som slutar med "allmän-" och "för-" sammanfogas inte med nästa rad när jag provkör under Cygwin. Matchningsvillkoret är ju minst en "whitespace character" följt av minst en "word character" och med mina inställningar verkar 'ä','ö' tolkas som varken det ena eller det andra. ** Rader som avstavas i första ordet på raden (kan innehålla bindestreck "ett-två-tre-\n fyra") sammanfogas inte. ** Väst-Tyskland --> Västtyskland är exempel på ett fall jag inte tänkt på, dock fungerar det inte så hos mig när jag provkör.
De tillägg jag gjort i mitt senaste bidrag är: ** Två ord inledda med versal ex. Schleswig-Holstein behåller bindestrecket. Är det rätt tänkt? Jag kan ha missuppfattat Bernhard här. Det skulle väl inte ändras till "Schleswigholstein"? ** Flera blanksteg mellan ord reduceras till ett enda.
mvh Tommy Riboe
-----Ursprungligt meddelande----- Från: runeberg-admin@lists.lysator.liu.se [mailto:runeberg-admin@lists.lysator.liu.se]För Ulf Härnhammar Skickat: den 29 januari 2004 03:56 Till: runeberg@lists.lysator.liu.se Ämne: [Runeberg] Vill du hjälpa Projekt Runeberg programmera?
Hej,
här är en annan lösning på programmeringsproblemet.
Den är också skriven i Perl, och den har följande finesser:
- bibehållning av vänstermarginal
- förminska första bokstaven på nästa rad ("Väst-Tyskland"
blir "Västtyskland") Det går att slå av och på denna funktion
- hantering av avstavade ord i slutet på filen (med
vänstermarginalen bibehållen)
-- Ulf Härnhammar student, Uppsala universitet redaktör, idiosynkratisk ( http://labben.abm.uu.se/~ulha9485/idiosynkratisk/ )
Citerar "Tommy Riboe (E-mail 2)" tommy.riboe@swipnet.se:
** Dos-format förutsätts i infilen (Unix-format fungerar inte).
Jag kör Red Hat Linux 9, och där fungerar Unix-format utmärkt i skriptet.
** Sista ordet i exemplets rader som slutar med "allmän-" och "för-" sammanfogas inte med nästa rad när jag provkör under Cygwin. Matchningsvillkoret är ju minst en "whitespace character" följt av minst en "word character" och med mina inställningar verkar 'ä','ö' tolkas som varken det ena eller det andra.
\w ska ju vara den typ av tecken som förekommer i ord. Du kanske måste ställa in någon miljövariabel så att \w passar in på rätt tecken? Annars kan man ju skriva [A-Za-zÅÄÖÉÜåäöéü] i stället för \w.
** Rader som avstavas i första ordet på raden (kan innehålla bindestreck "ett-två-tre-\n fyra") sammanfogas inte.
Nej, det stämmer.
** Väst-Tyskland --> Västtyskland är exempel på ett fall jag inte tänkt på, dock fungerar det inte så hos mig när jag provkör.
Konstigt. Perl är väl tänkt att vara portabelt.
** Flera blanksteg mellan ord reduceras till ett enda.
Bra idé!
Nåja, vi får väl fortsätta att fila på våra respektive skript.
Ulf Härnhammar wrote:
- förminska första bokstaven på nästa rad ("Väst-Tyskland" blir
"Västtyskland") Det går att slå av och på denna funktion
Jag tror att man bör behålla stor bokstav. När stor bokstav efter avstavning, vill man nog att det ska stå Schleswig-Holstein eller Karl-Erik.
Bakgrunden till det här problemet är att OCR-programmet ABBYY FineReader version 6 saknar en finess. Man kan bara välja att endera bevara alla radbrytningar (och avstavningar) eller att få de avstavade orden sammanfogade (enligt programmets ordlista), men då försvinner också alla radbrytningar.
Tidigare under sommaren-hösten 2003 använde jag det senare alternativet, varvid varje textstycke blev en enda lång textrad, vilken jag sedan bröt så att raderna blev 55 tecken långa. Mot detta fick vi i redaktionen flera kommentarer om att det var jobbigare att korrekturläsa när radbrytningarna inte följde den tryckta sidan.
Erik ("segfault") Johansson berättade då att PGDP (www.pgdp.net) använder samma OCR-program och sparar varje textsida både med och utan radbrytningar, och att de har utvecklat ett program som jämför dessa båda filer och pusslar ihop en optimal kombination, som sedan används för korrekturläsning.
Jag tog detta till mig, och började i november att spara varje OCR-tolkad sida både med och utan radbrytningar. Emellertid orkade jag inte leta på PGDP:s program, utan lade upp sidorna med radbrytningar för korrekturläsning. Verk med båda slagen sparade är dagligt, dbl, engsprak, hvar8dag, julfrid, krig1905, liwing, muslex, popradio, salmonsen, saol, stf, stjernor, univers, warkonst, wiesminn
Tillsammans är det 20895 sidor som dubbelsparats på det viset. Idag finns varianterna utan radbrytningar inte öppet tillgängliga. Om det visar sig användbart, kan jag gå tillbaka och spara OCR-sidor ur äldre inscannade verk (speciellt Nordisk familjebok) i båda formaten. Givetvis kommer vi inte att skriva över redan korrekturlästa sidor, men det finns ju fortfarande många sidor som ännu inte är korrekturlästa (bara 3554 av de ovan nämnda 20895 är korrekturlästa).
Exempelvis (http://runeberg.org/dbl/13/0114.html) kan det se ut så här med radbrytningar:
Piil, Christian Actonius Theodorus, 1804-84, Kemitypist, er født 20. Jan. 1804 paa Løjtved ved Svendborg, hvor Faderen, Rudolf Frederik P., var Forpagter-, Moderen var Else Birgitte f. Nyholm. Han blev Guldsmed og nedsatte sig som saadan i Aar- hus. Men da han fik en Tommelfinger knust i et Valseværk, kunde han ikke længer arbejde i sit Haandværk, og han, der alle- rede tidligere havde givet sig af med at opfinde, begyndte nu at arbejde paa at tilvejebringe Raderinger i Sinkplader, der ved en Slags kemisk Behandling kunde blive brugbare til Trykning i Bog- trykkerpressen. Han naaede Maalet, og 1842 fik han af Industri- foreningen i Kjøbenhavn en Anbefaling, der indbragte ham en
och så här utan radbrytningar (med reservation för att något mailprogram kan ha brutit om texten):
Piil, Christian Actonius Theodorus, 1804-84, Kemitypist, er født 20. Jan. 1804 paa Løjtved ved Svendborg, hvor Faderen, Rudolf Frederik P., var Forpagter-, Moderen var Else Birgitte f. Nyholm. Han blev Guldsmed og nedsatte sig som saadan i Aarhus. Men da han fik en Tommelfinger knust i et Valseværk, kunde han ikke længer arbejde i sit Haandværk, og han, der allerede tidligere havde givet sig af med at opfinde, begyndte nu at arbejde paa at tilvejebringe Raderinger i Sinkplader, der ved en Slags kemisk Behandling kunde blive brugbare til Trykning i Bogtrykkerpressen. Han naaede Maalet, og 1842 fik han af Industriforeningen i Kjøbenhavn en Anbefaling, der indbragte ham en
Just det här exemplet innehåller inget av specialfallen "Schleswig-Holstein", "last- och personbilar" eller "pall- lastare".
Vet ni förresten att den nya tyska stavningsreformen föreskriver att man ska ha tre av samma konsonant på rad i det sista fallet (palllastare).
Hej Lars,
I receive about two to three e-mails a day about Runeberg. These e-mails are all about some programming questions of which I have no clue, nor do I wish to understand anything.
Is it possible that I should be "partially" off the mailing list for this type of e-mails and if it is not possible please take me off "totally". here are my informations Bernard Magnin e-mail; bernard.magnin@wanadoo.fr
Med vänliga hällsningar
Bernard Magnin e-mail: translations@magnin.com ----- Original Message ----- From: "Lars Aronsson" lars@aronsson.se To: "Ulf Härnhammar" Ulf.Harnhammar.9485@student.uu.se Cc: runeberg@lists.lysator.liu.se Sent: Thursday, January 29, 2004 1:14 PM Subject: Re: [Runeberg] Vill du hjälpa Projekt Runeberg programmera?
Ulf Härnhammar wrote:
- förminska första bokstaven på nästa rad ("Väst-Tyskland" blir
"Västtyskland") Det går att slå av och på denna funktion
Jag tror att man bör behålla stor bokstav. När stor bokstav efter avstavning, vill man nog att det ska stå Schleswig-Holstein eller Karl-Erik.
Bakgrunden till det här problemet är att OCR-programmet ABBYY FineReader version 6 saknar en finess. Man kan bara välja att endera bevara alla radbrytningar (och avstavningar) eller att få de avstavade orden sammanfogade (enligt programmets ordlista), men då försvinner också alla radbrytningar.
Tidigare under sommaren-hösten 2003 använde jag det senare alternativet, varvid varje textstycke blev en enda lång textrad, vilken jag sedan bröt så att raderna blev 55 tecken långa. Mot detta fick vi i redaktionen flera kommentarer om att det var jobbigare att korrekturläsa när radbrytningarna inte följde den tryckta sidan.
Erik ("segfault") Johansson berättade då att PGDP (www.pgdp.net) använder samma OCR-program och sparar varje textsida både med och utan radbrytningar, och att de har utvecklat ett program som jämför dessa båda filer och pusslar ihop en optimal kombination, som sedan används för korrekturläsning.
Jag tog detta till mig, och började i november att spara varje OCR-tolkad sida både med och utan radbrytningar. Emellertid orkade jag inte leta på PGDP:s program, utan lade upp sidorna med radbrytningar för korrekturläsning. Verk med båda slagen sparade är dagligt, dbl, engsprak, hvar8dag, julfrid, krig1905, liwing, muslex, popradio, salmonsen, saol, stf, stjernor, univers, warkonst, wiesminn
Tillsammans är det 20895 sidor som dubbelsparats på det viset. Idag finns varianterna utan radbrytningar inte öppet tillgängliga. Om det visar sig användbart, kan jag gå tillbaka och spara OCR-sidor ur äldre inscannade verk (speciellt Nordisk familjebok) i båda formaten. Givetvis kommer vi inte att skriva över redan korrekturlästa sidor, men det finns ju fortfarande många sidor som ännu inte är korrekturlästa (bara 3554 av de ovan nämnda 20895 är korrekturlästa).
Exempelvis (http://runeberg.org/dbl/13/0114.html) kan det se ut så här med radbrytningar:
Piil, Christian Actonius Theodorus, 1804-84, Kemitypist, er født 20. Jan. 1804 paa Løjtved ved Svendborg, hvor Faderen, Rudolf Frederik P., var Forpagter-, Moderen var Else Birgitte f. Nyholm. Han blev Guldsmed og nedsatte sig som saadan i Aar- hus. Men da han fik en Tommelfinger knust i et Valseværk, kunde han ikke længer arbejde i sit Haandværk, og han, der alle- rede tidligere havde givet sig af med at opfinde, begyndte nu at arbejde paa at tilvejebringe Raderinger i Sinkplader, der ved en Slags kemisk Behandling kunde blive brugbare til Trykning i Bog- trykkerpressen. Han naaede Maalet, og 1842 fik han af Industri- foreningen i Kjøbenhavn en Anbefaling, der indbragte ham en
och så här utan radbrytningar (med reservation för att något mailprogram kan ha brutit om texten):
Piil, Christian Actonius Theodorus, 1804-84, Kemitypist, er født 20. Jan.
1804 paa Løjtved ved Svendborg, hvor Faderen, Rudolf Frederik P., var Forpagter-, Moderen var Else Birgitte f. Nyholm. Han blev Guldsmed og nedsatte sig som saadan i Aarhus. Men da han fik en Tommelfinger knust i et Valseværk, kunde han ikke længer arbejde i sit Haandværk, og han, der allerede tidligere havde givet sig af med at opfinde, begyndte nu at arbejde paa at tilvejebringe Raderinger i Sinkplader, der ved en Slags kemisk Behandling kunde blive brugbare til Trykning i Bogtrykkerpressen. Han naaede Maalet, og 1842 fik han af Industriforeningen i Kjøbenhavn en Anbefaling, der indbragte ham en
Just det här exemplet innehåller inget av specialfallen "Schleswig-Holstein", "last- och personbilar" eller "pall- lastare".
Vet ni förresten att den nya tyska stavningsreformen föreskriver att man ska ha tre av samma konsonant på rad i det sista fallet (palllastare).
-- Lars Aronsson (lars@aronsson.se) Projekt Runeberg - ditt digitala bibliotek - http://runeberg.org/
Runeberg mailing list Runeberg@lists.lysator.liu.se http://lists.lysator.liu.se/mailman/listinfo/runeberg
bernard.magnin wrote:
I receive about two to three e-mails a day about Runeberg. These e-mails are all about some programming questions of which I have no clue, nor do I wish to understand anything.
Is it possible that I should be "partially" off the mailing list for this type of e-mails and if it is not possible please take me off "totally".
Everybody have to manage their own subscription. To do this, go to http://lists.lysator.liu.se/mailman/listinfo/runeberg/ and enter your own (subscribed) address in the field at the bottom of the page. You have the following options:
1) Unsubscribe. You will no longer be able to post to the list, and will not receive any further postings. You can still read the archives on the web (same address as above).
2) Disable mail delivery. You will no longer receive postings, but you can still post messages to the list. You can read the archives on the web.
3) Set Digest Mode. You will not receive every posting as a separate message, but a single message per day. If only one message was posted on a day, this will only mean a few hours delay, but if many messages are posted in the same day, it can make a real difference.
I want to ask all members who post replies to the list to edit away as much as possible of the previous (quoted) message(s). Especially for members who prefer to recieve a daily digest, this will make your posting far more readable.
Last paragraph in Swedish:
Jag vill be alla medlemmar som skickar kommentarer till listan att redigera bort så mycket som möjligt av de (citerade) meddelandena. Särskilt för de medlemmar som valt att få en daglig sammanfattning i stället för varje meddelande för sig, kommer detta att göra diskussionen mycket mer läsvärd.
Lars Aronsson skrev:
Ulf Härnhammar wrote:
- förminska första bokstaven på nästa rad ("Väst-Tyskland" blir
"Västtyskland") Det går att slå av och på denna funktion
Jag tror att man bör behålla stor bokstav. När stor bokstav efter avstavning, vill man nog att det ska stå Schleswig-Holstein eller Karl-Erik.
Om jag minns rätt så valde jag, när jag korrekturläste "hvarfor", att låta konstruktioner i stil med "Schleswig-"<radbyte>"Holstein" stå kvar precis som tidigare. I något fall bedömde jag att risken för missförstånd påkallade nedflyttning (dvs ompositionering av själva radbytet).
Bakgrunden till det här problemet är att OCR-programmet ABBYY FineReader version 6 saknar en finess. Man kan bara välja att
endera
bevara alla radbrytningar (och avstavningar) eller att få de
avstavade
orden sammanfogade (enligt programmets ordlista), men då försvinner också alla radbrytningar.
[information om att båda formaten finns tillgängliga]
Min tolkning av önskad funktionalitet: ** Skuggläsning av filen med radbrytningar, "referensfilen", till stöd för insättning av radbyten i den andra filen, "arbetsfilen" (som har allting i en rad och saknar marginalindrag).
** Som huvudregel gäller att radbyte sätts in efter sista kompletta ord per rad i arbetsfilen, vid matchning mot referensfilen.
** En undantagslista framställs för att i förekommande fall behålla avstavningen (ex. Schleswig-<radbyte>Holstein). Här erfordras diskussion, beslut och specifikationsarbete.
** Vänstermarginal kan (redan i befintliga skriptförslag) sättas in eller undertryckas per rad i arbetsfilen. Denna funktion kan t ex utformas för aktivering från kommandorad efter smak och tycke.
** Ett antal tekniska lösningar framstår som möjliga bl a modifiering "inline" av en sträng som representerar hela arbetsfilen, eller alternativt, kopiering till en helt ny utfil. Såvitt jag förstår är denna applikation bara marginellt beroende av prestanda hos vald lösning.
/Tommy Riboe