Pressmeddelande
Datum: 22 juni 2004
Från: Projekt Runeberg, http://runeberg.org/
Kontaktperson: Lars Aronsson, projektledare, telefon +46-70-7891609
Kontaktadress: redaktion(a)runeberg.org
Ärende: Inscanningen av äldre nordisk litteratur har nått
200.000 boksidor, detsamma som 10 hyllmeter
Pressmeddelandet: http://runeberg.org/admin/20040622.html
== Projekt Runeberg firar 10 hyllmeter med Anna Maria Lenngren ==
En sida ur Anna Maria Lenngrens "Samlade skaldeförsök" från 1876 blev
boksida nummer 200.000 som Projekt Runeberg lägger ut gratis på
nätet. Så många boksidor motsvarar 10 hyllmeter litteratur, och det är
vad idealisterna i Linköping har att visa upp på http://runeberg.org/
Närmare bestämt var det dikten "Slottet och kojan" på sidan 41 som
blev jubilaren. Den scannades in den 22 juni 2004, fyra dagar efter
att dikterskan själv fyllde 250 år. Hon föddes nämligen 18 juni
1754. Dikten finns nu på http://runeberg.org/lenngren/0067.html
Projekt Runeberg är något av det äldsta som finns på Internet. Redan
1992 började några dåvarande studenter vid Linköpings universitet att
lägga upp texter ur äldre nordisk litteratur på en nätsida. Sedan dess
har det fortsatt som ett fritidsprojekt där studenter och före detta
studenter möts. Till sin hjälp har de också hundratals frivilliga
medhjälpare, som håller kontakten via nätet.
Även om arbetet utförs ideellt och Linköpings universitet bjuder på
anslutningen till Internet, så är Projekt Runeberg beroende av
enskildas gåvor bland annat för underhåll och utbyggnad av
servern. Donationer av böcker att scanna är också välkomna. Det
handlar oftast om utrensningar från bibliotek, som tvingas se över
sitt lokalbehov.
Varje månad levererar Projekt Runebergs webbplats tre miljoner
sidvisningar till 200.000 unika besökare. Trafikmängden har stadigt
ökat med 60 procent om året, och alltså tiofaldigats på fem år. Tack
vare webbplatsens goda struktur, är det lätt för andra webbplatser att
länka direkt till olika författare, böcker och enskilda boksidor, och
det verkar även som om det seriösa innehållet har en hög trovärdighet
hos nätets stora sökmotorer.
Dikter har från starten varit en viktig del av samlingen, eftersom de
är lagom långa att läsa på skärmen och eftersom sökmöjligheten är
ovärderlig när man letar efter kända citat. Men även romaner,
uppslagsverk, musik, tidskrifter och facklitteratur om allt från
blommor till radioapparater finns bland de tio hyllmeter som står till
fritt förfogande för allmänheten. Det handlar då om de äldsta
radioapparaterna från 1920-talet. Böckerna måste vara äldre än sjuttio
år för att inte omfattas av upphovsrätt.
Under de första åren knappades texterna in på vanliga tangentbord, men
nu är det scanning av hela boksidor som gäller inom Projekt
Runeberg. Genom att först scanna bilder av boksidorna får man en exakt
och trovärdig avbildning i faksimil, som sedan kan användas vid
korrekturläsning av den maskinellt tolkade texten. Projekt Runeberg
har vänt upp och ned på digitaliseringen genom att först publicera och
sedan låta läsarna på frivillig grund korrekturläsa texterna via sina
webbläsare. Detta gör att fler böcker kan digitaliseras på kortare tid
än som annars hade varit möjligt.
Det största enskilda verket i samlingen är Nordisk familjebok, det
klassiska svenska uppslagsverket i 38 band från 1920-talet, vars
digitala utgåva blev färdigt för ett år sedan, i maj 2003. Då var
Projekt Runeberg bara hälften så stort som idag. Vid halvårsskiftet
2003 omfattade det fem hyllmeter. Under det senaste året har samlingen
alltså fördubblats.
Bland det senaste årets tillskott märks många böcker på danska och
norska. Projekt Runeberg har sedan starten en nordisk profil, men det
svenska innehållet har kommit att dominera, och nu vill man
återupprätta balansen. Därför finns Dansk biografisk Lexikon (19 band)
och Henrik Ibsens samlade verk (10 band) bland nytillskotten, liksom
den danska "Tidsskrift for Physik og Chemi" av vilken man
digitaliserat åtta årgångar från 1870-talet. Men det största
icke-svenska verket är ändå Salmonsens konversationsleksion, det
klassiska danska uppslagsverket, där hittills sju av 26 band är
inscannade.
Den svenska samlingen har vuxit starkt under senaste året. Märkligt
nog har August Strindberg länge varit underrepresenterad på Internet,
vilket hänger samman med upphovsrättsproblemen runt den prestigefulla
Nationalutgåvan. Projekt Runeberg har nu funnit en kompromiss genom
att i stället digitalisera den äldre utgåvan "Samlade skrifter" från
1910-talet. Hittills är 42 av 55 band inscannade. Andra klassiska
svenska författare som nu är väl representerade är Bengt Lidner, Anna
Maria Lenngren och Carl Anton Wetterbergh, mer känd under pseudonymen
Onkel Adam. Utgåvor av olika författares "samlade verk" lämpar sig
mycket bra för digitalisering och kan användas som snabb referens för
den som inte hinner besöka biblioteket så ofta.
En starkt växande del av Projekt Runebergs bestånd är tidskrifter och
årsböcker. Svenska Turistföreningen, Svenska Naturskyddsföreningen och
Personhistoriska Samfundet är några sammanslutningar som numera kan
betrakta Projekt Runeberg som sitt digitala arkiv för de äldsta
utgåvorna.
De kanske mest besökta sidorna på Projekt Runebergs webbplats kommer
från inscannade uppslagsverk. Där finns inte bara de stora Nordisk
familjebok, Salmonsens konversationsleksikon och Dansk biografisk
Lexikon, utan även ordböcker och mer specialiserade verk, som Höijers
Musik-Lexikon, Ankjærs Geografisk-Statistisk Haandbog, Nordisk
illustreret Havebrugsleksikon (om trädgårdsodling), Cavallins
Swensk-Latinsk Ordbok, Hellquists Svensk etymologisk ordbok och till
och med två äldre utgåvor av Svenska Akademiens ordlista.
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
Project Runeberg,
At the end of May 2004, Project Runeberg's digital facsimile editions
comprised 190,642 pages (+4734 during the month) or 9.5 linear meters
of shelving, of which 182,002 had been OCRed, 136,079 had been indexed
(+6893), and 31,918 had been fully proofread (+2277).
The relatively high increase in the number of indexed pages is
explained by the fact that I finally paid attention to some indexing
contributions for Nordisk familjebok that had been in my inbox for
some time. Indexing still depends on the manual attention of our
editors (including me), unfortunately.
Even though the number of facsimile pages increased by 4734, not this
many pages were scanned during the month. Some belong to books that
were available all the time, but that we had failed to count.
We use the estimate that 20,000 pages correspond to one linear meter
of shelving (hyllmeter, reolmeter). It was only in July 2003 that we
reached 100,000 pages (5 meters), and with only 10,000 pages to go it
is still possible that we can reach twice that number within July.
Whether we shall be able to continue to double our collection also in
the coming year, depends on the number of volunteers with scanners.
We already have plenty of books to scan, and we accept more donations.
During May 2004, a total of 4346 proofreading contributions were
received from 61 identified volunteers. The following volunteers were
the most active:
Edits Signature
----- ---------
777 agneta
726 Steen.Roennow
462 fh
441 fm
351 lars
243 bernhard
235 teresia_fredriksson
108 anders.thapper
68 hartwig.alpers
56 jens.christian.berlin
53 bert
Edits were made to 3610 different pages in 119 different works.
Most edits were made to the following works or collections:
Edits Work Title
----- -------- -----
977 dbl Dansk biografisk Lexikon
529 garibald Giuseppe Garibaldi
434 nf Nordisk familjebok
337 strindbg Samlade skrifter av August Strindberg
242 sbh Svenskt biografiskt handlexikon
179 tiphyche Tidsskrift for Physik og Chemi
157 hvar8dag Hvar 8 dag
148 snf Svenska Naturskyddsföreningens årsbok
131 hanstark Elefantjägaren Hans Stark
119 sqvinnor Anteckningar om svenska qvinnor
80 famijour Svenska Familj-Journalen
68 djaknar De vandrande djäknarne
66 frostmo Barnen ifrån Frostmofjället
54 topesang Sånger
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg - free Nordic literature - http://runeberg.org/
Project Runeberg,
A new month is here and a new version of Project Runebergs front web
page, http://runeberg.org/
On Sunday June 6, Sweden celebrates its national holiday. It's not
called "independence day", because there is no definite point in
history when Sweden became independent (from what?), but the closest
we get is when rebellion leader Gustav Vasa succeeded in 1521 to break
Sweden out of union with Denmark (the Kalmar Union, 1397-1521). Two
years later, on June 6, 1523, he allowed himself to be appointed king
Gustav I (Gustav the first) of Sweden. Gustav later introduced
Lutheranism, centralized government, bureaucracy, laid the foundation
for the National Archives, and reshaped Swedish society in general.
So it's not only his beard that resembles Fidel Castro.
June 6 was also the day, in 1630, that his grandson Gustavus Adolphus
(Gustav II Adolf) landed on Germany's shore to join the protestant
forces in the Thirty Years' War. The place he landed was Peenemünde
on the island Usedom, where a memorial monument was put in 1930, less
than a decade before Wernher von Braun built the Nazi V2 rocket lab in
the same place. King Gustavus Adolphus died in November 1632 in the
Battle of Lützen, but the war lasted til 1648. In the Peace of
Westphalia, the province of Vorpommern in northern Germany became part
of the Swedish kingdom, and stayed so for more than 150 years.
In envy of other countries that had an independence day to celebrate,
the "day of the Swedish flag" was first celebrated on June 6, 1916.
In 1983 it was officially renamed the national holiday. In 1995
Sweden joined the European Union, where Denmark had been since 1973,
as if to say that 474 years of "independence" was about enough.
Of course, Sweden was also in a union with Norway from 1814 to 1905,
but in this case Norway depended on Sweden. Oddly enough, Norway
celebrates its independence day in memory of May 17, 1814, not 1905.
Next year, in 2005, we will commemorate the events of 1905.
Of all the above, Sweden's history of "glorious wars", what does
Project Runeberg celebrate on June 6, 2004? -- Nothing, really.
On this month's version of our front web page, http://runeberg.org/
we bring your attention to the 200th anniversary of the birth of Carl
Anton Wetterbergh (June 6, 1804 -- January 31, 1889). He was a
Swedish physician with liberal ideas, who also wrote short stories,
using the pen name Onkel Adam (where onkel is Swedish for uncle).
In 1862 he also started a monthly magazine for children, Linnea, which
he edited (and wrote most of its contents) for ten years. Some of his
books were reprinted after his death, but none after 1910. This means
they are hard to find in second hand bookstores, and libraries often
keep 19th century books locked away in closed stacks.
We have digitized two pamphlets, one novel, and two collections of
short stories. All are in Swedish:
* The pamphlet "Arbetskompagnier och jernvägsarbeten" from 1848
suggests a way to fight unemployment and at the same time help
finance railroad building ventures by instituting governmental
labour companies. (The first railroad in Sweden was opened in
1856.)
* The pamphlet "Om Behandlingen af den Asiatiska Choleran" from 1853
summarizes the author's experience and recommendations from the
outbreak of cholera in Sweden in 1834 and 1853.
* "Simon Sellners rikedomar" is a novel, first published in 1853,
although we have digitized the 2nd edition from 1891.
* "Berättelser, skizzer och noveller" is a recompilation of the
author's previously published short stories that appeared after his
death in 1889.
* "Ur Onkel Adams portfölj", also from 1889, is a posthumous
collection of short stories that were previously unpublished or had
only appeared in magazines.
In the 1910s, when Swedish conservative national romanticism was at a
peak, this liberal doctor from the mid 19th century was not in
fashion. The Swedish encyclopedia "Nordisk familjebok" (1921)
dismisses his output as having little literary value. He spends
scores of words on describing trivial interiors without reaching any
dramatic point. He doesn't describe Sweden's glorious wars and kings,
but cares for the poor and unemployed, both in his political and
medical pamphlets and in his novels and short stories.
A more recent account, published in 2003, is more approving of Onkel
Adam's style and life. Gunnar Lindqvist is the author of the chapter
"En radikal Onkel" in "Från skilda utsikter", 2003 (ISBN 9178431859),
a book about eightteen writers from the province Östergötland.
Perhaps this will help spark new interest in his writings.
To read up (in English) on old Swedish kings, I recommend these
Wikipedia articles,
* http://en.wikipedia.org/wiki/Kalmar_Union
* http://en.wikipedia.org/wiki/Gustav_I_of_Sweden
* http://en.wikipedia.org/wiki/Gustavus_Adolphus
* http://en.wikipedia.org/wiki/National_holiday_of_Sweden
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg - free Nordic literature - http://runeberg.org/
Projekt Runeberg,
Idag, det vill säga igår, kväll hölls årsmöte i studenternas
datorförening LYSATOR vid Linköpings universitet, där Projekt Runeberg
har sin hemvist. Där avgav jag, i egenskap av projektledare, följande
statusrapport:
Projekt Runeberg, ett Lysator-projekt för att publicera äldre nordisk
litteratur på Internet, grundades i december 1992 och har under det
gångna året firat sitt 11-årsjubileum. Projektledare har sedan
starten varit Lars Aronsson. En kärntrupp av lysiter, den så kallade
redaktionen, umgås dagligen i LysKOM. En större krets av frivilliga
medarbetare nås genom utskick på en e-postlista. Projektets
officiella adress är http://runeberg.org/
På kvällen den 16 maj 2004 fanns i Projekt Runebergs samlingar 439
olika verk i form av elektronisk text och/eller digital faksimil.
Faksimilsamlingarna omfattade 186.557 boksidor fördelade på 457 större
och mindre volymer (från tunna tidningshäften till tjocka bokband).
Detta motsvarar drygt nio hyllmeter. För ett år sedan var
faksimilavdelningen ungefär hälften så stor som idag. Ungefär en
fjärdedel av faksimilsidorna utgörs av de två första utgåvorna av det
klassiska svenska uppslagsverket "Nordisk familjebok", vars
digitalisering avslutades i maj 2003. En ambition för det kommande
året är att locka fler frivilliga att scanna, för att kunna fortsätta
öka tillväxttakten. Detta kräver att en del rutiner förenklas och
automatiseras, så att belastningen på redaktionen inte ökas.
Under året har Projekt Runeberg tagit emot flera donationer av äldre
böcker och tidskrifter som förhoppningsvis kan digitaliseras framöver.
Men det är inte bara inscanningen av nya sidor som ökat kraftigt, utan
även korrekturläsningen som sedan 2002 görs av frivilliga direkt över
webben. Nu är 30.738 sidor fullständigt korrekturlästa, vilket under
våren 2004 har ökat med cirka 3.000 sidor per månad.
Utöver digitaliserad litteratur, innehåller Projekt Runeberg även en
samling presentationer av nordiska författare, "Nordic Authors". Den
bygger på en lista med 27.000 namn varav 4.700 har fått kortare eller
längre presentationer. Utökningen av denna samling består nu i allt
högre grad av hänvisningar till Wikipedia, ett flerspråkigt
uppslagsverk med fritt innehåll som byggs upp av frivilliga.
Under året har Projekt Runeberg fått en ny sökfunktion för författarna
i Nordic Authors och katalogen över digitaliserade verk. Sökformuläret
för detta finns på http://runeberg.org/search.pl
För närvarande pågår utveckling av sökfunktioner för fulltext, där
hittills Google har använts, via en sökruta som finns i sidhuvudet på
varje webbsida. Inom Projekt Runeberg sker en övergång från Pike
till Perl som programspråk.
I vintras skaffade Projekt Runeberg en egen server, Fatabur, som kör
Linux och använder prisbilliga ATA-diskar. Fatabur har en Intel P4
Celeron CPU i 2,4 GHz, 1024 MB RAM och för närvarande 160 GB speglad
disk. Drifttagningen skedde ungefär samtidigt som Lysators webbserver
flyttade från Lenin (Solaris) till Sherman (Linux). Övergången har
bromsats av att Fatabur saknar tillfredsställande backup. Fortfarande
ligger därför stora delar av Projekt Runebergs webbplats på Lysators
server (Sherman). För att finansiera fortsatt utbyggnad, har Projekt
Runeberg under våren börjat tigga penninggåvor, vilket hittills bara
inbringat 1.800 kronor (200 euro). Detta räcker inte långt, och
aktivare tiggeri kommer att krävas.
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
Projekt Runebergs webbsidor har en ny sökfunktion. Den ser ut och
fungerar precis som den gamla, så vad är nytt?
Högst upp på varje webbsida, i det svarta sidhuvudet, finns en liten
sökruta med en knapp som det står "search" på. När man skriver in
något i rutan och trycker ENTER eller klickar på knappen, så får man
en lista av sökträffar från Google. Skillnaden mot igår är att
sökningen numera mellanlandar på Projekt Runebergs server.
Den som tar en titt på webbsidans källkod (view source) upptäcker att
det är scriptet http://runeberg.org/search.pl som tar emot sökningen,
och att sökfältet har namnet "q". Om man har en egen webbplats och
vill göra en länk till ett sökuttryck, kan man länka till
http://runeberg.org/search.pl?q=petter+dass för att hitta information
om den norske psalmförfattaren.
Det här är samma script (search.pl) som numera används för att söka
författare inom Nordic Authors ( http://runeberg.org/authors/ ) och
det kommer successivt att utökas med fler funktioner. För sökning i
fulltext slussar den vidare sökningen till Google. Men först sparar
den en rad i en loggfil, där vi i redaktionen kan gå in och se vad det
är folk söker efter. Så här kan det se ut:
20040511 17:17:01 query: röda korset
20040511 17:19:16 query: Charlotte Brontë
20040511 17:20:35 query: vrick
20040511 17:21:04 query: vattenkraft
20040511 17:21:16 query: vattenkraft
20040511 17:21:43 query: snus
20040511 17:23:44 query: älvkarleby
20040511 17:24:03 query: Homofon
20040511 17:25:32 query: Petter Dass
20040511 17:25:38 query: åtalsimmunitet
Förmodligen är det samma person som sökt på "vattenkraft" och
"älvkarleby", men vi bokför inte *vem* som sökt, bara *vad* man har
sökt efter (och när). Tanken med loggen är att vi ska kunna se vad
våra läsare vill veta. Kanske är det någon författare vi saknar
(Charlotte Brontë) eller något begrepp som behöver förklaras.
Efter att den nya sökfunktionen (med loggning) varit igång nästan en
hel dag och 792 sökningar har gjorts, har följande visat sig vara de
vanligaste frågorna:
6 lödöse
4 pinal
4 kornisch
4 charles dickens
3 smith carl frithjof
3 sarasov
3 brønshøj
Inom ett dygn kommer Petter Dass att vara den vanligaste sökningen.
Det räcker att sju personer klickar på söklänken här ovan. Givetvis
måste vi låta funktionen vara i drift lite längre innan statistiken
blir tillförlitlig och användbar.
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
When I noticed that the same errors occured from time to time, I found
it convenient to extract the raw OCR texts into a single file containing
10, or sometimes 100 single pages. Then I could apply the replace
command in MS World to correct the reoccuring errors. First removing the
OCR thrash (tabs, spurious chars) and the extra spaces (which, although
not appearing in HTML, are a bit annoying when proofreading), then the
most common errors, such as 'rn' instead of 'm' etc. The swedish words
'han' occuring as 'lima' and 'med' as 'umeå'(!) are among the more
noteworthy.
Having the text in a separate file, makes it possible to arrange the
fascimile text (browser) to the left of the screen and the OCR text to
the right (Notepad), thus faciliating the proofreading.
It is possible to use MS Word to insert tags like <i> with a single
keypress. After using Word, I find it necessary, however, to filter the
text through Notepad, in order to be sure that no Microsoft special
chars are hidden somewhere. For example, Word might convert short dashes
into long, etc.
Bernhard Johanson
runeberg-request(a)lists.lysator.liu.se wrote:
>Send Runeberg mailing list submissions to
> runeberg(a)lists.lysator.liu.se
>
>To subscribe or unsubscribe via the World Wide Web, visit
> http://lists.lysator.liu.se/mailman/listinfo/runeberg
>or, via email, send a message with subject or body 'help' to
> runeberg-request(a)lists.lysator.liu.se
>
>You can reach the person managing the list at
> runeberg-admin(a)lists.lysator.liu.se
>
>When replying, please edit your Subject line so it is more specific
>than "Re: Contents of Runeberg digest..."
>
>
>Today's Topics:
>
> 1. Most common proofreading edits (Lars Aronsson)
> 2. Re: Most common proofreading edits (Lars Aronsson)
>
>--__--__--
>
>Message: 1
>Date: Tue, 4 May 2004 01:04:22 +0200 (CEST)
>From: Lars Aronsson <lars(a)aronsson.se>
>To: runeberg(a)lists.lysator.liu.se
>Subject: [Runeberg] Most common proofreading edits
>
>
>Project Runeberg,
>
>Today (well, yesterday) I noticed that the work
>http://runeberg.org/akrell/ was completely proofread. If you have
>been watching the "Recent changes" page, you have seen the signature
>"jens.christian.berlin" working on this title in the last months.
>
>These are the political memoirs of three prominent Swedish gentlemen,
>Carl Fredrik Akrell, Samuel Gustaf von Troil, and Per Sahlström,
>published in 1884-1885, titled "Minnen från Carl XIV:s, Oscar I:s och
>Carl XV:s dagar". Among other things, they describe the political
>debates about the introduction of the electric telepgraph in Sweden,
>some early railroads and also the first macadam covered country road
>in southern Sweden. It is a single volume of 562 pages that I scanned
>and OCR-ed in August 2003.
>
>So today I wrote a program to see which kinds of edits are most
>commonly needed to get the text in order after OCR. This is easy to
>do, as our website saves all old versions of every text. These are my
>findings, listed from the most frequent ones, down:
>
> 378 [---] {+--+}
> 128 {+<i>+}
> 91 {+</i>+}
>
>Here, [- and -] surround parts that were removed, while {+ and +}
>surround parts that were inserted. This means in 378 places, a single
>dash "-" was changed into a double "--". In 128 places, an opening
>italics tag "<i>" was inserted, and in 91 places, a closing italics
>tag "</i>" was inserted. It could seem like a mystery that these
>numbers are not equal. However, this is only an unfortunate result of
>how my program works. The missing </i> tags are found further down
>the list.
>
>These are by far the most common edits done to this book. I think you
>all agree that a lot of work could be saved if the OCR software would
>get this right in the first place.
>
>In total over all 562 pages, I counted to 5268 different changes, or
>an average of 9.3 changes per page. The three above (long dashes and
>italics) make up 378 + 128 + 91 = 597 changes or 11 percent of all
>changes in the proofreading of this book.
>
>Let's continue down the list. Here, some common OCR errors are
>starting to show:
>
> 31 [-l-] {+1+}
> 28 {+<tab>+}
> 28 [-sorn-] {+som+}
> 26 [-.-]
> 21 [-deri-] {+den+}
> 20 {+</b>+}
> 19 {+*+}
> 18 [-ined-] {+med+}
> 17 [-rnig-] {+mig+}
> 17 [-Lubeck-] {+Lübeck+}
> 16 [-örn-] {+om+}
> 16 [-rned-] {+med+}
> 16 [-Munchen-] {+München+}
> 15 {+</b> <b>+}
> 12 [-eri-] {+en+}
> 12 [-*-]
> 11 [-ä-] {+à+}
> 10 [-rnin-] {+min+}
> 10 [-jäg-] {+jag+}
> 10 [-a-] {+à+}
> 10 [-'-]
> 9 [-ätt-] {+att+}
> 9 [-pä-] {+på+}
> 8 [-rnå-] {+må+}
> 7 {+* <b>+}
> 7 [-fastade-] {+fästade+}
> 7 [-dä-] {+då+}
> 7 [-G-] {+C+}
> 7 [-,-]
> 6 {+<b>+}
> 6 [-mön-] {+mon+}
> 6 [-Wurtemberg-] {+Würtemberg+}
> 5 [-å-] {+à+}
> 5 [-upp--]
> 5 [-och.-] {+och+}
> 5 [-for-] {+för+}
> 5 [-alt-] {+att+}
> 5 [-Goswig-] {+Coswig+}
> 5 [-Gassel-] {+Cassel+}
> 5 [-Biilow-] {+Bülow+}
> 5 [---]
>
>Also among the changes that only occur once, patterns are to be seen,
>e.g., the removal of page numbers:
>
> 1 [-175-]
> 1 [-174-]
>
>the editing of numbers and fractals:
>
> 1 [-2J/2-] {+2 1/2+}
> 1 [-2:rie-] {+2:ne+}
>
>and the removal of "OCR dirt", small dots that shouldn't be there:
>
> 1 [-.kärft-] {+kärft+}
> 1 [-.kryssning-] {+kryssning+}
> 1 [-.komminister-] {+komminister+}
> 1 [-.klass-] {+klass+}
> 1 [-.intellektuel-] {+intellektuel+}
> 1 [-.inqvartering-] {+inqvartering+}
> 1 [-.idéen-] {+idéen+}
> 1 [-.han-] {+han+}
> 1 [-.hafva-] {+hafva+}
> 1 [-.gjort-] {+gjort+}
>
>Sometimes when the OCR software doesn't find a word in its dictionary,
>it tries to split it into two recognized words, which the proofreader
>than has to join:
>
> 1 [-artilleri vetenskapen-] {+artillerivetenskapen+}
>
>
>
>
>
Project Runeberg,
Today (well, yesterday) I noticed that the work
http://runeberg.org/akrell/ was completely proofread. If you have
been watching the "Recent changes" page, you have seen the signature
"jens.christian.berlin" working on this title in the last months.
These are the political memoirs of three prominent Swedish gentlemen,
Carl Fredrik Akrell, Samuel Gustaf von Troil, and Per Sahlström,
published in 1884-1885, titled "Minnen från Carl XIV:s, Oscar I:s och
Carl XV:s dagar". Among other things, they describe the political
debates about the introduction of the electric telepgraph in Sweden,
some early railroads and also the first macadam covered country road
in southern Sweden. It is a single volume of 562 pages that I scanned
and OCR-ed in August 2003.
So today I wrote a program to see which kinds of edits are most
commonly needed to get the text in order after OCR. This is easy to
do, as our website saves all old versions of every text. These are my
findings, listed from the most frequent ones, down:
378 [---] {+--+}
128 {+<i>+}
91 {+</i>+}
Here, [- and -] surround parts that were removed, while {+ and +}
surround parts that were inserted. This means in 378 places, a single
dash "-" was changed into a double "--". In 128 places, an opening
italics tag "<i>" was inserted, and in 91 places, a closing italics
tag "</i>" was inserted. It could seem like a mystery that these
numbers are not equal. However, this is only an unfortunate result of
how my program works. The missing </i> tags are found further down
the list.
These are by far the most common edits done to this book. I think you
all agree that a lot of work could be saved if the OCR software would
get this right in the first place.
In total over all 562 pages, I counted to 5268 different changes, or
an average of 9.3 changes per page. The three above (long dashes and
italics) make up 378 + 128 + 91 = 597 changes or 11 percent of all
changes in the proofreading of this book.
Let's continue down the list. Here, some common OCR errors are
starting to show:
31 [-l-] {+1+}
28 {+<tab>+}
28 [-sorn-] {+som+}
26 [-.-]
21 [-deri-] {+den+}
20 {+</b>+}
19 {+*+}
18 [-ined-] {+med+}
17 [-rnig-] {+mig+}
17 [-Lubeck-] {+Lübeck+}
16 [-örn-] {+om+}
16 [-rned-] {+med+}
16 [-Munchen-] {+München+}
15 {+</b> <b>+}
12 [-eri-] {+en+}
12 [-*-]
11 [-ä-] {+à+}
10 [-rnin-] {+min+}
10 [-jäg-] {+jag+}
10 [-a-] {+à+}
10 [-'-]
9 [-ätt-] {+att+}
9 [-pä-] {+på+}
8 [-rnå-] {+må+}
7 {+* <b>+}
7 [-fastade-] {+fästade+}
7 [-dä-] {+då+}
7 [-G-] {+C+}
7 [-,-]
6 {+<b>+}
6 [-mön-] {+mon+}
6 [-Wurtemberg-] {+Würtemberg+}
5 [-å-] {+à+}
5 [-upp--]
5 [-och.-] {+och+}
5 [-for-] {+för+}
5 [-alt-] {+att+}
5 [-Goswig-] {+Coswig+}
5 [-Gassel-] {+Cassel+}
5 [-Biilow-] {+Bülow+}
5 [---]
Also among the changes that only occur once, patterns are to be seen,
e.g., the removal of page numbers:
1 [-175-]
1 [-174-]
the editing of numbers and fractals:
1 [-2J/2-] {+2 1/2+}
1 [-2:rie-] {+2:ne+}
and the removal of "OCR dirt", small dots that shouldn't be there:
1 [-.kärft-] {+kärft+}
1 [-.kryssning-] {+kryssning+}
1 [-.komminister-] {+komminister+}
1 [-.klass-] {+klass+}
1 [-.intellektuel-] {+intellektuel+}
1 [-.inqvartering-] {+inqvartering+}
1 [-.idéen-] {+idéen+}
1 [-.han-] {+han+}
1 [-.hafva-] {+hafva+}
1 [-.gjort-] {+gjort+}
Sometimes when the OCR software doesn't find a word in its dictionary,
it tries to split it into two recognized words, which the proofreader
than has to join:
1 [-artilleri vetenskapen-] {+artillerivetenskapen+}
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg - free Nordic literature - http://runeberg.org/
Project Runeberg,
To get an idea of how many volumes and pages a work contains and how
many of those are proofread, you will now find the colorful "proof
bars" (proofreading status bar graphs) next to the table of contents
of each work. You can now click on these bars to jump directly to
individual pages, where you can take up proofreading. For example,
for the work "strindbg" (Samlade skrifter av August Strindberg), go to
http://runeberg.org/strindbg/ and scroll to the end of that page.
Immediately above the proof bars is the heading "Korrstaplar / Proof
bars" that you can click to read an explanation of the colors. This
explanation is available in English and Swedish, and it's on our wiki
where you can help to improve it.
During April 2004, a total of 5979 proofreading contributions (edits)
were received from 70 identified volunteers. The following volunteers
were the most active:
Edits Signature
----- ---------
1455 agneta (+ ag)
1082 Steen.Roennow
766 lars
570 fh
533 fm
331 bernhard.johanson
160 anders.thapper
78 maggieandersson
77 hartwig.alpers
60 bernhard
50 jens.christian.berlin
43 teresia_fredriksson
40 bertil.ohrman
26 john.munkholm
24 olleolleolle
23 esoj
17 robro2
15 unicorn
15 orsval
13 peter9
Edits were made to 5266 different pages in 129 different works.
Most edits were made to the following works:
Edits Work Title
----- -------- -----
1148 dbl Dansk biografisk Lexikon
790 strindbg Samlade skrifter av August Strindberg
684 snoildik Samlade dikter
423 nf Nordisk familjebok
402 sbh Svenskt biografiskt handlexikon
393 sqvinnor Anteckningar om svenska qvinnor
255 garibald Giuseppe Garibaldi
231 tiphyche Tidsskrift for Physik og Chemi
140 svekon19 Svensk konst och svenska konstnärer i nittonde...
124 liwing Dawid Liwingstone, hans person och missionsverksamhet
115 famijour Svenska Familj-Journalen
114 hvar8dag Hvar 8 dag
98 krigsaga Krigets tekniska sagor för stora och små
87 runeberg Samlade skrifter
79 bjorfort Bjørnstjerne Bjørnsons Fortællinger
75 akrell Minnen från Carl XIV:s, Oscar I:s och Carl XV:s dagar
59 vintgron Vintergrønt
58 frostmo Barnen ifrån Frostmofjället
51 pht Personhistorisk tidskrift
50 salmonsen Salmonsens konversationsleksikon
43 bremlett America of the Fifties: Letters of Fredrika Bremer
35 svfldagb En svensk flickas dagbok under krigsfångenskap...
34 norge80 Norge. Uddrag af ældre og nyere Forfatteres Skrifter
32 svetym Svensk etymologisk ordbok
31 havebrug Nordisk illustreret Havebrugsleksikon
--
Lars Aronsson (lars(a)aronsson.se)
Classic Nordic Literature online since 1992 - http://runeberg.org/
Sidan http://www.lysator.liu.se/runeberg/status.html är oerhört tung att
läsa in, åtminstone med mina 500 kbit. (Det är ju inte alla som sitter
uppkopplade med 100 Mbit!). Datorn blir praktiskt taget blockerad i
flera minuter.
Skulle man inte kunna dela upp den lite, så att varje bokverk får en
egen sida? Eller åtminstone partitionera den?
Bernhard Johanson
Projekt Runeberg,
De senaste dagarna har jag tagit om hand den sista tidens inkomna
bidrag i indexeringen av uggleupplagan av Nordisk familjebok. De 38
banden omfattar tillsammans 29226 sidor och av dessa är nu 15567 sidor
eller 53 procent indexerade. Vi har alltså passerat hälften...
http://runeberg.org/nf/http://runeberg.org/wiki/Indexering_av_uggleupplagan
Bara 857 av sidorna (3 procent) är korrekturlästa. Visst är det
mycket att korrekturläsa, men man kan ju välja ut några sidor och
artiklar om intressanta ämnen, t.ex. Archimedes eller Ryssläder.
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - ditt digitala bibliotek - http://runeberg.org/