Projekt Runeberg,
Idag, det vill säga igår, kväll hölls årsmöte i studenternas
datorförening LYSATOR vid Linköpings universitet, där Projekt Runeberg
har sin hemvist. Där avgav jag, i egenskap av projektledare, följande
statusrapport:
Projekt Runeberg, ett Lysator-projekt för att publicera äldre nordisk
litteratur på Internet, grundades i december 1992 och har under det
gångna året firat sitt 11-årsjubileum. Projektledare har sedan
starten varit Lars Aronsson. En kärntrupp av lysiter, den så kallade
redaktionen, umgås dagligen i LysKOM. En större krets av frivilliga
medarbetare nås genom utskick på en e-postlista. Projektets
officiella adress är http://runeberg.org/
På kvällen den 16 maj 2004 fanns i Projekt Runebergs samlingar 439
olika verk i form av elektronisk text och/eller digital faksimil.
Faksimilsamlingarna omfattade 186.557 boksidor fördelade på 457 större
och mindre volymer (från tunna tidningshäften till tjocka bokband).
Detta motsvarar drygt nio hyllmeter. För ett år sedan var
faksimilavdelningen ungefär hälften så stor som idag. Ungefär en
fjärdedel av faksimilsidorna utgörs av de två första utgåvorna av det
klassiska svenska uppslagsverket "Nordisk familjebok", vars
digitalisering avslutades i maj 2003. En ambition för det kommande
året är att locka fler frivilliga att scanna, för att kunna fortsätta
öka tillväxttakten. Detta kräver att en del rutiner förenklas och
automatiseras, så att belastningen på redaktionen inte ökas.
Under året har Projekt Runeberg tagit emot flera donationer av äldre
böcker och tidskrifter som förhoppningsvis kan digitaliseras framöver.
Men det är inte bara inscanningen av nya sidor som ökat kraftigt, utan
även korrekturläsningen som sedan 2002 görs av frivilliga direkt över
webben. Nu är 30.738 sidor fullständigt korrekturlästa, vilket under
våren 2004 har ökat med cirka 3.000 sidor per månad.
Utöver digitaliserad litteratur, innehåller Projekt Runeberg även en
samling presentationer av nordiska författare, "Nordic Authors". Den
bygger på en lista med 27.000 namn varav 4.700 har fått kortare eller
längre presentationer. Utökningen av denna samling består nu i allt
högre grad av hänvisningar till Wikipedia, ett flerspråkigt
uppslagsverk med fritt innehåll som byggs upp av frivilliga.
Under året har Projekt Runeberg fått en ny sökfunktion för författarna
i Nordic Authors och katalogen över digitaliserade verk. Sökformuläret
för detta finns på http://runeberg.org/search.pl
För närvarande pågår utveckling av sökfunktioner för fulltext, där
hittills Google har använts, via en sökruta som finns i sidhuvudet på
varje webbsida. Inom Projekt Runeberg sker en övergång från Pike
till Perl som programspråk.
I vintras skaffade Projekt Runeberg en egen server, Fatabur, som kör
Linux och använder prisbilliga ATA-diskar. Fatabur har en Intel P4
Celeron CPU i 2,4 GHz, 1024 MB RAM och för närvarande 160 GB speglad
disk. Drifttagningen skedde ungefär samtidigt som Lysators webbserver
flyttade från Lenin (Solaris) till Sherman (Linux). Övergången har
bromsats av att Fatabur saknar tillfredsställande backup. Fortfarande
ligger därför stora delar av Projekt Runebergs webbplats på Lysators
server (Sherman). För att finansiera fortsatt utbyggnad, har Projekt
Runeberg under våren börjat tigga penninggåvor, vilket hittills bara
inbringat 1.800 kronor (200 euro). Detta räcker inte långt, och
aktivare tiggeri kommer att krävas.
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
Projekt Runebergs webbsidor har en ny sökfunktion. Den ser ut och
fungerar precis som den gamla, så vad är nytt?
Högst upp på varje webbsida, i det svarta sidhuvudet, finns en liten
sökruta med en knapp som det står "search" på. När man skriver in
något i rutan och trycker ENTER eller klickar på knappen, så får man
en lista av sökträffar från Google. Skillnaden mot igår är att
sökningen numera mellanlandar på Projekt Runebergs server.
Den som tar en titt på webbsidans källkod (view source) upptäcker att
det är scriptet http://runeberg.org/search.pl som tar emot sökningen,
och att sökfältet har namnet "q". Om man har en egen webbplats och
vill göra en länk till ett sökuttryck, kan man länka till
http://runeberg.org/search.pl?q=petter+dass för att hitta information
om den norske psalmförfattaren.
Det här är samma script (search.pl) som numera används för att söka
författare inom Nordic Authors ( http://runeberg.org/authors/ ) och
det kommer successivt att utökas med fler funktioner. För sökning i
fulltext slussar den vidare sökningen till Google. Men först sparar
den en rad i en loggfil, där vi i redaktionen kan gå in och se vad det
är folk söker efter. Så här kan det se ut:
20040511 17:17:01 query: röda korset
20040511 17:19:16 query: Charlotte Brontë
20040511 17:20:35 query: vrick
20040511 17:21:04 query: vattenkraft
20040511 17:21:16 query: vattenkraft
20040511 17:21:43 query: snus
20040511 17:23:44 query: älvkarleby
20040511 17:24:03 query: Homofon
20040511 17:25:32 query: Petter Dass
20040511 17:25:38 query: åtalsimmunitet
Förmodligen är det samma person som sökt på "vattenkraft" och
"älvkarleby", men vi bokför inte *vem* som sökt, bara *vad* man har
sökt efter (och när). Tanken med loggen är att vi ska kunna se vad
våra läsare vill veta. Kanske är det någon författare vi saknar
(Charlotte Brontë) eller något begrepp som behöver förklaras.
Efter att den nya sökfunktionen (med loggning) varit igång nästan en
hel dag och 792 sökningar har gjorts, har följande visat sig vara de
vanligaste frågorna:
6 lödöse
4 pinal
4 kornisch
4 charles dickens
3 smith carl frithjof
3 sarasov
3 brønshøj
Inom ett dygn kommer Petter Dass att vara den vanligaste sökningen.
Det räcker att sju personer klickar på söklänken här ovan. Givetvis
måste vi låta funktionen vara i drift lite längre innan statistiken
blir tillförlitlig och användbar.
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
When I noticed that the same errors occured from time to time, I found
it convenient to extract the raw OCR texts into a single file containing
10, or sometimes 100 single pages. Then I could apply the replace
command in MS World to correct the reoccuring errors. First removing the
OCR thrash (tabs, spurious chars) and the extra spaces (which, although
not appearing in HTML, are a bit annoying when proofreading), then the
most common errors, such as 'rn' instead of 'm' etc. The swedish words
'han' occuring as 'lima' and 'med' as 'umeå'(!) are among the more
noteworthy.
Having the text in a separate file, makes it possible to arrange the
fascimile text (browser) to the left of the screen and the OCR text to
the right (Notepad), thus faciliating the proofreading.
It is possible to use MS Word to insert tags like <i> with a single
keypress. After using Word, I find it necessary, however, to filter the
text through Notepad, in order to be sure that no Microsoft special
chars are hidden somewhere. For example, Word might convert short dashes
into long, etc.
Bernhard Johanson
runeberg-request(a)lists.lysator.liu.se wrote:
>Send Runeberg mailing list submissions to
> runeberg(a)lists.lysator.liu.se
>
>To subscribe or unsubscribe via the World Wide Web, visit
> http://lists.lysator.liu.se/mailman/listinfo/runeberg
>or, via email, send a message with subject or body 'help' to
> runeberg-request(a)lists.lysator.liu.se
>
>You can reach the person managing the list at
> runeberg-admin(a)lists.lysator.liu.se
>
>When replying, please edit your Subject line so it is more specific
>than "Re: Contents of Runeberg digest..."
>
>
>Today's Topics:
>
> 1. Most common proofreading edits (Lars Aronsson)
> 2. Re: Most common proofreading edits (Lars Aronsson)
>
>--__--__--
>
>Message: 1
>Date: Tue, 4 May 2004 01:04:22 +0200 (CEST)
>From: Lars Aronsson <lars(a)aronsson.se>
>To: runeberg(a)lists.lysator.liu.se
>Subject: [Runeberg] Most common proofreading edits
>
>
>Project Runeberg,
>
>Today (well, yesterday) I noticed that the work
>http://runeberg.org/akrell/ was completely proofread. If you have
>been watching the "Recent changes" page, you have seen the signature
>"jens.christian.berlin" working on this title in the last months.
>
>These are the political memoirs of three prominent Swedish gentlemen,
>Carl Fredrik Akrell, Samuel Gustaf von Troil, and Per Sahlström,
>published in 1884-1885, titled "Minnen från Carl XIV:s, Oscar I:s och
>Carl XV:s dagar". Among other things, they describe the political
>debates about the introduction of the electric telepgraph in Sweden,
>some early railroads and also the first macadam covered country road
>in southern Sweden. It is a single volume of 562 pages that I scanned
>and OCR-ed in August 2003.
>
>So today I wrote a program to see which kinds of edits are most
>commonly needed to get the text in order after OCR. This is easy to
>do, as our website saves all old versions of every text. These are my
>findings, listed from the most frequent ones, down:
>
> 378 [---] {+--+}
> 128 {+<i>+}
> 91 {+</i>+}
>
>Here, [- and -] surround parts that were removed, while {+ and +}
>surround parts that were inserted. This means in 378 places, a single
>dash "-" was changed into a double "--". In 128 places, an opening
>italics tag "<i>" was inserted, and in 91 places, a closing italics
>tag "</i>" was inserted. It could seem like a mystery that these
>numbers are not equal. However, this is only an unfortunate result of
>how my program works. The missing </i> tags are found further down
>the list.
>
>These are by far the most common edits done to this book. I think you
>all agree that a lot of work could be saved if the OCR software would
>get this right in the first place.
>
>In total over all 562 pages, I counted to 5268 different changes, or
>an average of 9.3 changes per page. The three above (long dashes and
>italics) make up 378 + 128 + 91 = 597 changes or 11 percent of all
>changes in the proofreading of this book.
>
>Let's continue down the list. Here, some common OCR errors are
>starting to show:
>
> 31 [-l-] {+1+}
> 28 {+<tab>+}
> 28 [-sorn-] {+som+}
> 26 [-.-]
> 21 [-deri-] {+den+}
> 20 {+</b>+}
> 19 {+*+}
> 18 [-ined-] {+med+}
> 17 [-rnig-] {+mig+}
> 17 [-Lubeck-] {+Lübeck+}
> 16 [-örn-] {+om+}
> 16 [-rned-] {+med+}
> 16 [-Munchen-] {+München+}
> 15 {+</b> <b>+}
> 12 [-eri-] {+en+}
> 12 [-*-]
> 11 [-ä-] {+à+}
> 10 [-rnin-] {+min+}
> 10 [-jäg-] {+jag+}
> 10 [-a-] {+à+}
> 10 [-'-]
> 9 [-ätt-] {+att+}
> 9 [-pä-] {+på+}
> 8 [-rnå-] {+må+}
> 7 {+* <b>+}
> 7 [-fastade-] {+fästade+}
> 7 [-dä-] {+då+}
> 7 [-G-] {+C+}
> 7 [-,-]
> 6 {+<b>+}
> 6 [-mön-] {+mon+}
> 6 [-Wurtemberg-] {+Würtemberg+}
> 5 [-å-] {+à+}
> 5 [-upp--]
> 5 [-och.-] {+och+}
> 5 [-for-] {+för+}
> 5 [-alt-] {+att+}
> 5 [-Goswig-] {+Coswig+}
> 5 [-Gassel-] {+Cassel+}
> 5 [-Biilow-] {+Bülow+}
> 5 [---]
>
>Also among the changes that only occur once, patterns are to be seen,
>e.g., the removal of page numbers:
>
> 1 [-175-]
> 1 [-174-]
>
>the editing of numbers and fractals:
>
> 1 [-2J/2-] {+2 1/2+}
> 1 [-2:rie-] {+2:ne+}
>
>and the removal of "OCR dirt", small dots that shouldn't be there:
>
> 1 [-.kärft-] {+kärft+}
> 1 [-.kryssning-] {+kryssning+}
> 1 [-.komminister-] {+komminister+}
> 1 [-.klass-] {+klass+}
> 1 [-.intellektuel-] {+intellektuel+}
> 1 [-.inqvartering-] {+inqvartering+}
> 1 [-.idéen-] {+idéen+}
> 1 [-.han-] {+han+}
> 1 [-.hafva-] {+hafva+}
> 1 [-.gjort-] {+gjort+}
>
>Sometimes when the OCR software doesn't find a word in its dictionary,
>it tries to split it into two recognized words, which the proofreader
>than has to join:
>
> 1 [-artilleri vetenskapen-] {+artillerivetenskapen+}
>
>
>
>
>
Project Runeberg,
Today (well, yesterday) I noticed that the work
http://runeberg.org/akrell/ was completely proofread. If you have
been watching the "Recent changes" page, you have seen the signature
"jens.christian.berlin" working on this title in the last months.
These are the political memoirs of three prominent Swedish gentlemen,
Carl Fredrik Akrell, Samuel Gustaf von Troil, and Per Sahlström,
published in 1884-1885, titled "Minnen från Carl XIV:s, Oscar I:s och
Carl XV:s dagar". Among other things, they describe the political
debates about the introduction of the electric telepgraph in Sweden,
some early railroads and also the first macadam covered country road
in southern Sweden. It is a single volume of 562 pages that I scanned
and OCR-ed in August 2003.
So today I wrote a program to see which kinds of edits are most
commonly needed to get the text in order after OCR. This is easy to
do, as our website saves all old versions of every text. These are my
findings, listed from the most frequent ones, down:
378 [---] {+--+}
128 {+<i>+}
91 {+</i>+}
Here, [- and -] surround parts that were removed, while {+ and +}
surround parts that were inserted. This means in 378 places, a single
dash "-" was changed into a double "--". In 128 places, an opening
italics tag "<i>" was inserted, and in 91 places, a closing italics
tag "</i>" was inserted. It could seem like a mystery that these
numbers are not equal. However, this is only an unfortunate result of
how my program works. The missing </i> tags are found further down
the list.
These are by far the most common edits done to this book. I think you
all agree that a lot of work could be saved if the OCR software would
get this right in the first place.
In total over all 562 pages, I counted to 5268 different changes, or
an average of 9.3 changes per page. The three above (long dashes and
italics) make up 378 + 128 + 91 = 597 changes or 11 percent of all
changes in the proofreading of this book.
Let's continue down the list. Here, some common OCR errors are
starting to show:
31 [-l-] {+1+}
28 {+<tab>+}
28 [-sorn-] {+som+}
26 [-.-]
21 [-deri-] {+den+}
20 {+</b>+}
19 {+*+}
18 [-ined-] {+med+}
17 [-rnig-] {+mig+}
17 [-Lubeck-] {+Lübeck+}
16 [-örn-] {+om+}
16 [-rned-] {+med+}
16 [-Munchen-] {+München+}
15 {+</b> <b>+}
12 [-eri-] {+en+}
12 [-*-]
11 [-ä-] {+à+}
10 [-rnin-] {+min+}
10 [-jäg-] {+jag+}
10 [-a-] {+à+}
10 [-'-]
9 [-ätt-] {+att+}
9 [-pä-] {+på+}
8 [-rnå-] {+må+}
7 {+* <b>+}
7 [-fastade-] {+fästade+}
7 [-dä-] {+då+}
7 [-G-] {+C+}
7 [-,-]
6 {+<b>+}
6 [-mön-] {+mon+}
6 [-Wurtemberg-] {+Würtemberg+}
5 [-å-] {+à+}
5 [-upp--]
5 [-och.-] {+och+}
5 [-for-] {+för+}
5 [-alt-] {+att+}
5 [-Goswig-] {+Coswig+}
5 [-Gassel-] {+Cassel+}
5 [-Biilow-] {+Bülow+}
5 [---]
Also among the changes that only occur once, patterns are to be seen,
e.g., the removal of page numbers:
1 [-175-]
1 [-174-]
the editing of numbers and fractals:
1 [-2J/2-] {+2 1/2+}
1 [-2:rie-] {+2:ne+}
and the removal of "OCR dirt", small dots that shouldn't be there:
1 [-.kärft-] {+kärft+}
1 [-.kryssning-] {+kryssning+}
1 [-.komminister-] {+komminister+}
1 [-.klass-] {+klass+}
1 [-.intellektuel-] {+intellektuel+}
1 [-.inqvartering-] {+inqvartering+}
1 [-.idéen-] {+idéen+}
1 [-.han-] {+han+}
1 [-.hafva-] {+hafva+}
1 [-.gjort-] {+gjort+}
Sometimes when the OCR software doesn't find a word in its dictionary,
it tries to split it into two recognized words, which the proofreader
than has to join:
1 [-artilleri vetenskapen-] {+artillerivetenskapen+}
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg - free Nordic literature - http://runeberg.org/
Project Runeberg,
To get an idea of how many volumes and pages a work contains and how
many of those are proofread, you will now find the colorful "proof
bars" (proofreading status bar graphs) next to the table of contents
of each work. You can now click on these bars to jump directly to
individual pages, where you can take up proofreading. For example,
for the work "strindbg" (Samlade skrifter av August Strindberg), go to
http://runeberg.org/strindbg/ and scroll to the end of that page.
Immediately above the proof bars is the heading "Korrstaplar / Proof
bars" that you can click to read an explanation of the colors. This
explanation is available in English and Swedish, and it's on our wiki
where you can help to improve it.
During April 2004, a total of 5979 proofreading contributions (edits)
were received from 70 identified volunteers. The following volunteers
were the most active:
Edits Signature
----- ---------
1455 agneta (+ ag)
1082 Steen.Roennow
766 lars
570 fh
533 fm
331 bernhard.johanson
160 anders.thapper
78 maggieandersson
77 hartwig.alpers
60 bernhard
50 jens.christian.berlin
43 teresia_fredriksson
40 bertil.ohrman
26 john.munkholm
24 olleolleolle
23 esoj
17 robro2
15 unicorn
15 orsval
13 peter9
Edits were made to 5266 different pages in 129 different works.
Most edits were made to the following works:
Edits Work Title
----- -------- -----
1148 dbl Dansk biografisk Lexikon
790 strindbg Samlade skrifter av August Strindberg
684 snoildik Samlade dikter
423 nf Nordisk familjebok
402 sbh Svenskt biografiskt handlexikon
393 sqvinnor Anteckningar om svenska qvinnor
255 garibald Giuseppe Garibaldi
231 tiphyche Tidsskrift for Physik og Chemi
140 svekon19 Svensk konst och svenska konstnärer i nittonde...
124 liwing Dawid Liwingstone, hans person och missionsverksamhet
115 famijour Svenska Familj-Journalen
114 hvar8dag Hvar 8 dag
98 krigsaga Krigets tekniska sagor för stora och små
87 runeberg Samlade skrifter
79 bjorfort Bjørnstjerne Bjørnsons Fortællinger
75 akrell Minnen från Carl XIV:s, Oscar I:s och Carl XV:s dagar
59 vintgron Vintergrønt
58 frostmo Barnen ifrån Frostmofjället
51 pht Personhistorisk tidskrift
50 salmonsen Salmonsens konversationsleksikon
43 bremlett America of the Fifties: Letters of Fredrika Bremer
35 svfldagb En svensk flickas dagbok under krigsfångenskap...
34 norge80 Norge. Uddrag af ældre og nyere Forfatteres Skrifter
32 svetym Svensk etymologisk ordbok
31 havebrug Nordisk illustreret Havebrugsleksikon
--
Lars Aronsson (lars(a)aronsson.se)
Classic Nordic Literature online since 1992 - http://runeberg.org/