Projekt Runeberg,
[summary in English below]
Under året, som nu närmar sig sitt slut, har det inte varit så
många utskick på den här listan. Även inscanningen av nya böcker
har tidvis rört sig långsamt. Det är bara korrekturläsningen som
fortsätter varje dag, vecka och månad, utan avbrott.
I tidslinjen som sammanfattar vår historik,
http://runeberg.org/admin/timeline.html
finns en tabell över varje års aktivitet, med länk till en graf
för varje år.
För 2011,http://runeberg.org/admin/klart-2011.svg
syns att året hade en lugn inledning med 10.000
boksidor (en halv hyllmeter) inscannade januari-maj
och nästan lika många korrekturlästa. Men sedan tog indexering
(röda kurvan) fart och har nu nått 90.000 sidor. Även
inscanning (blå och gula) har nått cirka 60.000 sidor (tre
hyllmeter) sedan årets början. Korrekturläsningen har fortsatt
i samma takt och har snart nått 20.000 sidor (en hel hyllmeter)
under året.Det är ett bra år för oss.
Mycket av det som har scannats in är fler årgångar av "Vem är det"
och fler ordböcker från 1900-talet, där jag har gjort bedömningen
att de enbart skyddas av 15 års katalogskydd men inte utgör
litterära verk. Detta är en gråzon i upphovsrätten, där ingen
kan ge klart besked om vad som är fritt och vad som skyddas. Då
måste man fråga sig: Vad är en god gärning? Att scanna eller att
låta bli av feghet? Skulle Olof Östergren ha blivit ledsen eller
glad över att "Våra vanligaste främmande ord" (en av Verdandis
småskrifter) finns på nätet? Skulle han skicka blommor eller
skulle han ha börjat leta efter lagparagrafer för att kunna
stämma oss? Ingen vet, men jag gissar på blommorna.
Man kan förstås undra om någon orkar korrekturläsa en hel
ordbok. Jag visste inte det när jag 2004 scannade in Cavallins
Svensk-latinska ordbok i två band från 1875. Men sex år senare
anmälde sig en användare som på egen hand hade korrekturläst
hela texten, över 900 sidor. Och då ska man veta att de
svenska orden är satta i fraktur och de latinska i antikva.
Så om fem eller tio år får vi se. Man får inte ha kort tålamod.
Ni som varit med ett tag, minns att vi förr om åren brukade
skylta med julsånger och jultexter under december. Men hur
ska vi förvalta den traditionen om våra nytillskott mest
består av torrt sakliga ordböcker? Finns det någon fin bok
eller tidning med jultema och illustrerationer i färg?
== Summary in English ==
2011 has been a good year for Project Runeberg with 60,000
new book pages in facsimile (3 metres of shelving), 90,000
pages indexed and 20,000 pages proofread. Many of the new
additions are dictionaries and other reference works. So
what should we display as our Christmas decoration? Do we
have any suggestions?
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg - free Nordic literature - http://runeberg.org/
Project Runeberg,
This is also on our front page, http://runeberg.org/
An important milestone in the digitization of Danish literature
was reached on Friday October 7, 2011, with the proofreading and
indexing of the last pages of the classic Danish encyclopedia
Salmonsens konversationsleksikon (2nd edition, 26 volumes, 1915-1930),
http://runeberg.org/salmonsen/2/
The digitization comprises 27,152 book pages and was started in
January 2004. The volumes were scanned and OCRed by Lars
Aronsson (volumes 1-8 and 26, in 2004-2005) and Joakim
Ragnvaldsson (volumes 9-25, in 2008). Dozens of volunteers helped
to proofread and index the pages in 43,107 edits, of which
7,553 (17.5%) were anonymous and 34,696 (80.5%) contributed by
the four most active volunteers: Pultz (24,520 edits), PH (5289),
Steen (2496), and Finn (2391). The index lists 159,123 articles,
each linked to the right page. For example, the article on Danish
town Kolding starts on page 300, volume XIV,
http://runeberg.org/salmonsen/2/14/0324.html
As can be seen from the "history" link there, this particular
page was scanned on April 14, 2008, and proofread on December 25,
2010, http://runeberg.org/rc.pl?action=history&src=salmonsen/2/14/0324
correcting several OCR errors, as seen from the difference
between versions,
http://runeberg.org/rc.pl?action=diff&src=salmonsen%2F2%2F14%2F0324&rev2=2&…
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg - free Nordic literature - http://runeberg.org/
Project Runeberg,
This is a sad morning, when we learned that Michael Hart, founder
of Project Gutenberg, has passed away on September 6, 2011.
http://www.gutenberg.org/wiki/Michael_S._Harthttp://en.wikipedia.org/wiki/Michael_S._Hart
His work was my main inspiration in 1992 when I started Project
Runeberg, sometimes called the first international spin-off from
his project. I regret that I have never met him in person.
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg - free Nordic literature - http://runeberg.org/
Thank you.
-----Original Message-----
From: runeberg-bounces(a)lists.lysator.liu.se
[mailto:runeberg-bounces@lists.lysator.liu.se] On Behalf Of
runeberg-request(a)lists.lysator.liu.se
Sent: Sunday, February 13, 2011 3:00 AM
To: runeberg(a)lists.lysator.liu.se
Subject: Runeberg Digest, Vol 48, Issue 2
Send Runeberg mailing list submissions to
runeberg(a)lists.lysator.liu.se
To subscribe or unsubscribe via the World Wide Web, visit
http://lists.lysator.liu.se/mailman/listinfo/runeberg
or, via email, send a message with subject or body 'help' to
runeberg-request(a)lists.lysator.liu.se
You can reach the person managing the list at
runeberg-owner(a)lists.lysator.liu.se
When replying, please edit your Subject line so it is more specific
than "Re: Contents of Runeberg digest..."
Today's Topics:
1. Send Runeberg mailing list submissions to (Morten Fjeldsaunet)
----------------------------------------------------------------------
Message: 1
Date: Sat, 12 Feb 2011 12:10:43 +0100
From: Morten Fjeldsaunet <mofjelds(a)gmail.com>
Subject: [Runeberg] Send Runeberg mailing list submissions to
To: runeberg(a)lists.lysator.liu.se
Message-ID:
<AANLkTi=7xjRcZYSEOUKhDm+ta84DKgg=m5OKqq2nVW_C(a)mail.gmail.com>
Content-Type: text/plain; charset="iso-8859-1"
Projekt Runeberg,
[summary in English below]
Umeå universitetsbibliotek tillkännagav idag att de börjar
scanna böcker "på begäran" mot en viss avgift. De har redan
ett digitaliseringsprojekt, där de digitaliserar böcker, men
om man vill smita före i kön och få en viss bok digitaliserad
redan nu, så kan man betala för den förmånen. Man kan
klicka in sin beställning direkt i bibliotekskatalogen. Det
verkar som om deras pris är 100 kronor per bok plus
1:50 kr per sida. En bok om 360 sidor kostar 640 kronor.
Detta erbjudande är kanske inte så användbart, men det är
intressant ur en aspekt: Det sätter en prislapp på inscanning.
Om man skulle vilja åstadkomma Projekt Runebergs samling
(1735 böcker, 609.150 sidor) på begäran, så går det nu att
beräkna kostnaden för detta. Den blir 1,09 miljoner kronor.
Då talar vi alltså enbart om inscanning, inte om den stora
arbetsmängden i Projekt Runeberg: korrekturläsningen.
Så jag vill rikta en miljon tack till alla medarbetare!
Det är ni nämligen värda, med råge.
Pressmeddelandet från Umeå universitet,
http://www.umu.se/om-universitetet/aktuellt/nyheter/nyhetsvisning/umea-univ…
P.S. Om ni besöker Bokmässan i Göteborg nu i helgen, så hälsa på i
monter E00:11, där jag står med föreningen Wikimedia Sverige.
== Summary in English ==
Umeå university library announced today that they are joining
the international "E-books on demand" project. If you want a
digital copy of one of their out-of-copyright books, you can
order this directly from their online library catalog and pay a
fee that amounts to roughly 100 SEK pr book + 1.50 pr page
(US$ 15/book + 0.20/page).
If Project Runeberg's 1735 books with 609,150 pages were scanned
this way, that would have cost 1.09 million SEK or US$ 160,000.
Then again, the lion share of our worth is in proofreading.
And having done this since 1992: priceless.
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
Projekt Runeberg,
[summary in English below]
Möjligheten att direkt uppdatera Articles.lst, alltså en boks
innehållsförteckning, har stängts av.
Det är en rätt avancerad funktion som används av ett fåtal
personer. Tyvärr missbrukas den också av spammare och det
saknas funktioner för klottersanering och blockering.
Det betyder att all vandalisering måste återställas manuellt
av oss i redaktionen och den extra arbetsbelastningen har
vi inte kapacitet för.
Våra funktioner för korrekturläsning var rätt avancerade
när de skapades åren 2000-2007. När man idag (2010) jämför
dem med vad som finns inom Wikipedia så bleknar intrycket.
För att vara användbara måste funktionerna vara mer robusta
och genomtänkta än de är idag. Någon gång i framtiden kanske
vi får tid och resurser att ägna oss åt detta.
ENGLISH SUMMARY:
The ability to directly update the file Article.lst, i.e.
the table of contents of a book, has been disabled.
This is an advanced feature that a few contributors use.
However, it is also abused by spammers and it lacks
mechanisms to control and revert vandalism. The manual
work needed to clean up this spam is more than we can
or want to handle.
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg - free Nordic literature - http://runeberg.org/
On 24-Feb-10, Lars Aronsson wrote:
>
> [ENGLISH SUMMARY: How should we build a better website for
> large size newspapers? Is it possible to link to a position
> in a large image? Which websites have solved this problem?]
>
> Om man länkar till en sida i Sundsvalls Tidning, så har man sex
> spalter att
> leta i, innan man hittar den artikel eller annons som man ville
> länka till.
> Lät mig ge ett exempel på problemet:
>
> Hitta artikeln "Häftig snöstorm i Newyork" på den här sidan,
> http://runeberg.org/sundtidn/1888/0143.html
>
> Det går inte helt fort att hitta. Artikeln finns i spalt 4, nedanför
> Stanley-expeditionen, Ryske tronföljaren och Sur mjölk.
>
> I en vanlig webbsida (HTML) kan man sätta in "ankare" och länka
> till dem
> med # i URLen. Men hur gör man för att länka till en viss position i
> en stor bild? Finns det några bra lösningar för detta? Några
> förebilder?
>
> Kort sagt: Finns det några webbsajter med inscannade dagstidningar,
> som
> har lyckats lösa detta pä ett bra sätt?
>
> Detta utgör inget problem i vanliga böcker och tidskrifter, i små
> tidningar....
> Det är når man kommer till dagstidningar i stort format med 6 eller 8
> spalter som problemet ger sig till könna.
Dear Lars,
[SVENSKA SAMMANFATTNING: Korrekturläsning af tidningens plakatsidor
utgör en särskild utmaning. Karakter-baserade PDF-filer kan innehålla
lokala lenker, men bildbaserade PDF-filer kan icke. Arbeta i en
textredigerare och Acrobat kan vara enklare än att använda Runebergs
gränssnittet.]
As an exercise, I proofread this page last night and uploaded the
result to the Runeberg project. I agree that it is not easy to deal
with such large pages. I simplified my task by copying the entire
page of OCR text into a text file which I enlarged to 16 point
Courier (so that I could easily tell the difference between capital
letter I, lowercase letter l and the numeral 1, for instance).
The image was, indeed, a very large file to look through. Other
Runeberg proofreaders may also try making a local copy of the page
scan (right-click on the Print/PDF button near the top left of
Runeberg's page) and viewing it from within Adobe Acrobat. This can
be helpful, especially with viewing the small type, since Acrobat
allows for much bigger enlargements than Runeberg's default maximum
of 200 percent.
I was pleased to see that the OCR text was arranged in logical order
as opposed to strict physical column order. That was definitely
helpful. Since some preprocessing of the OCR text must have been
necessary to achieve this, perhaps the scanning person could divide
up future page images into smaller chunks, each representing a
complete article or a group of ads and/or filler material. I think
this is how of copies of New York Times articles from the 1800s
appear when one does a Google search for them. (Unfortunately, it
seems that access to such archived PDF articles now requires a paid
subscription.)
The alternative might be to arbitrarily break up future page scans
(before OCR) into perhaps four smaller PDFs, representing the top and
bottom halves of three columns each. This has the advantage of making
the proofreading task more manageable (since each sub-page can be
completed in less time and with less demand on one's computer), but
also has two disadvantages. First, the text files resulting from sub-
page scans might not be complete articles, since it is possible for
an article to run the whole height of a column or to span the two
middle columns, and thereby not be complete on a single sub-page.
Secondly, there would need to be some overlap, at least in the top
and bottom sub-pages, which would result in a little bit of
duplicated effort as well as subsequent processing to combine the
scanned and proofread text from two or more sub-pages into a single
text file.
Other Runeberg proofreaders may also try making a local copy of the
page scan (right-click on the Print/PDF button near the top left of
Runeberg's page) and viewing it from within Adobe Acrobat. This can
be helpful, especially with viewing the small type, since Acrobat
allows much bigger enlargements than Runeberg's default maximum of
200 percent.
Using a page makeup program such as Adobe InDesign or Quark XPress,
one can produce a compact character-text-only PDF or a text-and-
imported-illustrations PDF that replicates the look of the original
scanned-image-only PDF. With a text-based PDF generated from such a
typographic page layout program, it is easy to incorporate any
desired links. However, I know of no way to link to particular areas
of a scanned bitmap-only PDF, which is really only a wrapper for a
downsampled TIFF or JPEG file produced by the scanner.
Proofreading broadsheet newspaper pages represents a special
challenge; it may be that the complexity of the task cannot be
readily eased. Good luck to those who volunteer to help.
Kind regards / Med venlig hilsen,
Erik Bjørn Pedersen