On 15-Jan-05, Hans Persson <unicorn(a)lysator.liu.se> wrote:
> På <URL:http://runeberg.org/upload.pl?mode=ocrlist> finns en lista över
> de verk vi har som idag saknar OCR-texter. På sidan finns länkar där
> man
> kan ladda hem alla bilderna till ett verk och andra länkar man kan
> använda för att ladda upp OCR-filer för ett verk. Notera att man
> behöver
> bredband för att ladda hem bildfilerna, för det är ganska stora filer
> det handlar om. Det har också tillkommit en länk "(download)" i
> sidfoten
> för alla sidor inom ett verk, och via den kan man också hitta
> motsvarande länkar.
>
> Nu kan vi i redaktionen förhoppningsvis låta er andra sköta en del av
> OCR-jobbet, och själva scanna ännu fler nya verk eller skriva nya
> funktioner.
One possible problem which this procedure does not address, I think, is
what in a database is sometimes called the updating anomaly. Suppose
Jörg Vetenskaper and Frederik Pedant both happen to download the same
text for OCR conversion, and therefore duplicate the work. It may seem
unlikely, but if unnecessary duplication of effort can be avoided, it
would be best to do so.
Is it possible to add a mechanism to the
<http://runeberg.org/upload.pl?mode=ocrlist> page that records which
files have been "checked out" for OCR conversion, so that no one else
will download the same work unnecessarily?
Another point might be to somehow record the name and email address of
the person who downloads a ZIP file of images, and then have a method
to automatically send that person a friendly email periodically, say
every fortnight, requesting a progress report, until such time as the
corresponding OCR files are eventually uploaded.
Maybe it's a bit of trouble, but I think that, if I had the appropriate
OCR software to do this sort of work, I would be reluctant to undertake
it, knowing that another person was doing the same scan conversion at
the same time.
Best regards to the directors and to all the wonderful volunteers with
Project Runeberg.
Erik Bjørn Pedersen
Victoria, BC, Canada
Hej Runebergare,
Vi i redaktionen har märkt att ett bra sätt att få så mycket arbete som
möjligt gjort inom Projekt Runeberg är att vara lat och se till att
någon annan gör arbetet. ;-) Från början gjordes all korrekturläsning av
redaktionen, och det gick långsamt. Senare kunde andra hjälpa till med
jobbet, och skicka felrapporter till redaktionen som i sinom tid tog
hand om dem manuellt. Det gick fortare, men bara lite. Sedan ett bra tag
nu kan vem som helst korrekturläsa via webben utan att redaktionen är
inblandad alls, och så mycket korrekturläsning som nu har aldrig
tidigare gjorts.
Det är jättebra, för då kan redaktionen ägna sig åt något annat, som att
scanna in nya verk. Innan ni där ute kan korrekturläsa ett nytt verk
måste det emellertid köras OCR, dvs automatisk texttolkning, så att
sidbilderna konverteras till text. Detta kan också vara en flaskhals,
och vi har idag några verk publicerade som saknar OCR-text.
Nu provar vi en ny metod att råda bot på denna brist. Det finns nu en ny
funktion införd på prov. Vem som helst kan ladda ner alla bildfilerna
för ett verk som en zip-fil (det har gått ett tag, men inte varit länkat
någonstans). Sedan kan man i godan ro köra OCR hemma, om man råkar ha
ett OCR-program. När man är klar med det packar man ihop alla
OCR-filerna i en zip-fil och laddar upp dem till oss, så kommer de att
packas upp och visas på webbsidorna, så att de går att korrekturläsa.
På <URL:http://runeberg.org/upload.pl?mode=ocrlist> finns en lista över
de verk vi har som idag saknar OCR-texter. På sidan finns länkar där man
kan ladda hem alla bilderna till ett verk och andra länkar man kan
använda för att ladda upp OCR-filer för ett verk. Notera att man behöver
bredband för att ladda hem bildfilerna, för det är ganska stora filer
det handlar om. Det har också tillkommit en länk "(download)" i sidfoten
för alla sidor inom ett verk, och via den kan man också hitta
motsvarande länkar.
Nu kan vi i redaktionen förhoppningsvis låta er andra sköta en del av
OCR-jobbet, och själva scanna ännu fler nya verk eller skriva nya
funktioner.
Hans
--
+---------------------------------------------------------------------+
| Hans Persson http://www.lysator.liu.se/~unicorn/ |
| unicorn(a)lysator.liu.se http://www.lysator.liu.se/runeberg/ |
+---------------------------------------------------------------------+
Hej Runebergare,
Nu är det ett nytt år, och naturligtvis hoppas vi i Projekt Runeberg att
vi ska kunna fortsätta att öka publiceringstakten. Hittills har det mest
varit vi i redaktionen som scannat in nya verk, och sedan alla ni andra
som korrekturläst och så.
Om ni har tillgång till en scanner hemma så går det faktiskt bra att ni
själva scannar in en bok åt Projekt Runeberg, istället för att vänta på
att vi gör det. På det sättet kan ni även påverka vad vi publicerar,
istället för att bara vänta och se vad vi i redaktionen scannar nästa
gång.
Om du är intresserad av att hjälpa till att scanna in nya verk, läs på
http://runeberg.org/wiki/Scanning hur man gör. Om du bestämmer dig för
att scanna in något så tala gärna om det för redaktionen, så har vi
möjlighet att varna om någon annan skulle få för sig att jobba med samma
verk. Inte för att risken att flera personer skulle få för sig att jobba
med samma verk är speciellt stor, men det vore ju trist att scanna en
hel bok och sedan upptäcka att någon annan redan gjort det. Bättre att
vara först!
När hela boken är scannat är det bara att skicka den till oss så ser vi
till att den kommer ut på nätet.
Gott nytt Runeberg-år!
Hans
--
+---------------------------------------------------------------------+
| Hans Persson http://www.lysator.liu.se/~unicorn/ |
| unicorn(a)lysator.liu.se http://www.lysator.liu.se/runeberg/ |
+---------------------------------------------------------------------+