Projekt Runeberg,
[ENGLISH SUMMARY: How should we build a better website for
large size newspapers? Is it possible to link to a position
in a large image? Which websites have solved this problem?]
Hur borde Projekt Runebergs webbplats se ut, om den var full av
dagstidningar?
Vi har redan idag första numret av Aftonbladet och Östgöta Correspondenten,
men dessa är rätt små till formatet. En större drake är Sundsvalls tidning.
http://runeberg.org/ab/http://runeberg.org/corren/http://runeberg.org/sundtidn/
Om man länkar till en sida i Sundsvalls Tidning, så har man sex spalter att
leta i, innan man hittar den artikel eller annons som man ville länka till.
Låt mig ge ett exempel på problemet:
Hitta artikeln "Häftig snöstorm i Newyork" på den här sidan,
http://runeberg.org/sundtidn/1888/0143.html
Det går inte helt fort att hitta. Artikeln finns i spalt 4, nedanför
Stanley-expeditionen, Ryske tronföljaren och Sur mjölk.
I en vanlig webbsida (HTML) kan man sätta in "ankare" och länka till dem
med # i URLen. Men hur gör man för att länka till en viss position i
en stor bild? Finns det några bra lösningar för detta? Några förebilder?
Kort sagt: Finns det några webbsajter med inscannade dagstidningar, som
har lyckats lösa detta på ett bra sätt?
Detta utgör inget problem i vanliga böcker och tidskrifter, i små tidningar,
eller ens i uppslagsverk i två spalter (där artiklarna ändå står
alfabetiskt).
Det är när man kommer till dagstidningar i stort format med 6 eller 8
spalter
som problemet ger sig till känna.
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
Projekt Runeberg,
[This software development challenge is presented
in Swedish only.]
Några gamla inscannade årgångar av "Vem är det" är en märklig
erfarenhet att läsa och korrekturläsa. Utgivaren har gjort ett
tappert försök att klämma in cirka 5000 biografier på 1000
sidor och lösningen är en extrem användning av förkortningar.
Ett exempel: KTH 16, tekn. dr 30, res:off. 11,
bitr. ing. i V. o. V:styr. 16, ing. v. SKF fr. 17,
ch. f. tekn. avd. där fr. 37.
Detta uttyds: Examen från Kungliga Tekniska Högskolan 1916,
teknologie doktor 1930, reservofficer 1911, biträndande
ingenjör i Väg- och vattenbyggnadsstyrelsen 1916,
ingenjör vid Svenska Kullagerfabriken från 1917,
chef för tekniska avdelningen där från 1937.
Detta skapar flera problem: OCR-programmet bygger på ordlistor,
men de här förkortningarna finns inte i ordlistan och därför
är det en stor andel OCR-fel, som kräver mycket korrekturläsning.
När väl OCR-texten är korrekturläst, är resultatet ändå en
samling kryptiska förkortningar, som är svår för läsaren att
begripa och omöjlig för sökmotorerna att indexera. Det är ju
ingen som söker på "hhövd i Hbg", utan man vill kunna söka på
"häradshövding i Helsingborg".
Jag tror att lösningen är att "skriva rent" de biografiska
upplysningarna i klartext (som jag gjorde ovan) och göra dem
till artiklar i Wikipedia.
Men kanske kan man automatisera den här uttydningen?
Den programmerare som vill ha lite julpyssel kanske kan
försöka skriva ett program för att göra översättningen?
Enklast är väl att skriva ett program som arbetar på den
korrekturlästa texten (som i exemplet ovan). Men kanske
går det också att bearbeta OCR-texten före korrekturläsning?
Vi har flera titlar och årgångar att bjuda på, som alla bjuder
på variationer i förkortningarna, men grundproblemet är detsamma:
svenska,
http://runeberg.org/vemardet/http://runeberg.org/vemarvem/http://runeberg.org/vemindu/
norska,
http://runeberg.org/hvemerhvem/http://runeberg.org/merkbio/
danska,
http://runeberg.org/blaabog/
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
Projekt Runeberg,
ENGLISH: So, our server is now running Ubuntu Linux 9.10
and most things seem to have gone fine. We're still not
sure about everything. We had some more interruptions.
If you read Wired magazine, you'll find a description of
a home-made book scanner built from two cheap digital
cameras. It would be interesting to know if any of you
have tried to build something similar?
http://www.wired.com/gadgetlab/2009/12/diy-book-scanner/
SVENSKA: Vår server är nu uppgraderad till Ubuntu Linux 9.10
och det mesta verkar ha gått fint. Men det har varit lite
skakigt så allt är kanske inte på plats än.
Om ni läser amerikanska datortidningen Wired, så hittar
ni en beskrivning av hur man kan bygga en bokscanner av
två billiga digitalkameror. Det vore intressant att höra
om någon av er försökt att göra något liknande?
http://www.wired.com/gadgetlab/2009/12/diy-book-scanner/
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg - free Nordic literature - http://runeberg.org/
Projekt Runeberg,
ENGLISH: Our web server has been running without
interruption for more than 200 days, and we need
to upgrade the operating system. This will cause
a (hopefully short) interruption in availability
this Sunday evening and/or Monday morning, local
Swedish time.
SVENSKA: Vår webbserver har utan avbrott varit i
gång under 200 dygn. Nu behöver operativsystemet
uppgraderas och detta innebär ett (som vi hoppas
kort) driftavbrott nu på söndag kväll och måndag
morgon, lokal svensk tid.
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg - free Nordic literature - http://runeberg.org/
Projekt Runeberg,
[This is about a Swedish government proposal for archiving
of web content for future research. You might say that the
Internet Archive already does this, and unfortunately the
new proposal adds very little to that.]
Idag överlämnade utredaren Sören Öman den mycket efterlängtade
"e-pliktutredningen" till regeringen. Det är dokumentet Ds
2009:61, "Leveransplikt för elektroniska dokument", 219 sidor,
http://www.regeringen.se/sb/d/11355/a/135473
Jag har bara läst inledningen än, men det framgår att det här
förslaget är alldeles otillräckligt. Det är för lite och för sent.
Att tillsätta en utredning, som sedan åstadkommer för lite, är
detsamma som att göra ingenting och att smita ifrån ansvaret. Den
anklagelsen kan man rikta både till Kungliga biblioteket, som har
väntat i tio år på den här utredningen, och på såväl den förra som
den nuvarande regeringen.
Det skulle vara bra om några av er har tid att läsa utredningen
och komma med konkreta synpunkter på vad som borde stå i ett
remissvar.
Följande är mina reflektioner, som en bakgrund.
Projekt Runeberg bygger på insikten att framtidens redskap för
informations- och kunskapsinhämtning heter Internet. För att vårt
äldre pappersbundna kulturarv ska bli tillgängligt, måste det
digitaliseras och presenteras på nätet.
Men för att vårt nuvarande och framtida digitala kulturarv ska
fortsätta att finnas tillgängligt måste också arkiveringen lösas.
Denna insikt fanns fullt färdig för mer än tio år sedan. Den
ideella amerikanska organistionen Internet Archive var först ut.
Det svenska Kungliga biblioteket byggde en också prototyp kallad
Kulturarw3, där w3 står för WWW, alltså webben. Den svenska
prototypen var aldrig särskilt bra, men den markerade ändå att
frågan togs på allvar. Frans Lettenström, som byggde prototypen,
lämnade KB 1999. Sedan dess har den kört vidare, dock utan att
vidareutvecklas. KB:s ledning har skjutit all vidare utveckling på
framtiden med hänvisning till att "e-pliktutredningen" ska lämna
förslag till juridiskt ramverk för verksamheten.
Så vitt jag vet, blev ingen sådan utredning gjord under Göran
Perssons regering. Den nuvarande alliansregeringen gav i februari
2009 uppdraget till juristen Sören Öman, som nu har redovisat sina
slutsatser.
Under tiden har alltså ett årtionde gått. Gamla webbportaler från
dotcom-eran har gått under. Nya e-handelsplatser och bloggar har
vuxit fram, liksom Lunarstorm, Facebook och uppslagsverket
Wikipedia. Det har inte varit tio händelselösa år, men om något av
detta blir bevarat för framtiden är högst osäkert. Och vad som
blir bevarat beror inte på svensk grundlighet, offentlig
förvaltning och insyn, utan på amerikanska idealister.
En rimlig slutsats vore att svenska skattepengar åtminstone borde
understödja dessa amerikanska idealister, om det nu är de som ska
göra jobbet åt oss. Men svenska skattebetalare hade nog väntat sig
att deras egna myndigheter skulle klara att utföra uppgiften.
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
När Projekt Runeberg började 1992, kunde vi bara hantera text, som
skrevs in från tangetbord. Karin Boyes dikter, Fänrik Ståls sägner
och Bibeln är inknappade, inte inscannade. 1998 tillkom bilder av
inscannade boksidor, alltså den metod vi använder idag. Bilderna
var nödvändiga för att kunna korrekturläsa alla OCR-fel, men också
på gränsen till det möjliga eftersom varje bild tar 50-200
kilobyte (textfilen tar en hundradel av utrymmet) och mer än så
ville man inte ladda i en enskild webbsida på den tid många
använde modem.
Inspelad musik och film har vi hittills inte sysslat med, dels
eftersom det finns mycket mer böcker som passerat 70-årsgränsen,
dels för att musik och film tar mycket större utrymme att lagra
och därför längre tid att överföra. Det har varken varit praktiskt
eller juridiskt hanterbart. Men tiden går. Idag kan vi räkna med
att många har bredband och kraftfulla datorer. Och för varje år
som går, hinner fler verk passera 70-årsgränsen.
Idag 2009 kan vi lagligen scanna böcker av författare som dog 1938
och tidigare. Vid årsskiftet tillkommer de som gick bort 1939.
Men hur ser upphovsrätten ut för grammofonskivor? För kompositörer
gäller väl att de måste ha varit döda i 70 år, men har musikerna
lika lång skyddstid? Finns det musik som är fri från upphovsrätt
och som vi borde hjälpa till att göra tillgänglig? Hur mycket
växer en sådan lista vid varje årsskifte? Vilken musik är skyddad
2009 men blir fri 2010?
Frågan kanske känns förlegad, nu när klipp ur Åsa Nisse-filmer
från 1960-talet går att se på Youtube och musik piratkopieras vilt
på The Pirate Bay. Men jag är ändå nyfiken på vad som går att göra
inom lagens ramar.
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
Jag brukar scanna bilderna separat och klipa ut dem. De skall namnges
xxXx_1.jpg där xxxx ör löpnummer för inscannad sida.
I mitt fall har jag en canon lide90 som har et inscanningsläge enhanced
text.
Bilderna skall scannas in beroende på hu re ser ut. Jag kör text i 600
dpi, det blir lättläst för OCR-programmet.
Bilder kör jag i 300 DPI.
Torbjörn Alm
> Today's Topics:
>
> 1. Re: Om bilder (Karl H?kansson)
>
>
> ------------------------------------------------------------------------
>
> Ämne:
> Re: [Runeberg] Om bilder
> Från:
> Karl Håkansson <kalle(a)jomenvisst.de>
> Datum:
> Wed, 09 Sep 2009 20:54:40 +0200
> Till:
> M Wedin <wedinm(a)gmail.com>, runeberg(a)lists.lysator.liu.se
>
> Till:
> M Wedin <wedinm(a)gmail.com>, runeberg(a)lists.lysator.liu.se
>
>
>
> Normalt så skannas bilderna separat efter att boken har skannats
> men det är lätt hänt att bilderna skippas då det är en massa jobb
> att skanna och sitta och klippa ut bilderna bild för bild.
>
> Hur det ligger till för detta verk har jag ingen aning om.
>
> //Kalle
>
> At 21:20 2009-09-06, M Wedin wrote:
>> jag har nu korrekturläst två sidor ur Hjalmar Öhrvalls Om knutar.
>> http://runeberg.org/knutar/0142.html
>>
>> (Jag önskar definitivt inte livet ur någon i förtid, men jag kan
>> knappt bärga mig tills Clifford Ashley's Book of knots blir
>> tillgänglig ...)
>>
>> Det kan jag bidra med emellanåt. Men verket har illustrationer. När
>> jag läser om hur bilder behandlas, så omnämns endast bildtexten. I
>> mitt bidrag har bildtexten inte ingått i OCR-texten och jag har helt
>> sonika hoppat över den (så länge).
>>
>> Men bilderna då? Ska även de infogas på något sätt? Utan bilderna är
>> ju bildtexterna meningslösa, och i somliga fall även huvudtexten.
>>
>> Skulle de i så fall klippas ur faksimilavbildningen, på annat sätt
>> digitaliseras eller rent av vektoriseras?
>>
>> Wedin
>> _______________________________________________
>> Runeberg mailing list
>> Runeberg(a)lists.lysator.liu.se
>> http://lists.lysator.liu.se/mailman/listinfo/runeberg
>
>
>
> ------------------------------------------------------------------------
>
> _______________________________________________
> Runeberg mailing list
> Runeberg(a)lists.lysator.liu.se
> http://lists.lysator.liu.se/mailman/listinfo/runeberg
>
Projekt Runeberg,
[This is about the Gothenburg book fair.]
Den 24-27 september äger årets Bok & Biblioteksmässa rum i
Göteborg. Projekt Runeberg har ingen egen närvaro där, men det
har en förening som heter Wikimedia Sverige. Det är alltså den
svenska stödföreningen för Wikipedia, den fria encyklopedin.
Eftersom vi har mycket gemensamt (fri kunskap) och jag sitter i
styrelsen för denna förening, tänkte jag att även Projekt Runeberg
kan åka lite snålskjuts på deras monter.
Är det någon Projekt Runeberg-medhjälpare som tänker besöka
bokmässan? Kan du tänka dig att hjälpa till en stund i montern
och berätta om Projekt Runeberg? I år kommer jag bara att vara
där på torsdagen, men skriv till mig så ordnar vi kontakten.
Wikimedia Sveriges monter är minsta möjliga, 4 kvadratmeter, och
finns på plats E00:11, längs en vägg i hall E. Här är lite
information och man ser faktiskt mig till vänster i den nedre
bilden, i vita tröjan,
http://se.wikimedia.org/wiki/Bok_och_Biblioteksm%C3%A4ssan_2009
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
Wikimedia Sverige - stöd fri kunskap - http://wikimedia.se/
Normalt så skannas bilderna separat efter att boken har skannats
men det är lätt hänt att bilderna skippas då det är en massa jobb
att skanna och sitta och klippa ut bilderna bild för bild.
Hur det ligger till för detta verk har jag ingen aning om.
//Kalle
At 21:20 2009-09-06, M Wedin wrote:
>jag har nu korrekturläst två sidor ur Hjalmar Öhrvalls Om knutar.
>http://runeberg.org/knutar/0142.html
>
>(Jag önskar definitivt inte livet ur någon i förtid, men jag kan
>knappt bärga mig tills Clifford Ashley's Book of knots blir
>tillgänglig ...)
>
>Det kan jag bidra med emellanåt. Men verket har illustrationer. När
>jag läser om hur bilder behandlas, så omnämns endast bildtexten. I
>mitt bidrag har bildtexten inte ingått i OCR-texten och jag har helt
>sonika hoppat över den (så länge).
>
>Men bilderna då? Ska även de infogas på något sätt? Utan bilderna är
>ju bildtexterna meningslösa, och i somliga fall även huvudtexten.
>
>Skulle de i så fall klippas ur faksimilavbildningen, på annat sätt
>digitaliseras eller rent av vektoriseras?
>
>Wedin
>_______________________________________________
>Runeberg mailing list
>Runeberg(a)lists.lysator.liu.se
>http://lists.lysator.liu.se/mailman/listinfo/runeberg
jag har nu korrekturläst två sidor ur Hjalmar Öhrvalls Om knutar.
http://runeberg.org/knutar/0142.html
(Jag önskar definitivt inte livet ur någon i förtid, men jag kan
knappt bärga mig tills Clifford Ashley's Book of knots blir
tillgänglig ...)
Det kan jag bidra med emellanåt. Men verket har illustrationer. När
jag läser om hur bilder behandlas, så omnämns endast bildtexten. I
mitt bidrag har bildtexten inte ingått i OCR-texten och jag har helt
sonika hoppat över den (så länge).
Men bilderna då? Ska även de infogas på något sätt? Utan bilderna är
ju bildtexterna meningslösa, och i somliga fall även huvudtexten.
Skulle de i så fall klippas ur faksimilavbildningen, på annat sätt
digitaliseras eller rent av vektoriseras?
Wedin