och en sista(?) fråga från mig:
Om versen fortsätter på nästa sidan, är det tillräckligt att sätta in
</poem> bara på nästa sidan (som <chapter></chapter>), eller vill ni ha båda
<poem></poem> på samma sida?
_________________________________________________________________
http://local.live.com/default.aspx?v=2&cp=43.658648~-79.383962&style=r&lvl=…
Jag märkte att "jr" (som är ju med på redaktionen) hade, i "esesaovi" (Elias
Sehlstedts Sagor och Visor") laggt till en <poem> tagg framför en liten
vers. Det står ju inget om <poem> i "Instruktioner för korrekturläsare", så
jag undrar om det är något nytt? Kanske något som ni tänker på för
framtiden?
Eller är taggarna som syns under korrekturrutan ännu de enda som man skall
använda?
Ingemar
_________________________________________________________________
Buy what you want when you want it on Sympatico / MSN Shopping
http://shopping.sympatico.msn.ca/content/shp/?ctId=2,ptnrid=176,ptnrdata=08…
Hans Persson <unicorn(a)lysator.liu.se> skrev:
> Taggen <poem> finns, men den är att betrakta som experimentell.
Utan att veta semantiken på något som är taggat <poem>, skulle
jag vilja föreslå något mindre specifikt. Ett poem är komplett
i någon bemärkelse ... så
<poem>
Härlig är döden, när modigt i främsta ledet du dignar,
dignar i kamp för ditt land, dör för din stad och ditt hem.
</poem>
är en mismatch -- det finns åtskilliga flera rader. Vers
(i specialbetydelsen rad i dikt) känns mer lämpligt,
och kan användas även utan att den som sätter taggarna detaljkollar
om hela dikten citeras eller endast en del av den.
Men det är ju endast om man vill att taggen skall vara begriplig
även utan följedokumentet där semantiken finns.
--
Anders Thulin ath*algonet.se http://www.algonet.se/~ath
Projekt Runeberg,
[summary in English at the end]
Ni som idag varit inne och korrekturläst texter, och tagit en titt
på sidan http://runeberg.org/famijour/1866/0249.html
har sett att det vid sidan av den korrekturlästa texten finns två
länkar ute i högerkanten, i små grå rutor. Den ena länken leder
till svenska Wikipedias artikel om Stockholms rådhus och den andra
länken leder till författarpresentationen för Wilhelmina Stålberg.
Det här är än så länge bara ett provskott, som vi gärna vill ha
kommentarer på. Jag återkommer till hur man gör.
När vi publicerar en hel bok, så anger vi ju författaren i
sidhuvudet på varje sida, med länk till presentationen. Till
exempel är Wilhelmina en av författarna till "Anteckningar om
svenska qvinnor", http://runeberg.org/sqvinnor/
Och rörande innehållet i en hel bok, kan vi brodera ut texten i
vårt "förord till den elektroniska utgåvan". Till exempel
berättar vi i vårt förord till Svenska Familj-Journalen om dess
förhållande till Nordisk familjebok, http://runeberg.org/famijour/
Men när det bara är en artikel i en tidskrift, så har vi hittills
inte haft något bra sätt att länka till författaren eller andra
intressanta webbsidor på samma ämne. Frågan är hur det borde
göras bäst, kanske som en del av <chapter>-markeringen. Men det
man vill markera är inte alltid bara författaren till ett helt
kapitel, utan det kan också vara en person eller ett ämne som
omnämns på ett enskilt ställe i en längre text.
Sättet som vi nu provar har sin direkta motsvarighet i Wikipedias
interwiki-länkar. I deras artikel om Stockholms rådhus finns en
länk till motsvarande artikel i engelska och tyska Wikipedia.
Dessa länkar placeras inte i själva artikeln, utan i menyn till
vänster under rubriken "andra språk",
http://sv.wikipedia.org/wiki/Stockholms_r%c3%a5dhus
I vårt fall vill vi också skilja länkarna från återgivningen av
själva texten. De ingår ju inte i den tryckta text vi vill
återge. Men samtidigt vill vi inte helt förlora sammanhanget
mellan länken och stället i texten som gör den relevant. Därför
har vi använt högermarginalen, där vi, åtminstone på min skärm,
har rätt så gott om utrymme.
Sättet som man skriver in länkarna följer helt mönstret från
Wikipedia. Om man vill hänvisa till svenska Wikipedia kan man i
den korrekturlästa texten skriva [[sv:Stockholms rådhus]].
Om det är en person man vill länka till, bör man i stället länka
till Projekt Runebergs egna författarpresentationer, Nordic
Authors, som i sin tur kan länka vidare till Wikipedia och andra
källor. I så fall letar man reda på rätt författarsida och
kopierar den del av sidans adress som identifierar författaren,
och skriver exempelvis [[authors:lagerlof]] för att hänvisa till
presentationen av Selma Lagerlöf.
För närvarande är det här en funktion under utveckling. Jag kan
inte garantera att den fungerar som den ska i alla lägen.
Eventuella tekniska problem går nog att lösa. En viktigare fråga
är om detta alls är en bra idé. Man kan exempelvis invända att
länken till Stockholms rådhus handlar om en helt annan byggnad än
den som beskrivs hos Projekt Runeberg. Enligt min åsikt beror
detta på att Wikipedias artikel är ofullständig och bara handlar
om det nuvarande rådhuset. Den artikeln borde utökas väsentligt.
Min uppmaning är att den som känner sig hugad ska prova den här
funktionen. Vad är en lämplig länk? Hur många länkar är det
rimligt att lägga in? En per sida eller fler eller färre? Vad är
bra och vad är dåligt? Prova, fundera, utvärdera och berätta!
== Summary in English ==
We're trying a new function. When you proofread the text from a
scanned book in Project Runeberg, you can now create links to our
author presentations and also to Wikipedia articles. I'm inviting
you all to try this and to give comments.
For example, in the page http://runeberg.org/scanbrit/0191.html
if you scroll down to the very bottom of the page, there is a grey
area in the right margin with a link to the English Wikipedia
article on Ethelfleda, next to the proofread OCR text about
Æthelflæd. This was caused during proofreading by inserting
[[en:Ethelfleda]]
just after the text "In the year 900 Æthelflæd". Those who are
regular contrubutors to Wikipedia, the free encyclopedia, will
recognize this as an interwiki link. The prefix "en:" is the
language of the Wikipedia. By instead specifying "authors:" as
the prefix, you can create links to Project Runeberg's own
presentations of Nordic Authors.
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
What is the purpose of this list? The lasts Issues about different subjects,
do they fall within the purpose of the Runeberg Digest list?
mvh Mats Eklöf
2007/2/11, runeberg-request(a)lists.lysator.liu.se <
runeberg-request(a)lists.lysator.liu.se>:
>
> Send Runeberg mailing list submissions to
> runeberg(a)lists.lysator.liu.se
>
> To subscribe or unsubscribe via the World Wide Web, visit
> http://lists.lysator.liu.se/mailman/listinfo/runeberg
> or, via email, send a message with subject or body 'help' to
> runeberg-request(a)lists.lysator.liu.se
>
> You can reach the person managing the list at
> runeberg-owner(a)lists.lysator.liu.se
>
> When replying, please edit your Subject line so it is more specific
> than "Re: Contents of Runeberg digest..."
>
>
> Today's Topics:
>
> 1. (no subject) (Carl-Olof B?rjeson)
>
>
> ----------------------------------------------------------------------
>
> Message: 1
> Date: Sat, 10 Feb 2007 14:02:25 +0100
> From: Carl-Olof B?rjeson <cob(a)borjeson-info.com>
> Subject: [Runeberg] (no subject)
> To: runeberg(a)lists.lysator.liu.se
> Message-ID: <p06230904c1f372cd39a4(a)[192.168.8.77]>
> Content-Type: text/plain; charset="iso-8859-1" ; format="flowed"
>
> Unsubscribe me, please!
> --
>
> Carl-Olof Börjeson
> COB Media AB
> V. Kanalgatan 5
> SE-211 41 Malmö/Sweden
> tel +46-40-611 77 75
> mobil 073-703 24 72
> fax +46-40-23 58 19
>
> OBS!
> Ny e-post adress:
> cob.media(a)telia.com
>
>
> ------------------------------
>
> _______________________________________________
> Runeberg mailing list
> Runeberg(a)lists.lysator.liu.se
> http://lists.lysator.liu.se/mailman/listinfo/runeberg
>
>
> End of Runeberg Digest, Vol 22, Issue 4
> ***************************************
>
dear Sven de Marothy,
You are doing great work with your camera I can understand from your report
*Digitizing with a camera - some results.*
**
I can confirm *all your findings* in your report regarding using digital
camera for OCR.
Some years ago I used a Canon S40 4Megapixel camera and did som OCR of
single book pages with an old version of FineReader.
I photographed maybe 50 or 100 big books, mostly handheld (camera and book)
with day light from window. But very few of them I OCRed.
My experience was that the OCR result was as good as with a scanner, but if
I wanted to do OCR also I had to spend more time photographing each book
then if I just stored the books as pictures, so therefore I saved time by
just going quickly through most of the books.
Now I have a Canon A620 7Megapixel and the results are just a little better.
I also travel with a super small tripod and a big screw for attachement to
tables (I put the book on the floor between the window and table).
I do a 60-page book in 5-10 minutes with a double page on each photo and
about double time with a single page on each photo. The time also depends on
how soft the book binding is and how good my working position is under the
window.
I think the biggest problems with FineReader is that it does not accept
scans that are not flat, and that it is sensitive to shadows. There is also
a need for an expanded internal dictionary in Finereader. *An
expanded dictionary that Finereader uses in the recognition phase (not later
at spelling check). *Do you know if Finereader has this possibility?
I also need a Finereader that has built in recognition of diacritacal marks
like you know åöä in Swedish. I do Indian language books.
mvh Mats Eklöf Huskvarna
2007/2/9, runeberg-request(a)lists.lysator.liu.se <
runeberg-request(a)lists.lysator.liu.se>:
>
> Send Runeberg mailing list submissions to
> runeberg(a)lists.lysator.liu.se
>
> To subscribe or unsubscribe via the World Wide Web, visit
> http://lists.lysator.liu.se/mailman/listinfo/runeberg
> or, via email, send a message with subject or body 'help' to
> runeberg-request(a)lists.lysator.liu.se
>
> You can reach the person managing the list at
> runeberg-owner(a)lists.lysator.liu.se
>
> When replying, please edit your Subject line so it is more specific
> than "Re: Contents of Runeberg digest..."
>
>
> Today's Topics:
>
> 1. Re: Halland (Sven de Marothy)
> 2. Digitizing with a camera - some results (Sven de Marothy)
>
>
> ----------------------------------------------------------------------
>
> Message: 1
> Date: Thu, 8 Feb 2007 21:04:21 +0100
> From: "Sven de Marothy" <svendem(a)gmail.com>
> Subject: Re: [Runeberg] Halland
> To: runeberg(a)lists.lysator.liu.se
> Message-ID:
> <94420310702081204u3c0bdf88x8ad213fe3a51442d(a)mail.gmail.com>
> Content-Type: text/plain; charset="iso-8859-1"
>
> On 2/8/07, Lars Aronsson <lars(a)aronsson.se> wrote:
>
>
> Vilka författare är från Halland?
>
>
> Carl Bildt? I och för sig gäller det bara Carl Bildt (1949-) och inte
> Carl Bildt (1850-1931), som hade kunnat vara aktuell.
>
> Annars är Olof Dalin självskriven tycker jag. Läge att digitalisera
> Then Swänska Argus?
>
> Och hej förresten, jag är ny på listan. :)
>
> /Sven
>
HI all,
I thought I'd share some thoughts on the issue of using digital
cameras, since I'm a long time scanner-user (my first being a hand-scanner -
remember them?) and a relatively new digital camera owner.
Since trying out book scanning (save some money on photocopies at the
library) was one of my main reasons for buying one,
runeberg.org/admin/camera.html was an interesting thing to read before I did
so. But the document is a little bit old, so here are my experiences with my
Samsung NV10 10 megapixel camera:
One of my first experiences is that a ten megapixel camera can indeed get
quite
good resolution (in DPI), comparable to that of a low-end scanner. The NV10
is
a compact camera, but at the shortest focus distance (about 6 cm) I get a
resolution of about 2000 DPI, although that numbers should be taken with a
grain
of salt, due to ISO and other interpolation techniques. But even half that
is still a
pretty good number. For an A4 (or US letter) page, we're talking about
300-400 DPI.
Now, my experience (using finereader) is that 10 megapixels is more than
you need for good OCR. I also get the impression that the issue of lighting
is
a bit overemphasized; I've had good results even with ambient lighting, as
long
as the page/camera/photographer is positioned to avoid shadows.
To rank the pitfalls:
The definite number one issue is page geometry. The page needs to be as
flat as possible. While FineReader didn't seem to have much problems with
low contrast, it definitely had problems with any page that wasn't flat. So
the
best way to photo books seems to be to position them open at a little over
90 degrees, with the page being photographed as flat as possible. (you can
speed this up by photographing the odd and even pages in two passes)
The second issue is sharpness, which seems quite vital as well. The camera
and book need to be steady, and the camera needs to be correctly focused.
With some practice, even hand-held results work fine, it's just more
difficult.
On the positive side, the sharpness can be checked immediately after
taking the picture. If the picture is bad, it can still be salvaged in most
cases
with some post-processing in Photoshop or similar.
Third, I would put the aforementioned issue with lighting. And fourth, I'd
bring
up lens abberation, the slight 'fishbowl' effect you get with the camera. It
usually isn't a big enough distortion to have an effect on OCR though, but
it becomes
very noticable in images, due to the straight lines (of the image border, if
nothing else). Images suffer a lot from uneven lighting and lack of
color-correctness.
So to summarize: I've found using a digital camera to be a very fast,
portable and convenient way to digitize text, and that even working with
ambient
lighting and the camera hand-held ("field conditions") it's quite possible,
with
some practice, to get results that OCR nearly as well as from a scanner.
The big drawback is images; it's not possible, however, to get a decent
image
under "field conditions", at least not without spending quite a bit of time
doing
post-processing, which means cancelling out one of the main benefits of
using
a camera in the first place.
So for an illustrated book, I wouldn't recommend using a camera; at least
not
as a time-saving device. But for plain text the camera can be a better
option.
(depending on whether you have a sheet-fed scanner, and whether you want
to preserve the book or not, etc)
When it comes to older Swedish texts in particular, the vast majority of OCR
errors would seem to be due to archaic spelling not included in the
software's dictionary, and that's the same with either a camera or a
scanner.
(Speaking of which, perhaps Runeberg.org could cook up some OCR dictionaries
for different time periods?)
/Sven
Projekt Runeberg,
Den här månadens startsida uppmärksammar texter om landskapet
Halland, både nytillkomna och sådana vi redan hade,
http://runeberg.org/
Men vilka är dina bästa Hallands-texter i Projekt Runeberg?
Vilka länkar borde jag lägga till i listan på förstasidan?
Vilka författare är från Halland?
Vi hoppas givetvis att fler vill hjälpa till att korrekturläsa
de inscannade texterna om Halland. Det är lätt att komma igång.
Tipsa gärna bekanta med anknytning till Halland.
== SUMMARY IN ENGLISH ==
I'm inviting suggestions for this month's front page, focusing on
the Swedish province Halland, http://runeberg.org/
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - deine digitale Bibliothek - http://runeberg.org/