> > Det skulle vara bra om det fanns någonstans där man kunde se, och
> > klippa ut, enstaka problematiska ISO 8859-1 bokstäver som man
>
>När du korrekturläser har du dessa klipp-och-klisterbara tecken till
>höger om den stora inmatningsrutan, precis där de behövs.
Aha! Jag hade inte märkt det. Kanske om jag hade en "19-inch" skärm va?
> > Jag ser att det fins rätt så många (vad jag skulle kalla
> > "quotation marks" på engelska). Alltså det där som ser ut som ett
> > komma, eller snarare två kommor,
>
>Det låter som du talar om gåsögon, som ser ut »så här». De har
>position 187 decimalt eller 273 oktalt i ISO 8859-1. Det finns även
>en ovanligare variant som pekar åt andra hållet « och har nummer
>171 decimalt eller 253 oktalt. Även dessa finns klipp- och
>klisterbara till höger om inmatningsfältet vid korrekturläsning.
Jag kände inte till namnet gåsögon. Men frågan var mer vilket är riktigt.
Originalet ser ut som () fast lite lägre på linjen, men OCR har tolkat det
som (»).
Nu när jag har läst lite mer om gåsögon (t. ex. susning.nu/Citat) ser det ut
som om de skulle vara okej, även om det inte är samma tecken som i
orginalet. Men i originalen så pekar ju alla åt höger, både framför och
bakom ordet i mitten, och jag ser att svenska standarden är att peka inåt.
Det enda jag vill är att inte börja rätta sidor som bara skall bli besvär
för er senare.
Så vad vill ni ha? Om det duger med gåsögon som alla pekar till höger så är
det ju lättast.
Ingemar
_________________________________________________________________
Scan and help eliminate destructive viruses from your inbound and outbound
e-mail and attachments.
http://join.msn.com/?pgmarket=en-ca&page=byoa/prem&xAPID=1994&DI=1034&SU=ht…
Start enjoying all the benefits of MSN® Premium right now and get the
first two months FREE*.
Project Runeberg,
At the end of July, our collections contained 209755 pages in digital
facsimile, of which 37254 were proofread. This is 9436 and 2900
pages, respectively, more than the beginning of the month.
If we are to be able to double our collection in the coming year, as
we did in the last year, we will have to digitize 200,000 pages in 12
months or an average of 16,667 pages per month, so 9436 pages is not
enough. However, 7000 of the pages were scanned in the last two days
of the month, so I think we still have a good chance. The
proofreading is approaching 40,000 pages or 2 linear metres of
shelving, and this calls for some kind of celebration.
Actually, the real threat right now is that our disks are filling up.
I will return to this in another message.
The most recently scanned works are "Djurens lif", the Swedish
translation of the German zoologist A.E. Brehm's "Thierleben" from
around 1880, and 25 year runs of "Fataburen", the yearbook of Nordiska
museum in Stockholm. The latter is still in preparation and has not
yet been OCRed.
http://runeberg.org/brehm/http://runeberg.org/fataburen/
These are still a bit early to announce, and our front page for August
instead features the collected works by Henrik Ibsen (that we scanned
in June). I hope this will help us to attract more Norwegian
proofreaders and volunteers.
During July, a total of 4888 proofreading contributions (edits) were
received from 50 identified volunteers. The following volunteers were
the most active:
Edits Signature
----- ---------
1000 Steen.Roennow
694 farbror.mats (+fm)
619 agneta
602 fh
549 tomi
417 anders.thapper
94 hartwig.alpers
82 janerikz
81 elagerstroem
67 ryde
64 lars
47 christer.romson
38 publ
30 lena.meyer
30 jan.frelin
26 mats
17 klash
Edits were made to 4185 different pages in 102 different works. Most
edits were made to the following works:
Edits Work Title
----- -------- -----
1247 dbl Dansk biografisk Lexikon
893 faltskar Fältskärns berättelser
582 strindbg Samlade skrifter av August Strindberg
435 nf Nordisk familjebok
196 fribyt Fribytaren på Östersjön
117 runeberg Samlade skrifter
101 oxygen Oxygen och Aromasia
88 lenngren Samlade Skaldeförsök
84 vira Handledning i vira
79 hellas Hellas. De gamla grekernas land och folk
74 tidsford Vetenskapliga tidsfördrif
73 sarek Sarekfjällen
66 tiphyche Tidsskrift for Physik og Chemi
65 sqvinnor Anteckningar om svenska qvinnor
62 gudasaga Fädernas gudasaga m.m.
57 hvar8dag Hvar 8 dag
47 norge80 Norge. Uddrag af ældre og nyere Forfatteres Skrifter
47 hagberg Shakspeare's dramatiska arbeten
46 svstsaku Svensk stats- och samhällskunskap: Lärobok
42 aktamaka Äkta makar
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg -- your digital library -- http://runeberg.org/
>Message: 1
>Date: Tue, 03 Aug 2004 18:52:18 +0200
>From: Anders Thulin <ath(a)algonet.se>
>To: runeberg(a)lists.lysator.liu.se
>Subject: [Runeberg] Re: How do I make sure I use ISO 8859-1
>
>"Ingemar Olson" <bio2935c(a)hotmail.com> asks:
>
> > I would like to start proofreading but I'm stuck on the difference
>between
> > ASCII and ISO 8859-1. For example, I am used to keying <alt-148> to
>write an
> > ö, but the instructions ("Olika streck och andra specialtecken" på
> > //runeberg.org/wiki/Instruktioner_för_korrekturläsare) state clearly to
>NOT
> > use this technique.
>
> As you say 'alt-148', the difference you are worried about is really
>the one
>between ISO 8859-1 and the character code used by your Windows system --
>which
>probably is CP1252, which is just a superset of 8859-1. (ASCII is, as far
>as I
>understand, a 7-bit character set, related to the 7-bit ISO 646 character
>sets).
>
> The difference between the two, however, is not in the 0xCO - 0xFF
>area, where
>most of the accented letters have been placed. But if you try to produce
>S/s or
>Z/z with caron, the OE/oe ligature, and y with diaeresis, and the various
>left
>and right single and double quotation marks, the different dashes, and
>several
>other special characters in the 0x80-0x9F area, it won't work.
Tack Anders
Det ser ut som om jag kan fortsätta med alt-xxx för åäö i alla fall - bara
jag undviker 0x80-0x9F. Jag tänker bara jobba med svenska sidor så jag kan
nog undvika de flesta 'konstiga' bokstäverna.
Det skulle vara bra om det fanns någonstans där man kunde se, och klippa ut,
enstaka problematiska ISO 8859-1 bokstäver som man senare kunde sätta in i
texten.
Men nu har jag en annan fråga (till vem som helst som vill svara):
Jag ser att det fins rätt så många (vad jag skulle kalla "quotation marks"
på engelska). Alltså det där som ser ut som ett komma, eller snarare två
kommor, och det står tryckt _mitt_ i raden. Om det hade varit lite högre så
skulle jag ha kallat det "closing quotation mark" () (på engelska). Men när
det står mitt i raden tycks det tolkas av OCR-programmet som ett par V
(eller pilspetsar) som pekar till höger (»). Vad ska man göra med det? Ändra
det till " eller låta det stå kvar som » ? Det ser ju INTE ut som pilspetsar
i orginalet! Vilket är rätt?
Ingemar
_________________________________________________________________
Discover the best of the best at MSN Luxury Living. http://lexus.msn.com/
"Ingemar Olson" <bio2935c(a)hotmail.com> asks:
> I would like to start proofreading but I'm stuck on the difference between
> ASCII and ISO 8859-1. For example, I am used to keying <alt-148> to write an
> ö, but the instructions ("Olika streck och andra specialtecken" på
> //runeberg.org/wiki/Instruktioner_för_korrekturläsare) state clearly to NOT
> use this technique.
As you say 'alt-148', the difference you are worried about is really the one
between ISO 8859-1 and the character code used by your Windows system -- which
probably is CP1252, which is just a superset of 8859-1. (ASCII is, as far as I
understand, a 7-bit character set, related to the 7-bit ISO 646 character sets).
The difference between the two, however, is not in the 0xCO - 0xFF area, where
most of the accented letters have been placed. But if you try to produce S/s or
Z/z with caron, the OE/oe ligature, and y with diaeresis, and the various left
and right single and double quotation marks, the different dashes, and several
other special characters in the 0x80-0x9F area, it won't work.
That is, in principle, the alt-xxx method won't work, as it produces characters
in a different character set. However, if you know the difference between the
two character sets, you can get by. The risk for making errors can be high,
especially if you acquire bad keyboarding habits, and there are no safety nets.
For a full description of the differences, see
http://www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1252.TXT
Any character with the same CP1252 and Unicode code point is safe:
0xC5 0x00C5 #LATIN CAPITAL LETTER A WITH RING ABOVE
If the differ, you have to use another method:
0x8E 0x017D #LATIN CAPITAL LETTER Z WITH CARON
Strictly speaking, this describes the mapping from CP1252 to Unicode, but as
the first 256 code points of Unicode are the same as those of ISO 8859-1
(a 8859-1 to Unicode mapping table can be found under .../MAPPINGS) the difference
is only superficial.
In the same catalogue (.../WINDOWS/) other code mapping tables can be found.
> So I'm confused. How DO I make sure I generate the ISO characters?
I'm sorry -- I'm not much of a Win expert.
I would use a Wordpad, Save as 'ANSI', and then use the GNU recode program
myself (under Cygwin -- assuming it can be compiled). I better leave it to any
Windows expert to say if the same effect can be produced with pure Win tools.
I've been told that there are two forms of the ALT- keyboarding method:
the ALT-xxx method and the ALT-0xxx method, and that the difference can be
useful when you know exactly how they work. There seems to be one or two
web sites describing it (search for ALT-0xxx): you might want to investigate.
Personally, I regard ALT- as unfit for human use.
best wishes,
--
Anders Thulin ath*algonet.se http://www.algonet.se/~ath
Hello everyone (or maybe only Lars?).
I would like to start proofreading but I'm stuck on the difference between
ASCII and ISO 8859-1. For example, I am used to keying <alt-148> to write an
ö, but the instructions ("Olika streck och andra specialtecken" på
//runeberg.org/wiki/Instruktioner_för_korrekturläsare) state clearly to NOT
use this technique.
I have created other web pages containing åäöÅÄÖ (generated with the alt-nnn
keystrokes) written with "charset=iso-8859-1" and they pass the W3C HTML
validator check _and_ they display correctly (for me anyway), implying that
the characters I generated are part of the ISO 8859-1 character set.
So I'm confused. How DO I make sure I generate the ISO characters? Or did I
misunderstand something in the instructions?
Ingemar
_________________________________________________________________
Powerful Parental Controls Let your child discover the best the Internet has
to offer.
http://join.msn.com/?pgmarket=en-ca&page=byoa/prem&xAPID=1994&DI=1034&SU=ht…
Start enjoying all the benefits of MSN® Premium right now and get the
first two months FREE*.
Projekt Runeberg,
Idag har vår lokala dagstidning Östgöta Correspondenten ett reportage
om Projekt Runeberg där undertecknad och Hans Persson är på bild.
De ger gamla böcker nytt liv
http://www.corren.se/archive/2004/7/20/hr5t2cdynirb97x.xml
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
Project Runeberg,
The big news during June was that we reached 200,000 scanned pages, as
was announced on June 22. Only a few works were added after this.
http://www.lysator.liu.se/runeberg/admin/20040622.html
Proofreading continues at a good speed. We now have 51 volumes that
are completely proofread but not yet converted to HTML (one web page
per chapter), and 42 volumes that have been converted to HTML. A
further 17 volumes are almost completely proofread. The number of
full proofread pages are 35,000 or 17% of our total.
Summer is normally a period of low activity, but all this rain might
change that.
During June 2004, a total of 4081 proofreading contributions were
received from 53 identified volunteers. The following volunteers were
the most active:
Edits Signature
----- ---------
784 agneta
609 fh
446 anders.thapper
356 lars
332 fm
322 Steen.Roennow
321 hartwig.alpers
86 tomi
75 at
51 lefa
40 jan.frelin
35 christer.romson
30 janerikz
15 kj
14 magnusk
11 peter9
11 Ulf.Ranggard
Edits were made to 3556 different pages in 86 different works. Most
edits were made to the following works:
Edits Work Title
----- -------- -----
703 dbl Dansk biografisk Lexikon
697 nf Nordisk familjebok
651 strindbg Samlade skrifter av August Strindberg
288 famijour Svenska Familj-Journalen
183 ibsen Henrik Ibsens samlede værker
169 lenngren Samlade Skaldeförsök
167 tiphyche Tidsskrift for Physik og Chemi
151 faltskar Fältskärns berättelser
96 krigsaga Krigets tekniska sagor för stora och små
82 hanstark Elefantjägaren Hans Stark
79 officers En gammal officers minnen
78 norge80 Norge. Uddrag af ældre og nyere Forfatteres Skrifter
71 fransmin Minnesteckningar öfver utmärkte svenske statsmän,
hjeltar, lärde, konstnärer och skalder
63 runeberg Samlade skrifter
49 hvar8dag Hvar 8 dag
48 wiknings En kort historik öfver Wikningskommissionens
tillkomst och utveckling
47 kindakan Vägledare för turister på Kinda kanal
46 lidner Samlade skrifter
40 hagberg Shakspeare's dramatiska arbeten
37 pht Personhistorisk tidskrift
32 asiaten Om Behandlingen af den Asiatiska Choleran inom
Dals-Qvarteret i Norrköping
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg - free Nordic literature - http://runeberg.org/
Projekt Runeberg,
Idag 8 juli uppmärksammade Vetandets Värld i Sveriges Radio P1 att
programmet fyller 30 år. Temat var datorns utveckling.
I ett inslag från 1976 intervjuades en svensk expert som förutspådde
att vi skulle få datorer i hemmet med bildskärm, tangentbord och
skrivare, kopplade via telefonnätet till en central dator hos
Telegrafverket, från vilken man mot betalning skulle kunna begära
olika tjänster. Till exempel kunde man tänka sig, sade experten, att
Nordisk familjebok skulle finnas inlagd.
Detta blev alltså verklighet 27 år senare, i maj 2003. Bortsett från
Telegrafverket och betalningen, förstås. Att experten skulle få sin
egen röst tillgängliggjord på samma sätt, förutsåg han däremot inte.
Programmet går nämligen att lyssna på över nätet,
http://sr.se/cgi-bin/p1/program/index.asp?ProgramID=412
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
Pressmeddelande
Datum: 22 juni 2004
Från: Projekt Runeberg, http://runeberg.org/
Kontaktperson: Lars Aronsson, projektledare, telefon +46-70-7891609
Kontaktadress: redaktion(a)runeberg.org
Ärende: Inscanningen av äldre nordisk litteratur har nått
200.000 boksidor, detsamma som 10 hyllmeter
Pressmeddelandet: http://runeberg.org/admin/20040622.html
== Projekt Runeberg firar 10 hyllmeter med Anna Maria Lenngren ==
En sida ur Anna Maria Lenngrens "Samlade skaldeförsök" från 1876 blev
boksida nummer 200.000 som Projekt Runeberg lägger ut gratis på
nätet. Så många boksidor motsvarar 10 hyllmeter litteratur, och det är
vad idealisterna i Linköping har att visa upp på http://runeberg.org/
Närmare bestämt var det dikten "Slottet och kojan" på sidan 41 som
blev jubilaren. Den scannades in den 22 juni 2004, fyra dagar efter
att dikterskan själv fyllde 250 år. Hon föddes nämligen 18 juni
1754. Dikten finns nu på http://runeberg.org/lenngren/0067.html
Projekt Runeberg är något av det äldsta som finns på Internet. Redan
1992 började några dåvarande studenter vid Linköpings universitet att
lägga upp texter ur äldre nordisk litteratur på en nätsida. Sedan dess
har det fortsatt som ett fritidsprojekt där studenter och före detta
studenter möts. Till sin hjälp har de också hundratals frivilliga
medhjälpare, som håller kontakten via nätet.
Även om arbetet utförs ideellt och Linköpings universitet bjuder på
anslutningen till Internet, så är Projekt Runeberg beroende av
enskildas gåvor bland annat för underhåll och utbyggnad av
servern. Donationer av böcker att scanna är också välkomna. Det
handlar oftast om utrensningar från bibliotek, som tvingas se över
sitt lokalbehov.
Varje månad levererar Projekt Runebergs webbplats tre miljoner
sidvisningar till 200.000 unika besökare. Trafikmängden har stadigt
ökat med 60 procent om året, och alltså tiofaldigats på fem år. Tack
vare webbplatsens goda struktur, är det lätt för andra webbplatser att
länka direkt till olika författare, böcker och enskilda boksidor, och
det verkar även som om det seriösa innehållet har en hög trovärdighet
hos nätets stora sökmotorer.
Dikter har från starten varit en viktig del av samlingen, eftersom de
är lagom långa att läsa på skärmen och eftersom sökmöjligheten är
ovärderlig när man letar efter kända citat. Men även romaner,
uppslagsverk, musik, tidskrifter och facklitteratur om allt från
blommor till radioapparater finns bland de tio hyllmeter som står till
fritt förfogande för allmänheten. Det handlar då om de äldsta
radioapparaterna från 1920-talet. Böckerna måste vara äldre än sjuttio
år för att inte omfattas av upphovsrätt.
Under de första åren knappades texterna in på vanliga tangentbord, men
nu är det scanning av hela boksidor som gäller inom Projekt
Runeberg. Genom att först scanna bilder av boksidorna får man en exakt
och trovärdig avbildning i faksimil, som sedan kan användas vid
korrekturläsning av den maskinellt tolkade texten. Projekt Runeberg
har vänt upp och ned på digitaliseringen genom att först publicera och
sedan låta läsarna på frivillig grund korrekturläsa texterna via sina
webbläsare. Detta gör att fler böcker kan digitaliseras på kortare tid
än som annars hade varit möjligt.
Det största enskilda verket i samlingen är Nordisk familjebok, det
klassiska svenska uppslagsverket i 38 band från 1920-talet, vars
digitala utgåva blev färdigt för ett år sedan, i maj 2003. Då var
Projekt Runeberg bara hälften så stort som idag. Vid halvårsskiftet
2003 omfattade det fem hyllmeter. Under det senaste året har samlingen
alltså fördubblats.
Bland det senaste årets tillskott märks många böcker på danska och
norska. Projekt Runeberg har sedan starten en nordisk profil, men det
svenska innehållet har kommit att dominera, och nu vill man
återupprätta balansen. Därför finns Dansk biografisk Lexikon (19 band)
och Henrik Ibsens samlade verk (10 band) bland nytillskotten, liksom
den danska "Tidsskrift for Physik og Chemi" av vilken man
digitaliserat åtta årgångar från 1870-talet. Men det största
icke-svenska verket är ändå Salmonsens konversationsleksion, det
klassiska danska uppslagsverket, där hittills sju av 26 band är
inscannade.
Den svenska samlingen har vuxit starkt under senaste året. Märkligt
nog har August Strindberg länge varit underrepresenterad på Internet,
vilket hänger samman med upphovsrättsproblemen runt den prestigefulla
Nationalutgåvan. Projekt Runeberg har nu funnit en kompromiss genom
att i stället digitalisera den äldre utgåvan "Samlade skrifter" från
1910-talet. Hittills är 42 av 55 band inscannade. Andra klassiska
svenska författare som nu är väl representerade är Bengt Lidner, Anna
Maria Lenngren och Carl Anton Wetterbergh, mer känd under pseudonymen
Onkel Adam. Utgåvor av olika författares "samlade verk" lämpar sig
mycket bra för digitalisering och kan användas som snabb referens för
den som inte hinner besöka biblioteket så ofta.
En starkt växande del av Projekt Runebergs bestånd är tidskrifter och
årsböcker. Svenska Turistföreningen, Svenska Naturskyddsföreningen och
Personhistoriska Samfundet är några sammanslutningar som numera kan
betrakta Projekt Runeberg som sitt digitala arkiv för de äldsta
utgåvorna.
De kanske mest besökta sidorna på Projekt Runebergs webbplats kommer
från inscannade uppslagsverk. Där finns inte bara de stora Nordisk
familjebok, Salmonsens konversationsleksikon och Dansk biografisk
Lexikon, utan även ordböcker och mer specialiserade verk, som Höijers
Musik-Lexikon, Ankjærs Geografisk-Statistisk Haandbog, Nordisk
illustreret Havebrugsleksikon (om trädgårdsodling), Cavallins
Swensk-Latinsk Ordbok, Hellquists Svensk etymologisk ordbok och till
och med två äldre utgåvor av Svenska Akademiens ordlista.
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
Project Runeberg,
At the end of May 2004, Project Runeberg's digital facsimile editions
comprised 190,642 pages (+4734 during the month) or 9.5 linear meters
of shelving, of which 182,002 had been OCRed, 136,079 had been indexed
(+6893), and 31,918 had been fully proofread (+2277).
The relatively high increase in the number of indexed pages is
explained by the fact that I finally paid attention to some indexing
contributions for Nordisk familjebok that had been in my inbox for
some time. Indexing still depends on the manual attention of our
editors (including me), unfortunately.
Even though the number of facsimile pages increased by 4734, not this
many pages were scanned during the month. Some belong to books that
were available all the time, but that we had failed to count.
We use the estimate that 20,000 pages correspond to one linear meter
of shelving (hyllmeter, reolmeter). It was only in July 2003 that we
reached 100,000 pages (5 meters), and with only 10,000 pages to go it
is still possible that we can reach twice that number within July.
Whether we shall be able to continue to double our collection also in
the coming year, depends on the number of volunteers with scanners.
We already have plenty of books to scan, and we accept more donations.
During May 2004, a total of 4346 proofreading contributions were
received from 61 identified volunteers. The following volunteers were
the most active:
Edits Signature
----- ---------
777 agneta
726 Steen.Roennow
462 fh
441 fm
351 lars
243 bernhard
235 teresia_fredriksson
108 anders.thapper
68 hartwig.alpers
56 jens.christian.berlin
53 bert
Edits were made to 3610 different pages in 119 different works.
Most edits were made to the following works or collections:
Edits Work Title
----- -------- -----
977 dbl Dansk biografisk Lexikon
529 garibald Giuseppe Garibaldi
434 nf Nordisk familjebok
337 strindbg Samlade skrifter av August Strindberg
242 sbh Svenskt biografiskt handlexikon
179 tiphyche Tidsskrift for Physik og Chemi
157 hvar8dag Hvar 8 dag
148 snf Svenska Naturskyddsföreningens årsbok
131 hanstark Elefantjägaren Hans Stark
119 sqvinnor Anteckningar om svenska qvinnor
80 famijour Svenska Familj-Journalen
68 djaknar De vandrande djäknarne
66 frostmo Barnen ifrån Frostmofjället
54 topesang Sånger
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg - free Nordic literature - http://runeberg.org/