Hej till redax!
Det står i Instruktionerna att "Om verket innehåller uttalsmarkeringar i form av apostrofer inuti ord så ta bort dem." och ger som exempel Ta'rtu. Men vad skall man göra om uttalsmarkeringarna inte är apostrofer?
T.ex. http://runeberg.org/display.pl?mode=facsimile&work=terminolog&page=0... Det är klart att markeringarna bara angiver uttalningen. Men ska man ta bort alla, eller inga? eller bara en del? Den känns inte konsekvent att ta bort bara de som råkar vara mellan bokstäverna.
béta - tonvikt på e bö'n - ett längre ö-ljud (enligt Förordet) éþsö're - båda
Kanske den här boken är ett undantag till Instruktionerna?
Vad tycks?
Ingemar
_________________________________________________________________ Windows Live Hotmail is the next generation of MSN Hotmail. Its fast, simple, and safer than ever and best of all its still free. Try it today! www.newhotmail.ca?icid=WLHMENCA146
Hej!
Jag skulle, med de anvisningar som finns nu tagit bort '-tecknen, som inte hör till stavningen i de tre exemplen Ingemar lämnar. För accenterna `och ´-tecken hör till stavningen oftast, om än inte i béta, som ju uttalas lika både med och utan ´-tecken. Liksom bön inte uttalas med kort ö i bön utan '-tecken. I en hel bok med "terminologi", så tycker jag att man får avgöra från fall till fall med hänsyn till vad och hur människor kan tänkas söka och kan få träff. Ingen söker väl béta eller bö'n?
"Främmande ord" är också ett exempel med lite egna stavningar och uttalsförslag.
Agneta
18 jun 2007 kl. 23.09 skrev Ingemar Olson:
Hej till redax!
Det står i Instruktionerna att "Om verket innehåller uttalsmarkeringar i form av apostrofer inuti ord så ta bort dem." och ger som exempel Ta'rtu. Men vad skall man göra om uttalsmarkeringarna inte är apostrofer?
T.ex. http://runeberg.org/display.pl? mode=facsimile&work=terminolog&page=0009 Det är klart att markeringarna bara angiver uttalningen. Men ska man ta bort alla, eller inga? eller bara en del? Den känns inte konsekvent att ta bort bara de som råkar vara mellan bokstäverna.
béta - tonvikt på e bö'n - ett längre ö-ljud (enligt Förordet) éþsö're - båda
Kanske den här boken är ett undantag till Instruktionerna?
Vad tycks?
Ingemar
Windows Live Hotmail is the next generation of MSN Hotmail. It’s fast, simple, and safer than ever and best of all – it’s still free. Try it today! www.newhotmail.ca?icid=WLHMENCA146
Runeberg mailing list Runeberg@lists.lysator.liu.se http://lists.lysator.liu.se/mailman/listinfo/runeberg
Ingemar Olson skrev:
Det står i Instruktionerna att "Om verket innehåller uttalsmarkeringar i form av apostrofer inuti ord så ta bort dem." och ger som exempel Ta'rtu.
Projekt Runeberg grundades 1992, gick över till faksimilbilder 1998 och införde webbformulär för korrekturläsning 2002. Sidan med instruktioner för korrekturläsare skrevs hösten 2003, vilket nu är snart fyra år sedan. Då hade vi redan utfärdat liknande instruktioner med e-post till dem som frågat. Att få instruktionerna nedskrivna var ett sätt att behöva svara på färre frågor via e-post, vilket kan vara mycket tidsödande.
Instruktionen rörande apostrofer är skriven huvudsakligen med tanke på uppslagsorden i Nordisk familjebok, där det står Ta'rtu och vi vill ju kunna söka efter Tartu i resultatet. Det vore i alla fall synd om vi inte kunde söka på Tartu.
Det mer avancerade exemplet du visar på, är egentligen mer än vårt nuvarande system klarar av. Det finns flera sådana fall. Några andra är matematiska ekvationer, kemiska formler, musiknoter, text med grekiska bokstäver och kartor med utplacerade ortnamn. Vi har hela tiden varit medvetna om att "vårt nuvarande system" har sådana begränsningar. Det finns ingen poäng i att utfärda instruktioner som kan täcka samtliga fall. Instruktionerna ska hellre vara kortfattade och begripliga än fullständiga. Det är nog många detaljer som möter nybörjaren ändå.
För att ett system för kemiska formler, musiknoter eller någon annan avancerad typografi ska bli bra, krävs att någon specialiserar sig på just det området och tar resultatet av korrekturläsningen till färdig slutprodukt. Johan Tufvesson arbetade med ett program för notskrift och typsatte noter, som skrevs ut i PDF-format och som han spelade i stråkkvartet. Jag som inte spelar fiol hade inte kunnat göra det arbetet.
Verket du hämtar exempel ur handlar om "Terminologin i äldre Västgöta- och Östgöta-lagarne". Vad ska vi ha det verket till när det är korrekturläst och klart? Vill man kunna söka i det? Skriva ut det? Analysera det på något annat sätt? Vilken är slutprodukten? Jag vet inte. Vet du? Det gäller att hitta ett textformat som är lämpligt för den tänkta tillämpningen, och sedan skriva instruktioner som ger oss det textformatet.
Vidareförädlingen till slutprodukt kan ligga inom Projekt Runeberg eller någon annanstans. Tanken med Projekt Runeberg är inte att skaffa monopol på de böcker vi digitaliserar. De allra flesta är ju helt fria från upphovsrätt, och får kopieras vidare och återanvändas fritt. Hittills har detta inte förekommit särskilt ofta. Ett undantag är en del texter som kopierats till http://sv.wikisource.org/ och där bearbetats vidare. Projekt Runeberg är gärna "underleverantör" till sådana projekt.
Ingemar Olson:
"Om verket innehåller uttalsmarkeringar i form av apostrofer inuti ord så ta bort dem." http://runeberg.org/display.pl?mode=facsimile&work=terminolog&page=0... béta - tonvikt på e bö'n - ett längre ö-ljud (enligt Förordet) éþsö're - båda Ska man ta bort alla, eller inga? eller bara en del? Kanske den här boken är ett undantag till Instruktionerna?
Lars Aronsson:
Instruktionen rörande apostrofer är skriven huvudsakligen med tanke på uppslagsorden i Nordisk familjebok.
Det finns ingen poäng i att utfärda instruktioner som kan täcka samtliga fall. Instruktionerna ska hellre vara kortfattade och begripliga än fullständiga.
Verket du hämtar exempel ur handlar om "Terminologin i äldre Västgöta- och Östgöta-lagarne". Vad ska vi ha det verket till när det är korrekturläst och klart? Vill man kunna söka i det? Skriva ut det? Analysera det på något annat sätt? Vilken är slutprodukten? Jag vet inte. Vet du? Det gäller att hitta ett textformat som är lämpligt för den tänkta tillämpningen, och sedan skriva instruktioner som ger oss det textformatet.
En risk med kortfattade instruktioner är att folk följer dem även när man inte borde det. Jag har korr-läst en hel del Shakespeare-dramer och har av och till liknande funderingar som Ingemars. Jag tänker att uttal kan vara en väsentlig del av informationen i en text. Att då ta bort uttalsmarkeringar vore lika dumt som att ta bort alla egennamn. Om jag läste den här boken i digital version och såg att originalet hade information om uttal men att Runeberg valde att ta bort den, så skulle jag bli irriterad och besviken!
När man gör ett program som ska användas vid sökning i text, så tar man ju hänsyn till att folk inte alltid skriver orden exakt rätt. Diakritiska tecken ignorerar man, bindestreck inom ord också. Varför skulle man inte ignorera apostrofer? Jag tycker att den här delen av instruktionen uppmanar korrläsaren att göra en sämre slutprodukt för att kompensera för att det fortfarande finns enstaka undermåliga program. (Ungefär som att begränsa sig till bara iso 8859/1 i stället för hela unicode).
Christer
Ja, jag hade (naturligtvis) hoppats att någon skulle ha ett klart svar! Men det tycks inte finnas ett sådant.
Och inte är jag en expert på medeltalsspråk och har ingen chans att bli en. Betyder det att jag inte kan korr-läsa det här verket? Kanske _ingen_ som är med på Runeberg kan göra det? Det tycker jag låter dumt; det skall väl vara möjligt att göra _något_?
Jag undrade också om Google (t.ex.) var finurlig nog att kunna hitta orden även om de skrevs med diakritiska tecken. Om man söker efter eghæ, kan man hitta éghæ, och vice versa? Men det går tyvärr inte.
Här är ett annat förslag: Om det kan vara tillåtet att bryta "reglerna" lite (som Lars antyder) så kanske det är möjligt att ha texten både _med_ och _utan_ uttalsmarkeringarna?
T.ex: bö'n [bön] f. Förbön. Vg. (Br) Ög. (E 1). déla [dela] l. -æ vb. Tvista; väcka tvist om ngt. Vg. Ög. dylia l. -æ vb. Dölja; neka. Vg. Ög. éþsö're [eþsöre] n. 1) Ed, edgång. Ög. 2) etc.
Alltså, _om_ ordet har apostrofer eller diakritiska tecken, skriv det _först_ som det är tryckt i originalverket, och sedan _utan_ uttalsmarkeringarna inom parentes (?kanske med {} i stället för []). Förslaget gäller bara det här verket, och bara för ord som är "uppslagsord" (inte de som står längre in på raden).
Fördelar: - Det går att söka (och finna!) ordet med en sökmotor. - Vi förlorar inte informationen om uttal.
Nackdel: - Texten ser inte precis likadan ut som i originalet.
Ett annat förslag kunde vara att hitta på en ny tagg som bara syns i korrekturrutan. Då skulle orden inom taggen vara synliga för sökmotorer, men inte när man tittar på skärmen. Man kunde då skriva: éþsö're <hide>[eþsöre]</hide> n. 1) Ed, edgång. Ög. 2) etc, t.ex. Men det blir ju mer jobb för redaktionen (Joakim?) och jag vet inte om det kan bli användbart på andra verk. Om det hjälper bara i ett verk så är det ju inte värt att göra.
Ingemar
From: "Christer Romson" christer.romson@bredband.net To: runeberg@lists.lysator.liu.se Subject: Re: [Runeberg] Uttalsmarkeringar Date: Tue, 19 Jun 2007 09:22:10 +0200
Ingemar Olson:
"Om verket innehåller uttalsmarkeringar i form av apostrofer inuti ord så ta bort dem." http://runeberg.org/display.pl?mode=facsimile&work=terminolog&page=0... béta - tonvikt på e bö'n - ett lÀngre ö-ljud (enligt Förordet) éßsö're - båda Ska man ta bort alla, eller inga? eller bara en del? Kanske den hÀr boken Àr ett undantag till Instruktionerna?
Lars Aronsson:
Instruktionen rörande apostrofer Àr skriven huvudsakligen med tanke på uppslagsorden i Nordisk familjebok.
Det finns ingen poÀng i att utfÀrda instruktioner som kan tÀcka samtliga fall. Instruktionerna ska hellre vara kortfattade och begripliga Àn fullstÀndiga.
Verket du hÀmtar exempel ur handlar om "Terminologin i Àldre VÀstgöta- och Ãstgöta-lagarne". Vad ska vi ha det verket till nÀr det Àr korrekturlÀst och klart? Vill man kunna söka i det? Skriva ut det? Analysera det pÃ¥ nÃ¥got annat sÀtt? Vilken Àr slutprodukten? Jag vet inte. Vet du? Det gÀller att hitta ett textformat som Àr lÀmpligt för den tÀnkta tillÀmpningen, och sedan skriva instruktioner som ger oss det textformatet.
En risk med kortfattade instruktioner Àr att folk följer dem Àven nÀr man inte borde det. Jag har korr-lÀst en hel del Shakespeare-dramer och har av och till liknande funderingar som Ingemars. Jag tÀnker att uttal kan vara en vÀsentlig del av informationen i en text. Att då ta bort uttalsmarkeringar vore lika dumt som att ta bort alla egennamn. Om jag lÀste den hÀr boken i digital version och såg att originalet hade information om uttal men att Runeberg valde att ta bort den, så skulle jag bli irriterad och besviken!
NÀr man gör ett program som ska anvÀndas vid sökning i text, så tar man ju hÀnsyn till att folk inte alltid skriver orden exakt rÀtt. Diakritiska tecken ignorerar man, bindestreck inom ord också. Varför skulle man inte ignorera apostrofer? Jag tycker att den hÀr delen av instruktionen uppmanar korrlÀsaren att göra en sÀmre slutprodukt för att kompensera för att det fortfarande finns enstaka undermåliga program. (UngefÀr som att begrÀnsa sig till bara iso 8859/1 i stÀllet för hela unicode).
Christer
_________________________________________________________________ Upgrade to Windows Live Hotmail for free today! www.newhotmail.ca?icid=WLHMENCA151
De flesta är ju inte experter på sådant här som "medeltalsspråk" i kombination med datorer. Antingen det är antingen eller eller en starkt språk- eller textanknuten expert med oerhört höga krav på återgivningen, så måste vi ju här var och en göra så gott vi kan. Amatörer antingen i ämnet eller i textproduktion på datorer.
Om det är en mycket gammal text, som t.ex. eldswada från 1703, så har vi ju någorlunda enats om att skriva ut en del av de äldre skrivsätten till moderna (t.ex. nn för ñ). För 1536, som väl har en ljudenlig stavning för den tidens uttal, så får det st å kvar 'The' för de för att inte förstöra det historiska (språk)värdet. Sen må hur många tedrickare som helst råka få träff i Olaus Petris psalmbok på Google. Det är väl inte värre än att de kanske blir intresserade av både 1536:an och the eller Te. Värre är väl om sökare inte får någon träff alls.
Och det är det scenariot jag tänkt mig, att uttalsbeteckningarna faktiskt hindrar träffar. Det finns ju en Thé-konselj i Anna Maria Lenngren vill jag minnas.
Jag tror faktiskt Lars är rätt ute i det att han menar att vi måste ha en viss anpassning till verkets art. Det går inte att ha ett verk om uttal utan uttalsbeteckningar, lika lite som det fuingerar att ha ett amtematiskt refernsverk utan korrekta matematiska tecken. Från början för mig härså fanns inte några extra tecken alls. — i texten skulle skrivas -- för att på något vis skiljas från -.
Nöden är uppfinningarnas moder! Kanske är det bäst för henne att få lite tid där det tänks och känns efter vad som verkligen passar verket ifråga. Själv tycker jag det är viktigt att återge texten så nära originalet som möjligt, men det måste vara möjligt att göra det. Kanske krävs en nödlösning, som kan presenteras i förordet. Tills lösningen finns.
Agneta 19 jun 2007 kl. 20.02 skrev Ingemar Olson:
Ja, jag hade (naturligtvis) hoppats att någon skulle ha ett klart svar! Men det tycks inte finnas ett sådant.
Och inte är jag en expert på medeltalsspråk och har ingen chans att bli en. Betyder det att jag inte kan korr-läsa det här verket? Kanske _ingen_ som är med på Runeberg kan göra det? Det tycker jag låter dumt; det skall väl vara möjligt att göra _något_?
Jag undrade också om Google (t.ex.) var finurlig nog att kunna hitta orden även om de skrevs med diakritiska tecken. Om man söker efter eghæ, kan man hitta éghæ, och vice versa? Men det går tyvärr inte.
Här är ett annat förslag: Om det kan vara tillåtet att bryta "reglerna" lite (som Lars antyder) så kanske det är möjligt att ha texten både _med_ och _utan_ uttalsmarkeringarna?
T.ex: bö'n [bön] f. Förbön. Vg. (Br) Ög. (E 1). déla [dela] l. -æ vb. Tvista; väcka tvist om ngt. Vg. Ög. dylia l. -æ vb. Dölja; neka. Vg. Ög. éþsö're [eþsöre] n. 1) Ed, edgång. Ög. 2) etc.
Alltså, _om_ ordet har apostrofer eller diakritiska tecken, skriv det _först_ som det är tryckt i originalverket, och sedan _utan_ uttalsmarkeringarna inom parentes (?kanske med {} i stället för []). Förslaget gäller bara det här verket, och bara för ord som är "uppslagsord" (inte de som står längre in på raden).
Fördelar:
- Det går att söka (och finna!) ordet med en sökmotor.
- Vi förlorar inte informationen om uttal.
Nackdel:
- Texten ser inte precis likadan ut som i originalet.
Ett annat förslag kunde vara att hitta på en ny tagg som bara syns i korrekturrutan. Då skulle orden inom taggen vara synliga för sökmotorer, men inte när man tittar på skärmen. Man kunde då skriva: éþsö're <hide>[eþsöre]</hide> n. 1) Ed, edgång. Ög. 2) etc, t.ex. Men det blir ju mer jobb för redaktionen (Joakim?) och jag vet inte om det kan bli användbart på andra verk. Om det hjälper bara i ett verk så är det ju inte värt att göra.
Ingemar
From: "Christer Romson" christer.romson@bredband.net To: runeberg@lists.lysator.liu.se Subject: Re: [Runeberg] Uttalsmarkeringar Date: Tue, 19 Jun 2007 09:22:10 +0200
Ingemar Olson:
"Om verket innehÃ¥ller uttalsmarkeringar i form av apostrofer inuti ord sÃ¥ ta bort dem." http://runeberg.org/display.pl? mode=facsimile&work=terminolog&page=0009 béta - tonvikt pÃ¥ e bö'n - ett längre ö-ljud (enligt Förordet) éþsö're - bÃ¥da Ska man ta bort alla, eller inga? eller bara en del? Kanske den hà ¤r boken är ett undantag till Instruktionerna?
Lars Aronsson:
Instruktionen rörande apostrofer är skriven huvudsakligen med tanke på uppslagsorden i Nordisk familjebok.
Det finns ingen poäng i att utfärda instruktioner som kan tà ¤cka samtliga fall. Instruktionerna ska hellre vara kortfattade och begripliga än fullständiga.
Verket du hämtar exempel ur handlar om "Terminologin i äldre Và ¤stgöta- och Östgöta-lagarne". Vad ska vi ha det verket till när det är korrekturläst och klart? Vill man kunna söka i det? Skriva ut det? Analysera det pÃ¥ nÃ¥got annat sätt? Vilken är slutprodukten? Jag vet inte. Vet du? Det gäller att hitta ett textformat som är lämpligt för den tänkta tillà ¤mpningen, och sedan skriva instruktioner som ger oss det textformatet.
En risk med kortfattade instruktioner är att folk följer dem à ¤ven när man inte borde det. Jag har korr-läst en hel del Shakespeare-dramer och har av och till liknande funderingar som Ingemars. Jag tänker att uttal kan vara en väsentlig del av informationen i en text. Att dÃ¥ ta bort uttalsmarkeringar vore lika dumt som att ta bort alla egennamn. Om jag läste den här boken i digital version och sÃ¥g att originalet hade information om uttal men att Runeberg valde att ta bort den, sÃ¥ skulle jag bli irriterad och besviken!
När man gör ett program som ska användas vid sökning i text, sà ¥ tar man ju hänsyn till att folk inte alltid skriver orden exakt rätt. Diakritiska tecken ignorerar man, bindestreck inom ord ocksà ¥. Varför skulle man inte ignorera apostrofer? Jag tycker att den här delen av instruktionen uppmanar korrläsaren att göra en sà ¤mre slutprodukt för att kompensera för att det fortfarande finns enstaka undermÃ¥liga program. (Ungefär som att begränsa sig till bara iso 8859/1 i stället för hela unicode).
Christer
Upgrade to Windows Live Hotmail for free today! www.newhotmail.ca? icid=WLHMENCA151
Runeberg mailing list Runeberg@lists.lysator.liu.se http://lists.lysator.liu.se/mailman/listinfo/runeberg
Om det är en mycket gammal text, som t.ex. eldswada från 1703, så har vi ju någorlunda enats om att skriva ut en del av de äldre skrivsätten till moderna (t.ex. nn för ñ). För 1536, som väl har en
På tal om eldswada och gamla verk så tänkte jag fråga om det är någon som har tränat Finereader på fraktur utöver det som finns att ladda ned på runeberg.org ? Jag har skannat första delen av boken och det är mer än 200 sidor vilket kan bli lite tradigt att mata in för hand.
Sedan tänkte jag höra om det är någon som vet om det var vanligt förr i tiden att böcker gavs ut med olika sättning utan någon anmärkning om det. Den boken som jag har lånat om Upsalas brand 1702 skiljer sig nämligen på några ställen från den som är publicerad på Runeberg. Det är inte mycket som skiljer men kanske i snitt är ett halvt ord per sida som är annorlunda stavat.
//Kalle
Jo, men visst finns det väl olika typer av fraktur i massor av verk! Mina gamla psalmböcker, särskilt de äldsta från 1700-talet har stora variationer.
Jag har (naturligtvis) inte tränat Finereader eller liknande mer avancerade tekniska ting. Jag använder datorn som en skrivmaskin (om än något mer självständig skrivmaskin, med fler finesser som frimärken, radergummi och med bara en sladd så åker kamerabilder in på brevpappret etc). Får man som korrekturläsare här ett verk hyfsat indelat i gripabara avsnitt så behöver 200 sidor inte vara ohemult. Men visst är det tradigt att sätta sig från sidan 0001 och vidare till 0200. Det skulle jag aldrig göra. För det behövs det värnpliktiga. Inte volontärer.
Så om du scannar ett så omfattande verk, så är det jättebra när du laddat upp det och det visar sig att det inte går att OCR-köra så att det blir någorlunda vackert, om du direkt använder originalet och indexerar textmassan. För ett avsnitt på 10-30 sidor är inte helt hemskt att skriva in. Och 20 10-sidorsavsnitt känns avsevärt lättare att ta sig an än 200. För man kan ju välja att bara göra 1 av de 20.
Lite är det väl frågan om hur länge verk kan ligga ofärdiga. Jag tror att man t.v. måste acceptera lång tid. Men eldswada blev väl inte så särskilt gammal innan den var klar? Vår åldsta text är väl Swenska wijsor (1536) och den skulle väl vara guld värd om även de bägge andra exemplaren scannades och blev läsbara för envar. Men klar blev den relativt snabbt i alla fall. Inom ett år tror jag. Och den var på 45 sidor fraktur eller ca 50, som är 1/4-del av 200. : )
Agneta
19 jun 2007 kl. 22.18 skrev Karl Håkansson:
Om det är en mycket gammal text, som t.ex. eldswada från 1703, så har vi ju någorlunda enats om att skriva ut en del av de äldre skrivsätten till moderna (t.ex. nn för ñ). För 1536, som väl har en
På tal om eldswada och gamla verk så tänkte jag fråga om det är någon som har tränat Finereader på fraktur utöver det som finns att ladda ned på runeberg.org ? Jag har skannat första delen av boken och det är mer än 200 sidor vilket kan bli lite tradigt att mata in för hand.
Sedan tänkte jag höra om det är någon som vet om det var vanligt förr i tiden att böcker gavs ut med olika sättning utan någon anmärkning om det. Den boken som jag har lånat om Upsalas brand 1702 skiljer sig nämligen på några ställen från den som är publicerad på Runeberg. Det är inte mycket som skiljer men kanske i snitt är ett halvt ord per sida som är annorlunda stavat.
//Kalle
Runeberg mailing list Runeberg@lists.lysator.liu.se http://lists.lysator.liu.se/mailman/listinfo/runeberg