Runeberg

runeberg@lists.lysator.liu.se

11 participants
377 discussions

[Nyhet] Forum
by Joakim Ragnvaldsson 09 Apr '05

09 Apr '05

Vi har nu satt upp ett webbaserat forum. Där kan ni diskutera allt runt Projekt Runeberg! Ni kan skriva som gäst, eller bättra skapa er en egen användare. Det gör ni genom att trycka på "Bli medlem" Gå in och prova och skriv vad ni tycker om det! http://runeberg.org/forum/ Mvh Joakim

1 0

[Nyhet] Forum
by Joakim Ragnvaldsson 09 Apr '05

09 Apr '05

1 0

Blankrader
by Bo Lennart Wahlman 08 Apr '05

08 Apr '05

"farbror.mats" undrar hur man markerar luft, när indrag vid nytt stycke redan automatiskt ersatts med blankrad, och föreslår två blankrader. Förstår inte riktigt problemet. Är det ett extrastort luftrum som eftersträvas? Härmed några reflexioner m a a frågan. Det finns två typografiska verktyg för att markera nytt stycke: Ett litet indrag som på denna rad. ELLER en blankrad mellan stycken utan indrag av första raden såsom i resten av detta inlägg, inte bägge. I första hand en sak om typografisk design, verkets utseendemässiga profil. M a o en fråga om tycke och smak. Tillkommer en del praktiska synpunkter: • Indragsmetoden tar vara på pappersytan bättre än blankradsmetoden. Systematiskt genomfört kan det sammanlagt betyda flera sidor vinst i ett större verk. I större upplagor är papperskostnaden den dominerande posten i totalkostnaden, och några inbesparade sidor kan då betyda mycket pengar. Man vill helst att antalet sidor ska vara en multipel av 32, i nödfall av 16 eller 8. Annars drabbas man av helblanka sidor utan tryck i den färdiga boken, vanligtvis placerade i slutet av boken. Ibland maskerat av en rubrik "Plats för egna anteckningar". Detta har med falsning och häftning att göra. Praktisikt för den som brukar kludda i böcker. I ett större perspektiv innebär det att ett bibliotek med böcker i tusental, kan behöva ett antal extra hyllmetrar för att härbärgera alla böckerna om det är många som har informationslösa sidor. Böckerna blir ju tjockare. Och tyngre. Och dyrare. En nackdel med indragsmetoden är att det kan bli värdigt konstigt vid smala spalter. Sådana kan uppstå när tryckytan till en del upptas av bilder, diagram o d som kringflödas av brödtexten. • Blankradsmetoden har fördelen att underlätta läsningen, men är ju lite slösaktig beträffande pappersåtgången. Kan i vissa lägen ställa till med sidbrytningsproblem. En sida bör inte sluta med en blankrad, och ej heller börja med en blankrad. Då blir satsytan på ett uppslag olika på högersida och vänstersida, vilket är en typografisk styggelse. <footnote>I de "punkterade styckena" ovan skulle jag egentligen vilja ha hängande indrag, men jag tror inte det skulle fungera i alla inblandade e-post-program av varierande konstruktion och med innehavarens egna preferenser för grundinställningen. Många e-post-program klarar en hel del konster, men jämfört med större ordbehandlingsprogram är de ju lite primitiva.</footnote> Blankradsmetoden är det som rekommenderas vid s k systematisk maskinskrivning. Personligen tycker jag att underlättad läsning väger tyngre än priset för ökad pappersåtgång. Bara i sådana fall när sidantalet är oåterkalleligen fastställt på förhand, och mängden av material som MÅSTE få plats är stor, bör man överväga indragsmetoden för att trolla fram plats för några extra rader av budskapet. Vad beträffar Runeberg står det ju tydligt i korrekturanvisningarna att indrag av ett styckes första rad systematiskt ska ersättas av av blankrad. Enligt vad jag sett på de sidor jag behandlat har OCR-läsningen givit varierande resultat beträffande denna detalj. Ibland är saken fixad redan före första korr, ibland inte, och då är det dags för korrekturläsaren att rätta till det enligt anvisningarna. Har ibland för mig själv undrat om den som laddat OCR-versionen kanske fixat till ett och annat i förbifarten, innan det laddades in i Runebergs databas. I korrekturanvisningarna står klart angivet att vi inte ska sträva efter att exakt återge förlagans typografi. Målet är att digitala utgåvan oförvanskat ska förmedla författarens BUDSKAP på ett sökbart sätt. Extra blankrader bidrar inte till att förbättra budskapets innehåll. Undantag möjligen vid extrem poesi och liknande, där själva placeringen av tecknen på satsytan är en del av poetens budskap. Då har det f ö överskridigt gränsen från ordkonst till bildkonst, och borde kanske egentligen kallas "typografisk installation". Sammanfattningsvis anser jag att "farbror.mats" inte — och ingen annan heller — ska lägga in dubbla blankrader i de fall transponering från indragsmetoden till blankradsmetoden redan är klar i första OCR-versionen. För misstags undvikande påpekas att detta epos endast är ett diskussionsinlägg. Jag har ingen befälsrätt här. Men jag har synpunkter på typografi. Det tillkommer Runeberg-projektledningen att bestämma hur man vill ha det. Samt eventuellt förtydliga det som redan bestämt är. B L Wahlman bo.lennart.wahlman(a)wah.se

5 6

Efterbearbetning på OCR-uppladdningar
by Roger Persson 06 Apr '05

06 Apr '05

Hej! Såg att textkonverteringen fungerar nästan helt perfekt. Men själva webbsidan är fortfarande i ISO-8859-1-format. Så å, ä och ö-tecknen blir skräp... Jämför: http://runeberg.org/egn/gudskola/0010.html /Roger

2 1

Dåliga och goda nyheter
by Lars Aronsson 03 Apr '05

03 Apr '05

Projekt Runeberg, Jag måste erkänna att dagens tillkännagivande från skivbolagens organisation STIM kom som något av en chock för mig. Att de höll på att ge slaget förlorat mot MP3-fildelarna var ju klart, men det här hade jag inte väntat mig. För dem av er som inte hunnit följa med, har jag försökt göra en sammanfattning och kort analys på vår startsida, http://runeberg.org Detta kan, om det vill sig illa, få långtgående konsekvenser för Projekt Runebergs verksamhet. Det blir i princip omöjligt att avgöra när ett äldre verk blir helt fritt att återge när man inte bara ska ta hänsyn till upphovsrätten, utan också en omfattande samling av språkliga patent. Jag har därför tagit initiativet till en namninsamling, som jag hoppas ni vill vara med på. Tillsammans kanske vi kan få Akademien på bättre tankar. Länken till uppropet finns också på vår startsida. Som en sista utväg kan jag inte se annat än att vi får satsa på texter som är så gamla att dagens språkliga konstruktioner knappast förekommer, vilket innebär tiden före boktryckarkonstens och reformationsbibelns standardisering. Redan nu finns två verk på fornsvenska inscannade (länkar på startsidan!) och det kommer att bli fler. Så lätt ger vi inte upp! -- Lars Aronsson (lars(a)aronsson.se) Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/

4 7

musikaliska tecken
by Anders Thapper 01 Apr '05

01 Apr '05

Hej, För den som vill se vilka musikaliska, eller andra tecken, som finns i unicode så kan jag tipsa om: http://www.unicode.org/charts/ För tvåstrukna a så tror jag att man kan hitta på en annan nödlösning, om man vill, nämligen att använda ett tecken ur "Combining Diacritical Marks" (0300-036F), tecket är 033F och borde, om jag förstått det hela rätt, lägga två streck ovanför tecknet innan, alltså, a+($033F) skulle ge tvåstrukna a. Återstår att se om det funkar. Testade precis, det blev inte så snyggt, men jag låter det ligga kvar på: http://runeberg.org/muslex/0009.html /Anders

7 9

Klassifikation
by Mattias Mattsson 30 Mar '05

30 Mar '05

Hej! Nu när antalet verk som ingår i Projekt Runeberg är såpass många kan det ibland vara svårt att hitta det man är intresserad av. Kanske är det idé att klassificera verken efter ämne? Enklast vore nog att använda informationen om SAB-klassifikation från LIBRIS. Det skulle dessutom kunna göras mer eller mindre automatiskt. Hur det är med detta upphovsrättsligt har jag ingen aning om, men tycker att det borde vara ok. Vad tycker andra? -- -mattias

2 3

OCR-ligan
by Lars Aronsson 27 Mar '05

27 Mar '05

Projekt Runeberg, Vilken påsk! Snart måste vi införa en ny tabell på Topp 20-sidan som visar vem som OCR-tolkat mest. Just nu ser ligan ut så här: Volymer OCR-tolkade av ------- ------------- 20 Joakim (= jr + joakimr) 5 Ejvind 4 Olle 1 Rogper 1 Unicorn Många av dessa "volymer" är rätt tunna, det ska medges. Leo Tolstoys "Betänken Eder" är 40 sidor. Och det mesta är romaner som är enkla att OCR-tolka. Ännu är vi inte inne på årgångar av Teknisk Tidskrift och Svensk Läraretidning. Men det kommer nog. För dem som inte känner igen signaturen joakimr, så kan jag avslöja att det är en veteran som återvänt. Joakim Ragnvaldsson lade nämligen in "Nils Holgerssons underbara resa" redan på våren 1994. De sista av dess kapitel korrekturlästes 9 juni 1994. (Det var 18 månader innan upphovsrättens skyddstid förlängdes från 50 till 70 år efter författarens död, något som bland andra drabbade Selma Lagerlöf och Hjalmar Bergman. Nu är Hjalmar ute i det fria igen, medan vi fortfarande får vänta ytterligare sex år på Selma.) -- Lars Aronsson (lars(a)aronsson.se) Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/

1 0

Re: [Runeberg] OCR-rekrytering
by Roger Persson 24 Mar '05

24 Mar '05

Hej! 2005-03-19 kl. 14.43 skrev Lars Aronsson: > Hans skrev: > >> fre 2005-03-18 klockan 22.11 skrev Lars Aronsson: >> >>> Bry sig ska man definitivt och scriptet fungerar när det får rätt >>> sorts filer, men något har blivit fel i versionen du skickade. >>> >>>> Radbrytningarna i OCR-textfilerna (jmf. >>>> http://runeberg.org/naturoch/gotaland/0012.html) blev så här: >>> >>> Ja, det ser onekligen konstigt ut. Den ZIP-fil som du har laddat upp >>> har två filkataloger, "ocr" och "hyphen", där filerna i den senare >>> saknar radbrytningar, och så långt är allt väl. Men filerna under >>> "ocr" har radbrytningarna på konstiga ställen, nämligen precis så >>> som det nu ser ut på webben. Om du själv tittar på ocr/0012.txt >>> så ser du detta. >> >> Nu undrar jag lite vad du pratar om, faktiskt. Vad jag kan se är det >> bara jag som hackat på upload.pl som tar hand om uppladdade OCR-filer, >> och jag har aldrig skrivit kod för att hantera mer än en uppsättning >> filer. > > Jag pratar mest om vilka filer Roger hade laddat upp och vad jag > möjligen kunde göra av dem, med eller utan script. Det verkar som > om hans Omnipage-program uppför sig annorlunda, så jag vet inte > vilka råd jag ska ge. Jag tittade närmare på detta och vände mig till bash-prompten för att lösa det hela... Nu blir det nästa "preussisk" radbrytning. :-) Hursomhelst, min spelar det någon roll hurvida radbrytningen är ett CR (0x0D) eller LF (0x0A) tecken? När jag laddade upp "Naturbeskrivning Götaland" (http://runeberg.org/naturoch/gotaland/) använde jag CR-tecken. Eller ska jag testa och ladda upp filer med LF-radbrytning på http://runeberg.org/naturoch/norrland/ för att se om det spelar roll? Inväntar svar... Häls Roger

2 2

Jag, och fritextsökning
by karl wettin 24 Mar '05

24 Mar '05

Hej runeberglistan, jag heter Kalle och har tidigare lovat att korrläsa Olaus Magnus "Historia om de nordiska folken" den dagen verket läggs till. Att jag i dag gick med på listan beror dock på något helt annat. På wikin såg jag att ni är ute efter fritextsökning annan än det som Google tillhandahåller. Jag har jobbat ganska mycket med sånt och kan fixa en relativt bra lösning. En väldigt enkel och fullt fungerande men kanske inte så optimal lösning skulle vara att köra Egothor out-of-box mot siten. Kodar jag lite för att plocka ut enbart relevant text skulle det kunna bli riktigt bra. Det som skiljer Egothor från andra öppna Trie är den otroligt fina unversal-stemmern, d.v.s. sökmotorn kan få träffar på ord i dess grundform, även om man sökt på ordet i en helt annan form, och vice versa. Egothors algorithm för detta är helt matematisk och baseras på den data som finns i sökträdet, vilket är extra intressant då språket i de flesta verken inte är speciellt modernt. Mer konkret förklaring av stemming: en sökning på "bilmotorer" skulle resulterar i träffar på "bilmotor", "bilmotorerna", et.c. Google har inte stöd för något sånt. Innan jag börjar kan det vara bra att veta om jag behöver ta någon speciell hänsyn till webservern, kanske vill ni att jag inte tankar mer än någon sida per minut, identifierar mina anrop med en viss user-agent eller liknande? Naturligtvis har jag baktankar med mitt erbjudande. Jag är en tvättäkta datahamster som tycker om att analysera och klassificera text. Runeberg skulle vara ett intressant corpus att labba med. -- kalle

1 0

← Newer
1
...
20
21
22
23
24
25
26
...
38
Older →

Jump to page:

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

Runeberg