Monika Palmgren meepa_2000@yahoo.se wrote:
Vad är vitsen att scanna in en massa böcker, när man sedan bara visar fragment?
Referensändamål, snarare än för läsning.
W. S. Porter skrev en hel del noveller redan innan han blev O. Henry -- men inte alla har hittat vägen till standardantologierna eftersom det kräver ett jättearbete att gå igenom årgång efter årgång av amerikansk periodika för att få korn på dem. Med litet tur kan volymerna vara indexerade, men alltför ofta är de inte det.
När de scannats, och om -- ett stort 'om' -- sökfunktionen blir tillräckligt bra, kan man hitta dem och andra 'okända' verk mycket lättare.
Frans G. Bengtssons 'Karoliner' är väl just en samling med sådana 'bortglömda' artiklar som någon snubblade över i någon tidskrift. Hade den funnits i Google Print hade sannolikheten varit mycket högre att de hittats mycket tidigare.
Visst vore det bra att kunna läsa materialet on-line -- men bara att få reda på var det finns någonstans är minst 80% av jobbet.
Anders Thulin skrev:
När de scannats, och om -- ett stort 'om' -- sökfunktionen blir tillräckligt bra, kan man hitta dem och andra 'okända' verk mycket lättare.
Om hundra år tror jag dels att mänskligheten (alltså Projekt Runeberg, Google och alla andra tillsammans) har hunnit scanna alla gamla böcker, dels att vi hunnit reformera upphovsrätten så att alla nya texter (och musik och filmer) kommer att bli sökbara och lätt och lagligt tillgängliga. Om hundra år. Frågan är bara hur vi kommer dit. I vilken ände ska man börja?
Jag tror på praktiskt arbete snarare än politik. Och jag tror på lagliga metoder framför olagliga. Att scanna äldre böcker i Projekt Runeberg är något som går att göra idag, och det visar på hur användbart det kan vara med litteratur på nätet. Så småningom kanske vi har scannat alla tidskrifter fram till 1934, men där går 70-årsgränsen. Svensk Uppslagsbok från 1950-talet är tabubelagd. Vill vi fortsätta att ha det så, eller ska vi ändra den där lagen? Jag tror att frustrationen över 70-årsgränsen kommer att bli en stark drivkraft, men jag är reformist, inte revolutionär.
En mer radikal proteströrelse mot upphovsrätten är piratkopiering. Detta kan inte jämföras med stöld eller terrorism, utan snarare med trädkramare eller med de missionsföreningar som firade gudstjänst i strid mot konventikelplakatet. Ja, visst bryter de mot lagen, men kanske är det ändå lagen som borde ändras?
Google har visionen att göra all information tillgänglig och sökbar, något som jag fullt ut delar. Google Print är deras projekt för tryckt litteratur. Till skillnad från de flesta digitaliseringsprojekt, nöjer de sig inte med äldre material, utan scannar även upphovsrättsskyddade böcker och tidskrifter. De är ett stort företag och har givetvis anlitat kunniga jurister, som bedömt vad som går att göra på laglig väg. Scanningen skapar bara en intern kopia för eget bruk. Sökningen erbjuds som tjänst, men boksidans innehåll återges inte. Den som söker i print.google.com får bara veta var det fanns en träff. Alltså är det inget exemplar som framställs och inget brott mot upphovsrättslagen.
Några av användarna kanske nöjer sig med detta och snällt går till biblioteket för att slå upp boken. Men många blir nog frustrerade över 70-årsgränsen, som sätter upp detta retsamma hinder. Det politiska trycket för en lagändring ökar. Boksidan finns ju där, ändra lagen så att de kan visa den för mig!
Detta om avvägningen mellan scanning och politik. En annan avvägning är vilka böcker man ska börja scanna.
Inom datavetenskapen talar man om de två angreppssätten "bredden först" och "djupet först". Om vi ska snickra hundra dalahästar, kan vi endera såga, snida och måla den första hästen färdig innan vi börjar på den andra. Eller så kan vi grovt såga till hundra modeller, som vi sedan snidar till rätt form, och sist kan vi måla alla hundra. På båda sätten tar hela arbetet lika lång tid. Men vid halva tiden har man i ena fallet femtio färdiga hästar (djupet först) och i andra fallet har man hundra halvfärdiga hästar (bredden först).
Det verkar som om Google Print arbetar enligt "bredden först". De scannar en årgång ur varje tidskrift, några böcker på varje språk, några böcker i varje ämne. Allt är halvfärdigt, inget är avslutat. Att arbeta på bredden har en avgjord fördel. Om de märker att alla söker efter ord som får träff i en viss tidskrift, så kan de scanna fler årgångar av just den tidskriften.
Projekt Runeberg arbetar också mest på bredden. Folk får korrekturläsa en sida här, en sida där, i vilken ordning de vill. Ta alla uppslagsboksartiklar om ångmaskiner eller januarinumren ur varje tidskrift eller allt som handlar om Värmland. Fördelen är att det som du själv tycker är viktigt blir korrekturläst först. Vid inscanningen är vårt urval också lite slumpartat. Dock brukar vi försöka få med alla banden ur ett flerbandsverk, vilket Google Print ser ut att ha struntat i.
Wikipedia arbetar också på bredden, och detta är en rejäl skillnad mot alla tidigare uppslagsverk som börjat med A--Apostat i första bandet innan de gått vidare till nästa band. Undra på att kritikerna blir frustrerade över att allt är halvfärdigt.
En nackdel med "bredden först" är att det blir svårt att avgöra hur långt man har kommit. Är vi halvvägs än? Genom att Kungliga Biblioteket och Libris-databasen kan anses i det närmaste fullständiga vad gäller svensk litteratur, kan vi konstatera att både Projekt Runeberg och Google Print har mycket kvar att göra. Men hur långt har vi och de kommit egentligen? Google själva är väldigt hemlighetsfulla om hur mycket som har scannats hittills.
Kan vi utomstående upprätta en katalog över alla böcker som de har scannat? (Min förteckning av äldre skandinavisk litteratur kanske är en början.) Kan vi bedöma hur fullständigt varje bok är indexerad? Hur kan vi annars veta vad det är vi söker i?
Just nu tycker jag mig mest se böcker från 1800-talet och från 1990-talet, men inte lika mycket från 1920-1980. En sökning på "Hallsberg" ger 32 träffar i 10 böcker: en från 1903, fyra från 1990-talet och fem från 2000-talet. "Karlskoga" ger 95 träffar i 35 böcker: en från 1884, två från 1980-talet, tio från 1990-talet och tjugoen från 2000-talet. Dessa stickprov antyder att Google Print hittills har samma snedfördelning som resten av webben. Går det att komma fram till en mer nyanserad uppfattning?
Hej,
Dansk presse beretter at det kan være billigere at transkribere, end at scanne+OCR+korrekturlæse:
http://politiken.dk/VisArtikel.iasp?PageID=406499
Er det dog rigtigt?
mvh
Holger
Den 6 november skrev Holger:
Dansk presse beretter at det kan være billigere at transkribere, end at scanne+OCR+korrekturlæse: http://politiken.dk/VisArtikel.iasp?PageID=406499 Er det dog rigtigt?
I artiklen jämförs kostnaden för att låta kineser transkribera med kostnaden för att scanna och låta danska akademiker korrekturläsa. Scanning kan göras rätt billigt, kanske 1 krona per sida, men att låta danska akademiker korrekturläsa kan kosta 100 gånger mer. Enligt artikeln har det kostat 800.000 danska kronor att få kineserna att transkribera 37.778 spalter, vilket väl är hälften så många sidor, eller alltså 42 kronor per sida. Ekonomiskt är detta en ren vinst, men under vilka villkor arbetar kineserna?
Projekt Runeberg använder inga pengar alls för arbete, utan använder ideellt arbete, vilket på norska heter "dugnad". ("Våren 2004 ble ordet dugnad kåret til Norges nasjonalord", berättar Wikipedia, http://no.wikipedia.org/wiki/Dugnad) Det betyder att det kostar oss 0 kr per sida att scanna och korrekturläsa, men samtidigt kan vi inte garantera någon tidplan för när (eller om!) arbetet ska bli färdigt. Totalt har vi nu 368.000 boksidor i faksimil och om de hade kostat 42 kronor styck, så hade hela projektet kostat 15,4 miljoner kronor. Om vi bara räknar de korrekturlästa 75.000 sidorna, blir det 3,1 miljoner.
Svenska Akademien har låtit scanna de hittills utgivna 33 banden (1893-2002, A - Talkuminera) av sin "Ordbok över svenska språket" men texten har inte korrekturlästs fullständigt. Resultatet är sökbart på www.saob.se och är för det mesta korrekt, men inte alltid. Jag vet inte vad detta har kostat.
Svenskt Biografiskt Lexikon har hittills utkommit i 31 band (1917-2002, Abelin - Segerstedt) och finns scannat och fullständigt korrekturläst att köpa på CDROM. Enligt rykten var det en firma som gjorde korrekturläsningen till fast pris, vilket var en god affär för SBL och en dålig affär för firman. Information om verket finns på www.sblexikon.se