Anders Thulin skrev:
När de scannats, och om -- ett stort 'om' -- sökfunktionen blir tillräckligt bra, kan man hitta dem och andra 'okända' verk mycket lättare.
Om hundra år tror jag dels att mänskligheten (alltså Projekt Runeberg, Google och alla andra tillsammans) har hunnit scanna alla gamla böcker, dels att vi hunnit reformera upphovsrätten så att alla nya texter (och musik och filmer) kommer att bli sökbara och lätt och lagligt tillgängliga. Om hundra år. Frågan är bara hur vi kommer dit. I vilken ände ska man börja?
Jag tror på praktiskt arbete snarare än politik. Och jag tror på lagliga metoder framför olagliga. Att scanna äldre böcker i Projekt Runeberg är något som går att göra idag, och det visar på hur användbart det kan vara med litteratur på nätet. Så småningom kanske vi har scannat alla tidskrifter fram till 1934, men där går 70-årsgränsen. Svensk Uppslagsbok från 1950-talet är tabubelagd. Vill vi fortsätta att ha det så, eller ska vi ändra den där lagen? Jag tror att frustrationen över 70-årsgränsen kommer att bli en stark drivkraft, men jag är reformist, inte revolutionär.
En mer radikal proteströrelse mot upphovsrätten är piratkopiering. Detta kan inte jämföras med stöld eller terrorism, utan snarare med trädkramare eller med de missionsföreningar som firade gudstjänst i strid mot konventikelplakatet. Ja, visst bryter de mot lagen, men kanske är det ändå lagen som borde ändras?
Google har visionen att göra all information tillgänglig och sökbar, något som jag fullt ut delar. Google Print är deras projekt för tryckt litteratur. Till skillnad från de flesta digitaliseringsprojekt, nöjer de sig inte med äldre material, utan scannar även upphovsrättsskyddade böcker och tidskrifter. De är ett stort företag och har givetvis anlitat kunniga jurister, som bedömt vad som går att göra på laglig väg. Scanningen skapar bara en intern kopia för eget bruk. Sökningen erbjuds som tjänst, men boksidans innehåll återges inte. Den som söker i print.google.com får bara veta var det fanns en träff. Alltså är det inget exemplar som framställs och inget brott mot upphovsrättslagen.
Några av användarna kanske nöjer sig med detta och snällt går till biblioteket för att slå upp boken. Men många blir nog frustrerade över 70-årsgränsen, som sätter upp detta retsamma hinder. Det politiska trycket för en lagändring ökar. Boksidan finns ju där, ändra lagen så att de kan visa den för mig!
Detta om avvägningen mellan scanning och politik. En annan avvägning är vilka böcker man ska börja scanna.
Inom datavetenskapen talar man om de två angreppssätten "bredden först" och "djupet först". Om vi ska snickra hundra dalahästar, kan vi endera såga, snida och måla den första hästen färdig innan vi börjar på den andra. Eller så kan vi grovt såga till hundra modeller, som vi sedan snidar till rätt form, och sist kan vi måla alla hundra. På båda sätten tar hela arbetet lika lång tid. Men vid halva tiden har man i ena fallet femtio färdiga hästar (djupet först) och i andra fallet har man hundra halvfärdiga hästar (bredden först).
Det verkar som om Google Print arbetar enligt "bredden först". De scannar en årgång ur varje tidskrift, några böcker på varje språk, några böcker i varje ämne. Allt är halvfärdigt, inget är avslutat. Att arbeta på bredden har en avgjord fördel. Om de märker att alla söker efter ord som får träff i en viss tidskrift, så kan de scanna fler årgångar av just den tidskriften.
Projekt Runeberg arbetar också mest på bredden. Folk får korrekturläsa en sida här, en sida där, i vilken ordning de vill. Ta alla uppslagsboksartiklar om ångmaskiner eller januarinumren ur varje tidskrift eller allt som handlar om Värmland. Fördelen är att det som du själv tycker är viktigt blir korrekturläst först. Vid inscanningen är vårt urval också lite slumpartat. Dock brukar vi försöka få med alla banden ur ett flerbandsverk, vilket Google Print ser ut att ha struntat i.
Wikipedia arbetar också på bredden, och detta är en rejäl skillnad mot alla tidigare uppslagsverk som börjat med A--Apostat i första bandet innan de gått vidare till nästa band. Undra på att kritikerna blir frustrerade över att allt är halvfärdigt.
En nackdel med "bredden först" är att det blir svårt att avgöra hur långt man har kommit. Är vi halvvägs än? Genom att Kungliga Biblioteket och Libris-databasen kan anses i det närmaste fullständiga vad gäller svensk litteratur, kan vi konstatera att både Projekt Runeberg och Google Print har mycket kvar att göra. Men hur långt har vi och de kommit egentligen? Google själva är väldigt hemlighetsfulla om hur mycket som har scannats hittills.
Kan vi utomstående upprätta en katalog över alla böcker som de har scannat? (Min förteckning av äldre skandinavisk litteratur kanske är en början.) Kan vi bedöma hur fullständigt varje bok är indexerad? Hur kan vi annars veta vad det är vi söker i?
Just nu tycker jag mig mest se böcker från 1800-talet och från 1990-talet, men inte lika mycket från 1920-1980. En sökning på "Hallsberg" ger 32 träffar i 10 böcker: en från 1903, fyra från 1990-talet och fem från 2000-talet. "Karlskoga" ger 95 träffar i 35 böcker: en från 1884, två från 1980-talet, tio från 1990-talet och tjugoen från 2000-talet. Dessa stickprov antyder att Google Print hittills har samma snedfördelning som resten av webben. Går det att komma fram till en mer nyanserad uppfattning?