Re: [Runeberg] Re: Vad man finner i Google Print

1 Nov 2005


      Anders Thulin skrev:
...
När de scannats, och om -- ett stort 'om' -- sökfunktionen
blir tillräckligt bra, kan man hitta dem och andra 'okända'
verk mycket lättare.
Om hundra år tror jag dels att mänskligheten (alltså Projekt 
Runeberg, Google och alla andra tillsammans) har hunnit scanna 
alla gamla böcker, dels att vi hunnit reformera upphovsrätten så 
att alla nya texter (och musik och filmer) kommer att bli sökbara 
och lätt och lagligt tillgängliga.  Om hundra år.  Frågan är bara 
hur vi kommer dit.  I vilken ände ska man börja?
Jag tror på praktiskt arbete snarare än politik.  Och jag tror på 
lagliga metoder framför olagliga.  Att scanna äldre böcker i 
Projekt Runeberg är något som går att göra idag, och det visar på 
hur användbart det kan vara med litteratur på nätet.  Så småningom 
kanske vi har scannat alla tidskrifter fram till 1934, men där går 
70-årsgränsen.  Svensk Uppslagsbok från 1950-talet är tabubelagd. 
Vill vi fortsätta att ha det så, eller ska vi ändra den där lagen? 
Jag tror att frustrationen över 70-årsgränsen kommer att bli en 
stark drivkraft, men jag är reformist, inte revolutionär.
En mer radikal proteströrelse mot upphovsrätten är piratkopiering. 
Detta kan inte jämföras med stöld eller terrorism, utan snarare 
med trädkramare eller med de missionsföreningar som firade 
gudstjänst i strid mot konventikelplakatet.  Ja, visst bryter de 
mot lagen, men kanske är det ändå lagen som borde ändras?
Google har visionen att göra all information tillgänglig och 
sökbar, något som jag fullt ut delar.  Google Print är deras 
projekt för tryckt litteratur. Till skillnad från de flesta 
digitaliseringsprojekt, nöjer de sig inte med äldre material, utan 
scannar även upphovsrättsskyddade böcker och tidskrifter.  De är 
ett stort företag och har givetvis anlitat kunniga jurister, som 
bedömt vad som går att göra på laglig väg.  Scanningen skapar bara 
en intern kopia för eget bruk.  Sökningen erbjuds som tjänst, men 
boksidans innehåll återges inte.  Den som söker i print.google.com 
får bara veta var det fanns en träff.  Alltså är det inget 
exemplar som framställs och inget brott mot upphovsrättslagen.
Några av användarna kanske nöjer sig med detta och snällt går till 
biblioteket för att slå upp boken.  Men många blir nog frustrerade 
över 70-årsgränsen, som sätter upp detta retsamma hinder.  Det 
politiska trycket för en lagändring ökar.  Boksidan finns ju där, 
ändra lagen så att de kan visa den för mig!
Detta om avvägningen mellan scanning och politik.  En annan 
avvägning är vilka böcker man ska börja scanna.
Inom datavetenskapen talar man om de två angreppssätten "bredden 
först" och "djupet först".  Om vi ska snickra hundra dalahästar, 
kan vi endera såga, snida och måla den första hästen färdig innan 
vi börjar på den andra.  Eller så kan vi grovt såga till hundra 
modeller, som vi sedan snidar till rätt form, och sist kan vi måla 
alla hundra.  På båda sätten tar hela arbetet lika lång tid.  Men 
vid halva tiden har man i ena fallet femtio färdiga hästar (djupet 
först) och i andra fallet har man hundra halvfärdiga hästar 
(bredden först).
Det verkar som om Google Print arbetar enligt "bredden först".  
De scannar en årgång ur varje tidskrift, några böcker på varje 
språk, några böcker i varje ämne.  Allt är halvfärdigt, inget är 
avslutat.  Att arbeta på bredden har en avgjord fördel.  Om de 
märker att alla söker efter ord som får träff i en viss tidskrift, 
så kan de scanna fler årgångar av just den tidskriften.
Projekt Runeberg arbetar också mest på bredden.  Folk får 
korrekturläsa en sida här, en sida där, i vilken ordning de vill.  
Ta alla uppslagsboksartiklar om ångmaskiner eller januarinumren ur 
varje tidskrift eller allt som handlar om Värmland.  Fördelen är 
att det som du själv tycker är viktigt blir korrekturläst först.  
Vid inscanningen är vårt urval också lite slumpartat.  Dock brukar 
vi försöka få med alla banden ur ett flerbandsverk, vilket Google 
Print ser ut att ha struntat i.
Wikipedia arbetar också på bredden, och detta är en rejäl skillnad 
mot alla tidigare uppslagsverk som börjat med A--Apostat i första 
bandet innan de gått vidare till nästa band.  Undra på att 
kritikerna blir frustrerade över att allt är halvfärdigt.
En nackdel med "bredden först" är att det blir svårt att avgöra 
hur långt man har kommit.  Är vi halvvägs än?  Genom att Kungliga 
Biblioteket och Libris-databasen kan anses i det närmaste 
fullständiga vad gäller svensk litteratur, kan vi konstatera att 
både Projekt Runeberg och Google Print har mycket kvar att göra.  
Men hur långt har vi och de kommit egentligen?  Google själva är 
väldigt hemlighetsfulla om hur mycket som har scannats hittills.
Kan vi utomstående upprätta en katalog över alla böcker som de har 
scannat?  (Min förteckning av äldre skandinavisk litteratur kanske 
är en början.)  Kan vi bedöma hur fullständigt varje bok är 
indexerad?  Hur kan vi annars veta vad det är vi söker i?
Just nu tycker jag mig mest se böcker från 1800-talet och från 
1990-talet, men inte lika mycket från 1920-1980.  En sökning på 
"Hallsberg" ger 32 träffar i 10 böcker: en från 1903, fyra från 
1990-talet och fem från 2000-talet.  "Karlskoga" ger 95 träffar i 
35 böcker: en från 1884, två från 1980-talet, tio från 1990-talet 
och tjugoen från 2000-talet.  Dessa stickprov antyder att Google 
Print hittills har samma snedfördelning som resten av webben.  
Går det att komma fram till en mer nyanserad uppfattning?
-- 
  Lars Aronsson (lars@aronsson.se)
  Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

Re: [Runeberg] Re: Vad man finner i Google Print