Re: [Runeberg] OCR-rekrytering - Runeberg

19 Mar 2005


      Hej !
2005-03-19 kl. 09.32 skrev Hans Persson:
...
fre 2005-03-18 klockan 22.11 skrev Lars Aronsson:
...
Bry sig ska man definitivt och scriptet fungerar när det får rätt
sorts filer, men något har blivit fel i versionen du skickade.
...
Radbrytningarna  i OCR-textfilerna (jmf.
http://runeberg.org/naturoch/gotaland/0012.html) blev så här:
Ja, det ser onekligen konstigt ut.  Den ZIP-fil som du har laddat upp
har två filkataloger, "ocr" och "hyphen", där filerna i den senare
saknar radbrytningar, och så långt är allt väl. Men filerna under
"ocr" har radbrytningarna på konstiga ställen, nämligen precis så
som det nu ser ut på webben.  Om du själv tittar på ocr/0012.txt
så ser du detta.
Nu undrar jag lite vad du pratar om, faktiskt. Vad jag kan se är det
bara jag som hackat på upload.pl som tar hand om uppladdade OCR-filer,
och jag har aldrig skrivit kod för att hantera mer än en uppsättning
filer.
Jag zipade filen så den fick följande struktur
ocr.zip
    ocr/
    	0001.txt
    	0002.txt
    	...
    hyphen/
    	0001.txt
    	0002.txt
    	...
och enligt min mening skötte sig upload.pl jättebra men jag vet inte om 
den brydde sig om hyphen-katalogen.
...
Jag har tänkt att lägga dit det, men jag har inte hunnit göra något åt
det (jag hade planer på att ta emot två zip-filer istället för en med
två underkataloger, men det gör väl inte så stor skillnad hur man
hanterar den delen). Du får gärna titta på det, för du vet nog bättre
hur sammanslagningen av filerna med och utan avstavningar fungerar.
Jag önskar att det räcker med en fil "ocr.zip" som har liknande 
struktur som ovan. På Mac OS har man börjat packetera program och vissa 
dokument (.html, .rtf, etc.) som kataloger (.htmld, .rtfd, etc.) med 
texten och bilder på ett och samma ställe, och det tycker jag är en 
superb idé. Även Sun's OpenOffice använder (zippade) kataloger som 
dokumentfiler.