Hej !
2005-03-19 kl. 09.32 skrev Hans Persson:
fre 2005-03-18 klockan 22.11 skrev Lars Aronsson:
Bry sig ska man definitivt och scriptet fungerar när det får rätt sorts filer, men något har blivit fel i versionen du skickade.
Radbrytningarna i OCR-textfilerna (jmf. http://runeberg.org/naturoch/gotaland/0012.html) blev så här:
Ja, det ser onekligen konstigt ut. Den ZIP-fil som du har laddat upp har två filkataloger, "ocr" och "hyphen", där filerna i den senare saknar radbrytningar, och så långt är allt väl. Men filerna under "ocr" har radbrytningarna på konstiga ställen, nämligen precis så som det nu ser ut på webben. Om du själv tittar på ocr/0012.txt så ser du detta.
Nu undrar jag lite vad du pratar om, faktiskt. Vad jag kan se är det bara jag som hackat på upload.pl som tar hand om uppladdade OCR-filer, och jag har aldrig skrivit kod för att hantera mer än en uppsättning filer.
Jag zipade filen så den fick följande struktur
ocr.zip ocr/ 0001.txt 0002.txt ... hyphen/ 0001.txt 0002.txt ...
och enligt min mening skötte sig upload.pl jättebra men jag vet inte om den brydde sig om hyphen-katalogen.
Jag har tänkt att lägga dit det, men jag har inte hunnit göra något åt det (jag hade planer på att ta emot två zip-filer istället för en med två underkataloger, men det gör väl inte så stor skillnad hur man hanterar den delen). Du får gärna titta på det, för du vet nog bättre hur sammanslagningen av filerna med och utan avstavningar fungerar.
Jag önskar att det räcker med en fil "ocr.zip" som har liknande struktur som ovan. På Mac OS har man börjat packetera program och vissa dokument (.html, .rtf, etc.) som kataloger (.htmld, .rtfd, etc.) med texten och bilder på ett och samma ställe, och det tycker jag är en superb idé. Även Sun's OpenOffice använder (zippade) kataloger som dokumentfiler.