Hej!
2005-03-19 kl. 14.43 skrev Lars Aronsson:
Hans skrev:
fre 2005-03-18 klockan 22.11 skrev Lars Aronsson:
Bry sig ska man definitivt och scriptet fungerar när det får rätt sorts filer, men något har blivit fel i versionen du skickade.
Radbrytningarna i OCR-textfilerna (jmf. http://runeberg.org/naturoch/gotaland/0012.html) blev så här:
Ja, det ser onekligen konstigt ut. Den ZIP-fil som du har laddat upp har två filkataloger, "ocr" och "hyphen", där filerna i den senare saknar radbrytningar, och så långt är allt väl. Men filerna under "ocr" har radbrytningarna på konstiga ställen, nämligen precis så som det nu ser ut på webben. Om du själv tittar på ocr/0012.txt så ser du detta.
Nu undrar jag lite vad du pratar om, faktiskt. Vad jag kan se är det bara jag som hackat på upload.pl som tar hand om uppladdade OCR-filer, och jag har aldrig skrivit kod för att hantera mer än en uppsättning filer.
Jag pratar mest om vilka filer Roger hade laddat upp och vad jag möjligen kunde göra av dem, med eller utan script. Det verkar som om hans Omnipage-program uppför sig annorlunda, så jag vet inte vilka råd jag ska ge.
Jag tittade närmare på detta och vände mig till bash-prompten för att lösa det hela... Nu blir det nästa "preussisk" radbrytning. :-) Hursomhelst, min spelar det någon roll hurvida radbrytningen är ett CR (0x0D) eller LF (0x0A) tecken?
När jag laddade upp "Naturbeskrivning Götaland" (http://runeberg.org/naturoch/gotaland/) använde jag CR-tecken.
Eller ska jag testa och ladda upp filer med LF-radbrytning på http://runeberg.org/naturoch/norrland/ för att se om det spelar roll?
Inväntar svar...
Häls Roger