Lars Aronsson lars@aronsson.se wrote
Det är elektroniska faksimilutgåvor, där bara små delar har OCR-tolkats. Någon gång borde vi skaffa oss ett fungerande OCR-program och köra OCR på allt som är inscannat.
Går det att enkelt ladda ner de inskannade sidorna (dvs. 600 dpi...) på något sätt? (FTP eller annan bulköverföring?) Jag har grottat runt en smula på runeberg-siten, men det är svårt att vara säker på att jag inte missat något.
Jag är smått frestad att se hur väl FineReader klarar denna upplösningen ... blir resultatet hyfsat bra så kan väl vara användbart.
Anders Thulin wrote:
Går det att enkelt ladda ner de inskannade sidorna (dvs. 600 dpi...)
Nej, de är inte exponerade utåt. Eftersom TIFF-filer inte kan visas av de vanliga webbläsarna, orsakar det bara en massa korkade frågor från fel sorts användare. Men om du vill prov-OCR:a något åt oss, så kan vi öppna en bakdörr åt dig. Vilket verk vill du börja med? Skriv till mig direkt, så ordnar vi det.
Jag är smått frestad att se hur väl FineReader klarar denna upplösningen ... blir resultatet hyfsat bra så kan väl vara användbart.
Det vore mycket intressant att veta. Går det att koppla egna stavningsordlistor till den aktuella versionen av FineReader? Vi har ju en hel del "jernvägar" och "hvarför" i våra texter. Vi kan relativt lätt skapa en ordlista om bara formatet är känt.
Lars Aronsson, projektledare.
Lars Aronsson wrote:
Anders Thulin wrote:
Jag är smått frestad att se hur väl FineReader klarar denna upplösningen ... blir resultatet hyfsat bra så kan väl vara användbart.
Det vore mycket intressant att veta. Går det att koppla egna stavningsordlistor till den aktuella versionen av FineReader?
Det verkar som bästa sättet att göra det är att:
a) Definiera ett nytt språk ('Svenska - gammalstafning') baserat på standardsvenska. b) Redigera teckentabellen till detts språk (dvs. inga $ eller #, men med litet fler vokaler med akut och grav accent, t.ex) c) Sedan koppla ordlista till detta
Vi har
ju en hel del "jernvägar" och "hvarför" i våra texter. Vi kan relativt lätt skapa en ordlista om bara formatet är känt.
Har inte gjort några detaljtester men formatet verkar vara .txt (normal eller Unicode). Sedan finns det något .PMD som inte finns beskrivet i dokumentationen (Portable Morphological Dictionary sägs det vara -- verkar vara standardformatet på FRs användarlexikon). Sedan påstås Word .dic fungera också ...
Inga problem heller att få separata .htm-filer för varje sida, verkar det.