On 24-Feb-10, Lars Aronsson wrote:
>
> [ENGLISH SUMMARY: How should we build a better website for
> large size newspapers? Is it possible to link to a position
> in a large image? Which websites have solved this problem?]
>
> Om man länkar till en sida i Sundsvalls Tidning, så har man sex
> spalter att
> leta i, innan man hittar den artikel eller annons som man ville
> länka till.
> Lät mig ge ett exempel på problemet:
>
> Hitta artikeln "Häftig snöstorm i Newyork" på den här sidan,
> http://runeberg.org/sundtidn/1888/0143.html
>
> Det går inte helt fort att hitta. Artikeln finns i spalt 4, nedanför
> Stanley-expeditionen, Ryske tronföljaren och Sur mjölk.
>
> I en vanlig webbsida (HTML) kan man sätta in "ankare" och länka
> till dem
> med # i URLen. Men hur gör man för att länka till en viss position i
> en stor bild? Finns det några bra lösningar för detta? Några
> förebilder?
>
> Kort sagt: Finns det några webbsajter med inscannade dagstidningar,
> som
> har lyckats lösa detta pä ett bra sätt?
>
> Detta utgör inget problem i vanliga böcker och tidskrifter, i små
> tidningar....
> Det är når man kommer till dagstidningar i stort format med 6 eller 8
> spalter som problemet ger sig till könna.
Dear Lars,
[SVENSKA SAMMANFATTNING: Korrekturläsning af tidningens plakatsidor
utgör en särskild utmaning. Karakter-baserade PDF-filer kan innehålla
lokala lenker, men bildbaserade PDF-filer kan icke. Arbeta i en
textredigerare och Acrobat kan vara enklare än att använda Runebergs
gränssnittet.]
As an exercise, I proofread this page last night and uploaded the
result to the Runeberg project. I agree that it is not easy to deal
with such large pages. I simplified my task by copying the entire
page of OCR text into a text file which I enlarged to 16 point
Courier (so that I could easily tell the difference between capital
letter I, lowercase letter l and the numeral 1, for instance).
The image was, indeed, a very large file to look through. Other
Runeberg proofreaders may also try making a local copy of the page
scan (right-click on the Print/PDF button near the top left of
Runeberg's page) and viewing it from within Adobe Acrobat. This can
be helpful, especially with viewing the small type, since Acrobat
allows for much bigger enlargements than Runeberg's default maximum
of 200 percent.
I was pleased to see that the OCR text was arranged in logical order
as opposed to strict physical column order. That was definitely
helpful. Since some preprocessing of the OCR text must have been
necessary to achieve this, perhaps the scanning person could divide
up future page images into smaller chunks, each representing a
complete article or a group of ads and/or filler material. I think
this is how of copies of New York Times articles from the 1800s
appear when one does a Google search for them. (Unfortunately, it
seems that access to such archived PDF articles now requires a paid
subscription.)
The alternative might be to arbitrarily break up future page scans
(before OCR) into perhaps four smaller PDFs, representing the top and
bottom halves of three columns each. This has the advantage of making
the proofreading task more manageable (since each sub-page can be
completed in less time and with less demand on one's computer), but
also has two disadvantages. First, the text files resulting from sub-
page scans might not be complete articles, since it is possible for
an article to run the whole height of a column or to span the two
middle columns, and thereby not be complete on a single sub-page.
Secondly, there would need to be some overlap, at least in the top
and bottom sub-pages, which would result in a little bit of
duplicated effort as well as subsequent processing to combine the
scanned and proofread text from two or more sub-pages into a single
text file.
Other Runeberg proofreaders may also try making a local copy of the
page scan (right-click on the Print/PDF button near the top left of
Runeberg's page) and viewing it from within Adobe Acrobat. This can
be helpful, especially with viewing the small type, since Acrobat
allows much bigger enlargements than Runeberg's default maximum of
200 percent.
Using a page makeup program such as Adobe InDesign or Quark XPress,
one can produce a compact character-text-only PDF or a text-and-
imported-illustrations PDF that replicates the look of the original
scanned-image-only PDF. With a text-based PDF generated from such a
typographic page layout program, it is easy to incorporate any
desired links. However, I know of no way to link to particular areas
of a scanned bitmap-only PDF, which is really only a wrapper for a
downsampled TIFF or JPEG file produced by the scanner.
Proofreading broadsheet newspaper pages represents a special
challenge; it may be that the complexity of the task cannot be
readily eased. Good luck to those who volunteer to help.
Kind regards / Med venlig hilsen,
Erik Bjørn Pedersen
Projekt Runeberg,
[ENGLISH SUMMARY: How should we build a better website for
large size newspapers? Is it possible to link to a position
in a large image? Which websites have solved this problem?]
Hur borde Projekt Runebergs webbplats se ut, om den var full av
dagstidningar?
Vi har redan idag första numret av Aftonbladet och Östgöta Correspondenten,
men dessa är rätt små till formatet. En större drake är Sundsvalls tidning.
http://runeberg.org/ab/http://runeberg.org/corren/http://runeberg.org/sundtidn/
Om man länkar till en sida i Sundsvalls Tidning, så har man sex spalter att
leta i, innan man hittar den artikel eller annons som man ville länka till.
Låt mig ge ett exempel på problemet:
Hitta artikeln "Häftig snöstorm i Newyork" på den här sidan,
http://runeberg.org/sundtidn/1888/0143.html
Det går inte helt fort att hitta. Artikeln finns i spalt 4, nedanför
Stanley-expeditionen, Ryske tronföljaren och Sur mjölk.
I en vanlig webbsida (HTML) kan man sätta in "ankare" och länka till dem
med # i URLen. Men hur gör man för att länka till en viss position i
en stor bild? Finns det några bra lösningar för detta? Några förebilder?
Kort sagt: Finns det några webbsajter med inscannade dagstidningar, som
har lyckats lösa detta på ett bra sätt?
Detta utgör inget problem i vanliga böcker och tidskrifter, i små tidningar,
eller ens i uppslagsverk i två spalter (där artiklarna ändå står
alfabetiskt).
Det är när man kommer till dagstidningar i stort format med 6 eller 8
spalter
som problemet ger sig till känna.
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/