Hej runeberglistan,
jag heter Kalle och har tidigare lovat att korrläsa Olaus Magnus
"Historia om de nordiska folken" den dagen verket läggs till. Att jag i
dag gick med på listan beror dock på något helt annat.
På wikin såg jag att ni är ute efter fritextsökning annan än det som
Google tillhandahåller. Jag har jobbat ganska mycket med sånt och kan
fixa en relativt bra lösning. En väldigt enkel och fullt fungerande men
kanske inte så optimal lösning skulle vara att köra Egothor out-of-box
mot siten. Kodar jag lite för att plocka ut enbart relevant text skulle
det kunna bli riktigt bra.
Det som skiljer Egothor från andra öppna Trie är den otroligt fina
unversal-stemmern, d.v.s. sökmotorn kan få träffar på ord i dess
grundform, även om man sökt på ordet i en helt annan form, och vice
versa. Egothors algorithm för detta är helt matematisk och baseras på
den data som finns i sökträdet, vilket är extra intressant då språket i
de flesta verken inte är speciellt modernt.
Mer konkret förklaring av stemming: en sökning på "bilmotorer" skulle
resulterar i träffar på "bilmotor", "bilmotorerna", et.c. Google har
inte stöd för något sånt.
Innan jag börjar kan det vara bra att veta om jag behöver ta någon
speciell hänsyn till webservern, kanske vill ni att jag inte tankar mer
än någon sida per minut, identifierar mina anrop med en viss user-agent
eller liknande?
Naturligtvis har jag baktankar med mitt erbjudande. Jag är en tvättäkta
datahamster som tycker om att analysera och klassificera text. Runeberg
skulle vara ett intressant corpus att labba med.
--
kalle