Hej runeberglistan,
jag heter Kalle och har tidigare lovat att korrläsa Olaus Magnus "Historia om de nordiska folken" den dagen verket läggs till. Att jag i dag gick med på listan beror dock på något helt annat.
På wikin såg jag att ni är ute efter fritextsökning annan än det som Google tillhandahåller. Jag har jobbat ganska mycket med sånt och kan fixa en relativt bra lösning. En väldigt enkel och fullt fungerande men kanske inte så optimal lösning skulle vara att köra Egothor out-of-box mot siten. Kodar jag lite för att plocka ut enbart relevant text skulle det kunna bli riktigt bra.
Det som skiljer Egothor från andra öppna Trie är den otroligt fina unversal-stemmern, d.v.s. sökmotorn kan få träffar på ord i dess grundform, även om man sökt på ordet i en helt annan form, och vice versa. Egothors algorithm för detta är helt matematisk och baseras på den data som finns i sökträdet, vilket är extra intressant då språket i de flesta verken inte är speciellt modernt.
Mer konkret förklaring av stemming: en sökning på "bilmotorer" skulle resulterar i träffar på "bilmotor", "bilmotorerna", et.c. Google har inte stöd för något sånt.
Innan jag börjar kan det vara bra att veta om jag behöver ta någon speciell hänsyn till webservern, kanske vill ni att jag inte tankar mer än någon sida per minut, identifierar mina anrop med en viss user-agent eller liknande?
Naturligtvis har jag baktankar med mitt erbjudande. Jag är en tvättäkta datahamster som tycker om att analysera och klassificera text. Runeberg skulle vara ett intressant corpus att labba med.
--
kalle