[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Apache-tee: Apache-Response zum Client abzweigen


Hallo zusammen,

ausgehend vom Grundproblem "Webseiten indexieren" (Suchmaschine) bin ich
an den Punkt gekommen, dass man gerade auf dynamischen Seiten garnicht
regelmaessig einen Spider drueberjagen will, womoeglich noch mit
Endlosschleifen wie in mediawiki, sondern ausgelieferten Content
"passiv" indexieren moechte. Zum einen beschraenkt dies den zu
indexierenden Content auf real zugegriffene Seiten und darueberhinaus
ergibt sich schon durch die Haeufigkeit bestimmter Zugriffe eine Art
natuerliche Gewichtung.

Dabei schwebt mir folgendes Modell vor:

1) Client sendet Request an den Server, dieser loggt den Request-Header
2) Server antwortet mit einem Response an den Client und legt eine Kopie
ab.

Sowohl der Request (nur Header), als auch der Response (Header und Body)
werden unter einer eindeutigen Nummer erfasst und im Filesystem
abgespeichert (Index-Datei, hashdirs), eine Art Queue.

Ein daemon rennt staendig ueber diese Queue und verarbeitet die
Informationen nach bestimmten Regeln, fuellt einen Volltext-Index fuer
komplette Seiteninhalte, aber auch kleinere Indizes fuer
Meta-Informationen, Content-Types, URL-Bestandteile etc und eine Statistik 
ueber die Haeufigkeit bestimmter Zugriffe (Gewichtung). 

Was genau der daemon mit den geloggten Daten anstellt, ist das
Folgeproblem. Primaer suche ich erstmal nach der Moeglichkeit, einen
entsprechenden Apache-Handler zu bekommen, der mir solche Daten
mitloggt. Im Grunde ist es nicht viel anderes als ein aufgebohrter
Log-Handler.

Gibt es da was fertgies, vielleicht auch generische Schnittstellen, mit
der man entsprechende Daten irgendwo rein"pipe"n kann?

Ideen dazu?

Gruss
Raphael



-- 
http://mailman.uugrn.org/mailman/listinfo/uugrn