[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Apache-tee: Apache-Response zum Client abzweigen
[Thread Prev] | [Thread Next]
- Subject: Apache-tee: Apache-Response zum Client abzweigen
- From: Raphael Becker <rabe@xxxxxxxxxxxxxxx>
- Date: Mon, 30 Jul 2007 01:00:48 +0200
- To: uugrn@xxxxxxxxxxxxxxx
Hallo zusammen, ausgehend vom Grundproblem "Webseiten indexieren" (Suchmaschine) bin ich an den Punkt gekommen, dass man gerade auf dynamischen Seiten garnicht regelmaessig einen Spider drueberjagen will, womoeglich noch mit Endlosschleifen wie in mediawiki, sondern ausgelieferten Content "passiv" indexieren moechte. Zum einen beschraenkt dies den zu indexierenden Content auf real zugegriffene Seiten und darueberhinaus ergibt sich schon durch die Haeufigkeit bestimmter Zugriffe eine Art natuerliche Gewichtung. Dabei schwebt mir folgendes Modell vor: 1) Client sendet Request an den Server, dieser loggt den Request-Header 2) Server antwortet mit einem Response an den Client und legt eine Kopie ab. Sowohl der Request (nur Header), als auch der Response (Header und Body) werden unter einer eindeutigen Nummer erfasst und im Filesystem abgespeichert (Index-Datei, hashdirs), eine Art Queue. Ein daemon rennt staendig ueber diese Queue und verarbeitet die Informationen nach bestimmten Regeln, fuellt einen Volltext-Index fuer komplette Seiteninhalte, aber auch kleinere Indizes fuer Meta-Informationen, Content-Types, URL-Bestandteile etc und eine Statistik ueber die Haeufigkeit bestimmter Zugriffe (Gewichtung). Was genau der daemon mit den geloggten Daten anstellt, ist das Folgeproblem. Primaer suche ich erstmal nach der Moeglichkeit, einen entsprechenden Apache-Handler zu bekommen, der mir solche Daten mitloggt. Im Grunde ist es nicht viel anderes als ein aufgebohrter Log-Handler. Gibt es da was fertgies, vielleicht auch generische Schnittstellen, mit der man entsprechende Daten irgendwo rein"pipe"n kann? Ideen dazu? Gruss Raphael -- http://mailman.uugrn.org/mailman/listinfo/uugrn