[sage] Suche nach lokaler, webbasierter Volltextsuchmaschine
Snoopy
snoopy at snoopix.de
Tue Jun 3 17:47:17 CEST 2008
Aloha,
der Webglimpse Theorie kann ich mich anschliessen. Aber meins war nicht
gelb. :-)
PDFs kannst Du nur indizieren, wenn da noch so der Text mit drinne ist.
Das kann man bei der Generierung von PDFs als Option angeben. Wenn der
TExt weg ist (d.h. Du hast nur die bona-fide PDF-Bitmap), dann hast Du
da Pech.
Unter Windoof gibt es einige sehr gute character-recognition Programme,
die aus PDF und anderen Bitmaps auch wieder Text machen - das geht
ganz hervorragend und ich habe so einige alte Glossen wieder auf die
MAschine gewuchtet.
Generell verwendet Webglimpse so exerne Progrämmle um die Texte
zugänglich zu machen & zu indizieren, z.B. pdf2text, doc2text usw.
Einige davon kannst Du -räusper- modifizieren um Doks zu indizieren die
lt. PDF Bits den Text nicht lesbar haben wollen. Du kansst auch eigene
Progs schreiben und über Regeln mit den Suffixen der Docs dann
assoziieren. Das ist enorm praktisch, wenn Du an so Dinge wie Edifact
oder so willst.
Ein Kunde von mir nimmt Webglimpse um in seinem Doku-Wiki Zeugels zu
finden, so als zweite Schnitstelle zum Wiki. Und da liegt noch jede
MEnge Zeugs auf einem alten Novell Server, Das wird alles erfasst und
über eine nette Web Oberfläche dargeboten.
Ich glaube die Lizenz war so 50 Dollar oder so ? Echt ginstig.
Love
SNoopy
Wolfgang Stief wrote:
> Hallo Admins!
>
> Ich hatte vor vielen Jahren mal unter Debian eine Volltextsuchmaschine
> im Einsatz, die u. a. PDF indizieren konnte. Das Ding kam nicht als
> Debian-Paket, hatte glaube ich einen Java-Installer dabei.
>
> Lief als Webserver auf der lokalen Maschine, incl. der Admin-Oberfläche
> und natürlich auch die Suche. Da konnte man dann Pfade einstellen, die
> indiziert werden und je Pfad auch ein paar Parameter (wie oft, welche
> Uhrzeit etc.).
>
> Soweit ich weiß, war damals (ca. 3+ Jahre her) eine Version 1.5 ohne
> Lizenz nutzbar, eine neuere Version war lizenzpflichtig. Die Software
> war glaube ich nicht Open Source.
>
> Die Oberfläche war ziemlich viel gelb, daran kann ich mich auch noch
> erinnern. Hat jemand eine Idee, was das für eine Software gewesen sein
> könnte? Ich habe schon recht intensiv Google bemüht, aber so recht
> komme ich auf keinen grünen Zweit. Danke für Hinweise.
>
>
> wolfgang
>
>
>
> ------------------------------------------------------------------------
>
> _______________________________________________
> SAGE mailing list
> SAGE at guug.de
> http://lists.guug.de/mailman/listinfo/sage
--
Snoopy EDV-Beratung
Am Rain 16
85622 Weissenfeld
Germany
Voice: +49-171-710 03 23
Paper: +49-171-719 35 28
USt-ID: DE233252526
More information about the SAGE
mailing list