[sage] Suche nach lokaler, webbasierter Volltextsuchmaschine

Snoopy snoopy at snoopix.de
Tue Jun 3 17:47:17 CEST 2008


Aloha,

der Webglimpse Theorie kann ich mich anschliessen. Aber meins war nicht 
gelb. :-)

PDFs kannst Du nur indizieren, wenn da noch so der Text mit drinne ist. 
Das kann man bei der Generierung von PDFs als Option angeben. Wenn der 
TExt weg ist (d.h. Du hast nur die bona-fide PDF-Bitmap), dann hast Du 
da Pech.

Unter Windoof gibt es einige sehr gute character-recognition Programme, 
die aus PDF und anderen Bitmaps auch wieder Text machen - das geht
ganz hervorragend und ich habe so einige alte Glossen wieder auf die 
MAschine gewuchtet.

Generell verwendet Webglimpse so exerne Progrämmle um die Texte 
zugänglich zu machen & zu indizieren, z.B. pdf2text, doc2text usw. 
Einige davon kannst Du -räusper- modifizieren um Doks zu indizieren die 
lt. PDF Bits den Text nicht lesbar haben wollen. Du kansst auch eigene 
Progs schreiben und über Regeln mit den Suffixen der Docs dann 
assoziieren. Das ist enorm praktisch, wenn Du an so Dinge wie Edifact 
oder so willst.

Ein Kunde von mir nimmt Webglimpse um in seinem Doku-Wiki Zeugels zu 
finden, so als zweite Schnitstelle zum Wiki. Und da liegt noch jede 
MEnge Zeugs auf einem alten Novell Server, Das wird alles erfasst und 
über eine nette Web Oberfläche dargeboten.

Ich glaube die Lizenz war so 50 Dollar oder so ? Echt ginstig.

Love
SNoopy


Wolfgang Stief wrote:
> Hallo Admins!
> 
> Ich hatte vor vielen Jahren mal unter Debian eine Volltextsuchmaschine
> im Einsatz, die u. a. PDF indizieren konnte. Das Ding kam nicht als
> Debian-Paket, hatte glaube ich einen Java-Installer dabei.
> 
> Lief als Webserver auf der lokalen Maschine, incl. der Admin-Oberfläche
> und natürlich auch die Suche. Da konnte man dann Pfade einstellen, die
> indiziert werden und je Pfad auch ein paar Parameter (wie oft, welche
> Uhrzeit etc.).
> 
> Soweit ich weiß, war damals (ca. 3+ Jahre her) eine Version 1.5 ohne
> Lizenz nutzbar, eine neuere Version war lizenzpflichtig. Die Software
> war glaube ich nicht Open Source.
> 
> Die Oberfläche war ziemlich viel gelb, daran kann ich mich auch noch
> erinnern. Hat jemand eine Idee, was das für eine Software gewesen sein
> könnte? Ich habe schon recht intensiv Google bemüht, aber so recht
> komme ich auf keinen grünen Zweit. Danke für Hinweise.
> 
> 
> wolfgang
> 
> 
> 
> ------------------------------------------------------------------------
> 
> _______________________________________________
> SAGE mailing list
> SAGE at guug.de
> http://lists.guug.de/mailman/listinfo/sage

-- 
Snoopy EDV-Beratung

Am Rain 16
85622 Weissenfeld
Germany
Voice:  +49-171-710 03 23
Paper: +49-171-719 35 28
USt-ID: DE233252526



More information about the SAGE mailing list