Suche gute (freie) Search Engine für HTML und PDF

  • Kennt jemand eine gute freie search engine die ich auf miener hp einbinden kann. Lieber wäre es mir mit index suche - aber auf jeden fall soll sie auch in pdf suchen können.

    Und je einfacher zum einbinden desto besser!

  • 1. Nein da man nicht beinflussen kann welche seiten einer homepage google indiziert - bei mir sind es nur so 5 von ca. 40

    2.Nein ist aber sonst die beste - hab keine gute freie gefunden die pdfs durchsucht. AUßerdem wollt ich eine indizierte suche haben um bandbreite zu sparen und da is die auswahl noch geringer.

    3.Ja interressant wäre es die routine zu erweitern, aber das mach ich wenn ich zeit hab

  • Lucene ist die freie search engine schlecht hin. Ich habe schon einige Projekte mit Lucene gemacht
    und was Performance und Features betrifft kenn ich nichts, was dem gleichkommt. Die Suche auf
    Wikipedia.org basiert z.B. auf Lucene.

    Mit Lucene kannst Du (unter anderem) Text indizieren und darin suchen. Wie du an den zu indexierenden
    Text kommst, bleibt allerdings Dir überlassen. Lucene ist kein Crawler, und es macht auch keine Datenextraktion.
    Dafür gibt es dann aber z.B. PDFBox, eine Open Source Lösung mit der du den Text aus PDF dateien auslesen
    kannst.

    Sowohl Lucene als auch PDFBox sind in Java geschrieben, allerdings gibt es fuer Lucene ports
    fuer alle moeglichen Plattformen, darunter auch fuer PHP/ZEND.

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!