In PDF's suchen

  • PHP läuft zwar auch ohne Apache Commandline: ("php test.php"), aber das gilt nur zur ausführung einzelner files.. für einen Server ist das ausgeschlossen..

    Was für ein Webserver kommt zum Einsatz? Ich glaub die können alle PHP, muss ja nicht Apache sein.

    Zitat

    1.) Suchengine, die den Begriff finden kann. PHP ausgeschlossen. Ich hab eine JavaScript Engine gefunden, aber wie ich mit der in pdf files suchen kann...

    Die müsste jedesmal sämtliche PDFs runterladen vom Server. Selbst wenn das gehen würde (was es nicht tut), ist das nicht brauchbar.

    Zitat

    2.) Daten bereit stellen. Der Chef meint, dass es bei so vielen pdf's ein bisschen blöd sei die ganzen pdf's in txt oder html files zu konvertieren und immer neben den pdf's am server liegen zu haben.

    Richtig.

    Zitat

    Das lustige (für mich traurige) ist ja, dass die ganze Geschichte nur fürs Intranet ist.....................

    Wie wärs mit einem normalen Desktop-App, das einfach am Server liegt und die User via smb-share aufrufen können?

    Zitat

    Wöchentlich (am WE) ein automatisiertes Programm zur Indexerstellung der pdf's laufen zu lassen und mit der JavaScript Suchengine in der Datenbank dann zu suchen, aber JavaScript kann doch keine Files öffnen oder?

    Nein, aber via AJAX kann man da schon einiges machen. Braucht aber auch wieder Webserver-Support.

    [font=verdana,sans-serif]"An über-programmer is likely to be someone who stares quietly into space and then says 'Hmm. I think I've seen something like this before.'" -- John D. Cock[/font]

    opentu.net - freier, unzensierter Informationsaustausch via IRC-Channel!
    Hilfe und Support in Studienangelegenheiten, gemütliches Beisammensein, von und mit Leuten aus dem Informatik-Forum!

  • ich hätte da einen vorschlag:
    du indeziert die pdfs, z.b. mit hilfe von pdftotext oä.
    in den suchergebnissen listest du d. pdfs auf, die den gesuchten term enthalten und verlinkst diese folgendermaßen:

    Code
    <a href="foo.pdf#search=%22MEIN SUCHTERM%22>foo.pdf</a>

    der adobe acrobat reader listet dann selbständig alle zeilen auf, wo dein suchterm vorhanden ist und highlightet diese.

    Otto: Apes don't read philosophy. - Wanda: Yes they do, Otto, they just don't understand
    Beleidigungen sind Argumente jener, die über keine Argumente verfügen.
    «Signanz braucht keine Worte.» | «Signanz gibts nur im Traum.» 

    Das neue MTB-Projekt (PO, Wiki, Mitschriften, Ausarbeitungen, Folien, ...) ist online
    http://mtb-projekt.at

  • Wings-of-Glory! DU hast meinen Tag gerettet. Das war ein Riesen-Schritt in Richtung "Endlich fertig mit dem Sh*t"

    Super, funktioniert. Jetzt nur noch ein Programm finden, welches die Indizes erstellt und eine Suchengine, und das ganze is perfekt. Ich glaub so dürfts hinhaun.

    mfg


    EDIT: Woher hast du die Info? Kannst du eine Quelle dazu angeben? Ich würd nämlich noch gern wissen, wie ich optionale parameter wie "ganzes Wort" usw. einstellen kann.

    640K ought to be enough for anybody. :eek2:

  • Hallo DGA,

    Daran hab ich auch schon gedacht, aber meine Zeit ist knapp. Ich hab auch noch ein anderes Projekt am laufen und für die Suchmaschine bleibt maximal noch der Montag und der Dienstag. Ich hab schon eine Javascript-Suchmaschine und wie man die pdf's verlinkt, damit sie auf eine gewünschte Stelle springen weiß ich dank WOG auch. Jetzt brauch ich nur noch einen Indexer, der die pdf's indiziert und dann bin ich eh schon fertig. Vielleicht noch ein kleines C-Programm falls die Resultate vom Indexer nicht ins Format der Suchmaschine passen.

    Falls es noch wen interessiert, ich hab eine gute Doku gefunden:
    http://partners.adobe.com/public/develop…nParameters.pdf

    640K ought to be enough for anybody. :eek2:

  • Falls es jemanden interessiert: Ich hab jetzt auch endlich herausgefunden, wie man Umlaute mitüberträgt. Normalerweiße wird bei

    <a href="foo.pdf#search='Hörsaal'>foo.pdf</a>


    nicht nach Hörsaal, sondern nach Hrsaal gesucht. %F6 sollte funktionieren, hat es aber nicht. Ich hab herausgefunden, dass "ö" z.B. zu %C3%B6 wird. Ich kopier mal aus meinen Code die Stelle heraus, bei der ich die Zeichen konviertiere:



    replace("ö", "%C3%B6");
    replace("Ö", "%C3%B6");
    replace("ä", "%C3%A4");
    replace("Ä", "%C3%84");
    replace("ü", "%C3%BC");
    replace("Ü", "%C3%9C");
    replace("ß", "%C3%9F");
    replace("§", "%C2%A7");

    Vielleicht braucht es ja irgendwann mal wer. Der Grund für diese Konvertierung dürfte am charset liegen.

    mfg

    640K ought to be enough for anybody. :eek2:

  • Übrigens hab ich jetzt ein neues Problem.

    Bei mir funktioniert die Suche in den pdf's, aber bei anderen nicht. Es dürfte sich um einen Versionskonflikt handeln.

    Ich hab die Version "Adobe Acrobat 7.0 Standard (7.0.0)", bei der es funktioniert. Die Version, bei der die Suche über den Link nicht funktioniert ist die Version "Adobe Acrobat 7.0 Standard (7.0.8)" und höher.

    Ich nehm an es liegt an den Sucheinstellungen im Reader, hab aber noch nichts genaueres herausgefunden. Weiß jemand bescheid?


    mfg

    640K ought to be enough for anybody. :eek2:


  • Vielleicht braucht es ja irgendwann mal wer. Der Grund für diese Konvertierung dürfte am charset liegen.

    Ja, der dürfte sinnvollerweise UTF-8 verwenden, und du sinnloserweise ISO8859-1.

    [font=verdana,sans-serif]"An über-programmer is likely to be someone who stares quietly into space and then says 'Hmm. I think I've seen something like this before.'" -- John D. Cock[/font]

    opentu.net - freier, unzensierter Informationsaustausch via IRC-Channel!
    Hilfe und Support in Studienangelegenheiten, gemütliches Beisammensein, von und mit Leuten aus dem Informatik-Forum!

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!