In PDF's suchen

Swoncen

Hallo!

Ich würd gern wissen, wie ich von einer Website ein oder mehrere pdf's nach dem Inhalt durchsuchen kann? Wenn ich zum Beispiel nach "Ansprechsperson" suche und es steht in 4 von 5 pdf's, hätte ich gerne, die Files, in denen es gefunden wurde, vielleicht auch die Stelle und den Absatz o.ä. in dem das Wort/Phrase steht... kennt sich da jemand aus?

sauzachn

Was auf jeden Fall unter Linux geht: pdftotext und dann die wichtigen Stellen rausgreppen oder rausregexpen (was für ein Wort!):

Code

pdftotext bla.pdf ; grep blublo bla.txt

Vielleicht gibt es das auch unter Windows (evt. über Cygwin).

Swoncen

Also es ist auf jeden Fall unter Windows. Ich kenn mich mit Cygwin überhaupt nicht aus, aber ich werd danach googln, danke mal für den Tipp! Da ich aber nicht weiß, wie Cygwin funktioniert, sag ich mal sicherheitshalber dazu, dass die ganze Geschichte im Browser laufen soll. Ich hab da an PHP gedacht, kenn aber noch keine Methode dazu.

Falls jemand trotzdem andere Alternativen kennt, dann bitte trotzdem posten.

sauzachn

Zitat von Swoncen

Da ich aber nicht weiß, wie Cygwin funktioniert, sag ich mal sicherheitshalber dazu, dass die ganze Geschichte im Browser laufen soll. Ich hab da an PHP gedacht, kenn aber noch keine Methode dazu.

Cygwin ist im Prinzip nix Anderes als eine Library mit den ganzen Unix-Calls sowie die üblichen (und viele weniger übliche) Unix-Programme/Dienste (grep, awk, sed, vim, X), die darauf aufsetzen.

Und sonst nimm dir halt einen Linux-Server mit Apache/PHP, dann brauchst du nur schauen, dass das Tool dort drauf ist (unter Ubuntu ist es Teil von xpdf-utils) und hast gewonnen

Swoncen

Der Server steht nicht bei mir zu Hause, sondern in der Arbeit und ich kann nicht einfach bestimmen, dass jetzt Linux und XAMPP/Apache installiert wird. Ich muss mir das vorher gut überlegen und 100% sicher sein, dass es mit Cygwin geht.

mfg

EDIT: XAMPP läuft eh auch unter Windows, aber trotzdem..

sauzachn

Eine Alternative wäre, am Server ein Textindizierungsprogramm (so was wie glimpse) zu installieren. Das kann auch Indices von PDFs erzeugen. Dann geht auch das Suchen um einiges schneller.

EDIT: Eine andere Möglichkeit wäre so was wie http://freshmeat.net/projects/jssindex/ Google und freshmeat.net finden noch einige andere Projekte. Ergiebigster Suchterm bisher "text search in pdf".

Swoncen

Ein Indizierungsprogramm soll nicht verwendet werden.

Es sollte wenn möglich ohne Installation einer anderen Software gehen, außerdem rennts auf einem Windows Server. Ich dachte auch eigentlich eher daran, ob vielleicht jemand etwas in die Richtung kennt und nicht im google nach ähnlichen Dingen sucht und hier rein postet. Ich google eh selber, bin aber auf nichts derartiges bis jetzt gestoßen.

sauzachn

Aber wie soll das bitte gehen, wenn du am Server nichts rumtun darfst?! Glaubst du, Windows hat eine PDF API?!

Lord Binary

Wahhhh ... :distur:

Erstens

Zitat

Ich würd gern wissen, wie ich von einer Website ein oder mehrere pdf's nach dem Inhalt durchsuchen kann

Was soll denn das genau heissen ?
Upload von pdfs auf einen Server (per website), der sie irgendwie parst/einliest/verarbeitet ? Wo soll das Ergebnis stehen ?

Das ist schon ziemlich wage, aber gut ...

Zweitens

Zitat

Es sollte wenn möglich ohne Installation einer anderen Software gehen, außerdem rennts auf einem Windows Server.

a) Diese Info nützt herzlich wenig, wenn nicht bekannt ist, welche Software schon installiert ist.
b) Relativ interessant wie das gehen sollte, egal in wie das implementiert wird, ohne pdf-library oder tool wird das wohl nicht in vernünftiger Zeit gehen. das würd ich schon als software bezeichnen.

[EDIT]

Zitat

Aber wie soll das bitte gehen, wenn du am Server nichts rumtun darfst?! Glaubst du, Windows hat eine PDF API?!

Ok, da war jemand schneller, macht mein Post obsolet, denn selbe Message
[/EDIT]

blackie

PDF2TXT
http://www.iscb.de/downloads/winindex.htm

sollte so was ähnliches wie das auf Linux sein nur für windows das proggie is ziemlich klein und lässt sich auch per Kommandozeile bedienen
is glaub ich einfacher als Cygwin zu installieren
scheints braucht man da nur eine URL angeben und die wird nach PDF's durchsucht und gleich in ascii umgeschrieben

Swoncen

Zitat von Lord Binary

Wahhhh ... :distur:

Was isn los? Beruhig dich. Keiner zwingt dich etwas zu schreiben!

Zitat von Lord Binary

Was soll denn das genau heissen ?
Upload von pdfs auf einen Server (per website), der sie irgendwie parst/einliest/verarbeitet ? Wo soll das Ergebnis stehen ?
Das ist schon ziemlich wage, aber gut ...

Wir befinden uns auf einer Website und wollen dort in einer Suchmaschine einen Suchtext eingeben. Dieser Suchtext wird dann in den pdf Files, welche am Server liegen gesucht und das Ergebniss soll auf der Website wieder ausgegeben werden. Und zwar soll das entsprechende pdf-File in dem der Suchtext gefunden wurde aufgelistet werden und ein bisschen Text, am besten der entsprechende Absatz. Alles klar?

Zitat von sauzachn

Aber wie soll das bitte gehen, wenn du am Server nichts rumtun darfst?! Glaubst du, Windows hat eine PDF API?!

Wie kommst du darauf, dass ich das glaube? Es ist für mich mühsam genug diesen Blödsinn zu machen, und meinen Chef zu etwas zu überreden, eine Software am Server zu installieren ist nicht gerade lustig. Ich werd das PDF2TXT testen..

sauzachn

Zitat von Swoncen

Es ist für mich mühsam genug diesen Blödsinn zu machen, und meinen Chef zu etwas zu überreden, eine Software am Server zu installieren ist nicht gerade lustig.

Dein Chef muss überhaupt lustig sein: Windows auf einem Server? WTF?!

hal

Hab auch schon von Windows-Servern gehört, die um irgendwelche Daten zu erhalten, schnell Excel aufgerufen haben, die Daten verarbeitet und exportiert ham und dann das web service the Daten zurückliefert
Bei Windows-Servern ist die Kreativität der Programmierer definitiv gefordert, nachdem man fast gar nix dort irgendwie einfach oder sinnvoll machen kann.

blackie

Zitat von hal

Bei Windows-Servern ist die Kreativität der Programmierer definitiv gefordert, nachdem man fast gar nix dort irgendwie einfach oder sinnvoll machen kann.

naja schließlich gibts so ziemlich jedes sinnvolle unix/linux Programm auch für Windows so wie das PDF2TXT und das meistens sogar freeware
und wenn du einen unix server verwalten kannst sollt es eigentlich einfach sein sich ein paar Windows Tools runterzuladen und zu installieren
man muss sich nur die Mühe machen und danach zu suchen in dem Fall heisst das Teil sogar gleich wie die Linux Variante

Swoncen

Zitat von blackie

naja schließlich gibts so ziemlich jedes sinnvolle unix/linux Programm auch für Windows so wie das PDF2TXT und das meistens sogar freeware
und wenn du einen unix server verwalten kannst sollt es eigentlich einfach sein sich ein paar Windows Tools runterzuladen und zu installieren
man muss sich nur die Mühe machen und danach zu suchen in dem Fall heisst das Teil sogar gleich wie die Linux Variante

Naja das PDF2TXT konvertiert die files nur in txt files, mehr nicht.. ich möchte aber in PDF's nach Ausdrücken suchen. jssindex wär perfekt, nur bräucht ichs unter windows.. ich hab bis jetzt kein entsprechendes tool für windows gefunden. Es muss doch irgendwas geben. Mit Apache wäre alles viel leichter, aber das will der Chef wieder nicht.

Gibts vielleicht ein online Service, welches in pdf files nach Ausdrücken sucht?

sauzachn

Zitat von Swoncen

Naja das PDF2TXT konvertiert die files nur in txt files, mehr nicht.. ich möchte aber in PDF's nach Ausdrücken suchen. jssindex wär perfekt, nur bräucht ichs unter windows.. ich hab bis jetzt kein entsprechendes tool für windows gefunden. Es muss doch irgendwas geben. Mit Apache wäre alles viel leichter, aber das will der Chef wieder nicht.

Also ist dein Chef Gegner von "das richtige Werkzeug für den richtigen Job" Aber mal ehrlich: Behindert euch der Chef immer so bei euren Produktivarbeiten? Das gibts ja nicht. Ein Windows-Server ist ja so schon das letzte, aber dann auch noch drauf Dinge machen zu müssen, die unter Unix nicht mal als "Klacks" bezeichnet werden können.

So, nun zum Problem:
1. Mit PHP PDF-Datei in TXT konvertieren (es gibt einen system() Call).
2. Nun mit PHP Funktionen TXT-Datei öffnen und drin suchen (grep oder so was wirds wohl geben), eine Regexp-Lib gibts auch für fortgeschrittenere Dinge.

Das ist ja jetzt nicht mehr schwierig oder?

Swoncen

Hab ich nicht erwähnt, dass wir kein Apache installiert hab? Oder kann man PHP auch ohne Apache betreibern?

Neue Lage: Der Chef hat jetzt seinen Wunsch konkretisiert:

Im Browser auf der Website soll ein Suchbegriff eingeben werden und der wird dann in allen pdf's gesucht und die Ergebnisse werden mit Links angezeigt. Wenn man dann auf ein Ergebnis klickt, soll sich der Adobe Reader öffnen und den Suchbegriff fokusieren.

Jetzt bin ich echt verzweifelt.. ich könnt heuln. Er meint Adobe is scriptfähig soviel er weiß.. super, was bringt mir das?

sauzachn

Zitat von Swoncen

Hab ich nicht erwähnt, dass wir kein Apache installiert hab? Oder kann man PHP auch ohne Apache betreibern?

Müsstest nachschauen, halt ich aber nicht für ausgeschlossen: http://www.php.net

Zitat von Swoncen

Im Browser auf der Website soll ein Suchbegriff eingeben werden und der wird dann in allen pdf's gesucht und die Ergebnisse werden mit Links angezeigt. Wenn man dann auf ein Ergebnis klickt, soll sich der Adobe Reader öffnen und den Suchbegriff fokusieren.

Sag deinem Chef, dass er ein Trottel ist. Und das mein ich genau so. Nicht jetzt wegen der Aufgabe, sondern: Wenn er dir nicht von Anfang an die tatsächliche Aufgabenstellung gibt, dann verschwendest du nur viel Zeit unnütz. Und damit unsere Zeit, weil am Anfang klang, zumindest für mich, das Problem noch ganz anders.

Ich schätze deinen Auftrag als ohne was am Server installieren zu dürfen als ziemlich unumsetzbar ein. Ist er Techniker? Eher nicht oder?

Wie gehst du jetzt weiter vor: Das Problem in Teilprobleme zerlegen:
1. Schauen, ob und wie das mit dem Scripting im Adobe Reader funktioniert. Dazu mit einer einzigen Datei testen, ob du an eine bestimmte Stelle hüpfen kannst.
2. Wie holst du die benötigten Infos aus PDF-Dateien.
3. Wie verknüpfst du das (also wie speicherst du die Treffer in HTML so, dass du mit einem Link (über ein CGI-Script?) den Adobe richtig aufmachen kannst.

Viel Spaß :devil:

hal

Zitat von Swoncen

Im Browser auf der Website soll ein Suchbegriff eingeben werden und der wird dann in allen pdf's gesucht und die Ergebnisse werden mit Links angezeigt. Wenn man dann auf ein Ergebnis klickt, soll sich der Adobe Reader öffnen und den Suchbegriff fokusieren.

Das klingt sehr nach dem, was Google macht (bis auf Suchbegriff fokussieren). Soweit ich weiß kann man mit Google reden, dass die einem die Seite indizieren, und dann einfach eine Suchbox mit "site:<meine Adresse>" angehängt auf die eigene Seite stellen. Zumindest Apple macht das so, und viele andere auch.

Der 2. Teil ist glaub ich ziemlich unerfüllbar mit der Lösung.

Zitat

Jetzt bin ich echt verzweifelt.. ich könnt heuln. Er meint Adobe is scriptfähig soviel er weiß.. super, was bringt mir das?

Nichts. Außer evtl, wenn du ein ActiveX-Ding programmieren willst, das den Acrobat Reader fernsteuert. Das geht aber nur für inhouse-Lösungen, wo die Computerumgebung am Client genau bekannt ist.

Swoncen

PHP läuft zwar auch ohne Apache Commandline: ("php test.php"), aber das gilt nur zur ausführung einzelner files.. für einen Server ist das ausgeschlossen..

Ich hab einmal die Hauptprobleme zusammengefasst:

1.) Suchengine, die den Begriff finden kann. PHP ausgeschlossen. Ich hab eine JavaScript Engine gefunden, aber wie ich mit der in pdf files suchen kann...

2.) Daten bereit stellen. Der Chef meint, dass es bei so vielen pdf's ein bisschen blöd sei die ganzen pdf's in txt oder html files zu konvertieren (Ich hab ein Tool für PDF->HTML gefunden, was meine größte Hoffnung ist, da man auf HTML gut suchen kann und die Formatierung vorhanden bleibt) und immer neben den pdf's am server liegen zu haben.

3.) Die Verknüpfung zwischen dem Suchbegriff und den Stellen in den Files.

Das lustige (für mich traurige) ist ja, dass die ganze Geschichte nur fürs Intranet ist.....................

Das naheliegenste für mich ist folgende Idee:
Wöchentlich (am WE) ein automatisiertes Programm zur Indexerstellung der pdf's laufen zu lassen und mit der JavaScript Suchengine in der Datenbank dann zu suchen, aber JavaScript kann doch keine Files öffnen oder?

Jetzt mitmachen!