Standard bei der Indizierung von Webinhalten durch Crawler/Suchmaschinen im Internet

  • Servus,

    ich muss vorweg schicken, dass ich totaler Laie bin und von der Technik "hinter dem Internet" und Informatik im Allgemeinen so gar keine Ahnung habe. Ich bitte euch also in Betracht zu ziehen dass ich Begriffe evtl. falsch verwende oder sogar meine Frage gar keinen Sinn ergibt. Aber trotzdem der Versuch:

    Eine Kontroverse um die das in Deutschland nun auch aktualisierte Interface der Google Bildersuche erzeugt bei einigen Interessensgruppen Unmut. Im Kern geht es um evtl. durch Googles Bildersuche verletzte Urheber und Wettbewerbsinteressen. Ich möchte hier aber explizit keine Diskussion um das Urheberrecht und dessen Herausforderungen im Netz starten.

    Ich habe dazu folgende Frage: Die Indizierung von Webinhalten durch Suchmaschinen erfolgt mit sog. "Crawlern" und deren Verhalten wird ausschließlich von den in einer "robots.txt" Datei enthaltenen Informationen beeinflusst, sofern es diese Datei überhaupt gibt. Mittels dieser robots.txt Datei ist es aktuell nur möglich eine Indizierung zu erlauben, oder sie zu verbieten – Ist das soweit richtig?

    Wäre es (theoretisch) möglich, diesen Standard, der bisher nur die zwei Möglichkeiten "Indizierung – Ja oder Nein" umfasst, zu erweitern?
    Wäre es nicht denkbar bestimmte "Klassen" zu definieren?

    So könnte man, um beim Thema Urheberrecht zu bleiben, verschiedene Rechte definieren und diese Inhalten zu ordnen: so z.B. bestimmtem Content unbeschränkte Möglichkeiten zu Verlinkung oder Teilen-Funktionen zuweisen während andere nur eingeschränkte Möglichkeiten bieten (Sie aber dennoch indiziert werden). Suchmaschinen müssten bei der Präsentation der Suchergebnisse diese "Klassen" berücksichtigen. Eine derartige Möglichkeit würde den Anbietern von Content im netz die Möglichkeit bieten den Schutz ihres Contents differenziert zu gestalten (und wohl eine gehörige Grauzone an Rechtsunsicherheit für alle Beteiligten eliminieren)
    Es wäre doch denkbar, dass Gesetzgeber die berücksichtigung eines solchen Standards für Indizierungen vorgeben, d.h. dass ich zumindest "große" Suchmaschinen Interesse haben sich daran zu halten.
    Ist der Gedanke nachvollziehbar oder total abwegig? Ich würde mich über eine Einschätzung von etwas Technik-versierteren Menschen sehr freuen..

    Danke und Grüße,
    JGawron

  • Frage 1: Nein, deren Verhalten wird nicht ausschließlich über robots.txt gesteuert, aber: ja, das ist eine Schnittstelle, die manche Crawler Website Betreibern bieten, um dem Programm anzuzeigen, ob sie die Indexierung wünschen oder nicht.

    Frage 2: ja, möglich ist alles. Allerdings wäre vermutlich der geschicktere Weg schon in der Datei selbst Metadaten zu hinterlegen, die einen Hinweis auf die Lizenz bzw das Copyright liefern. Bei Bildern, Audiodateien, Videodateien und Dokumenten (pdf, doc, opendokument, ...) gibt es die Möglichkeit bereits jetzt schon.

    Otto: Apes don't read philosophy. - Wanda: Yes they do, Otto, they just don't understand
    Beleidigungen sind Argumente jener, die über keine Argumente verfügen.
    «Signanz braucht keine Worte.» | «Signanz gibts nur im Traum.» 

    Das neue MTB-Projekt (PO, Wiki, Mitschriften, Ausarbeitungen, Folien, ...) ist online
    http://mtb-projekt.at

  • Hola Wings,

    danke für die Antwort!
    Eine Analyse und Verarbeitung der Meta Daten ist ja bereits Realität – allerdings geht die Entwicklung dahin, diese Daten zu ignorieren, oder sie sogar aus Suchergebnissen zu tilgen. Darüberhinaus geht es um die Frage ob oder an welcher Stelle eine Art Standard etabliert werden könnte, an den sich Suchmaschinen-Betreiber bei der Präsentation der Ergebnisse halten müssen. (Die direkte Interaktion zwischen Suchendem und Gefundenem lässt mich da an die "Robots.txt" Datei denken...)

    Mir fehlt das Wissen um hier weiter zu spinnen, ich stelle mir vor, so ein Standard müsste, ähnlich den HTML Standards von einer Organisation wie dem WorldWideWeb Konsortium definiert und gepflegt werden.
    Ein Grundproblem bleibt in meinen Augen, dass ausschließlich Urheber wirtschaftliches Interesse an der Schaffung eines solchen Standards hätten – und diese gegenüber allen anderen "Parteien" ein eklatante Minderheit (wirtschaftlich wie nominell) stellen.

  • Zitat

    Eine Analyse und Verarbeitung der Meta Daten ist ja bereits Realität – allerdings geht die Entwicklung dahin, diese Daten zu ignorieren, oder sie sogar aus Suchergebnissen zu tilgen.

    Wie kommst du darauf?

    Eigentlich geht der Trend in Richtung "noch mehr Context und Inhalt verstehen".
    Google bemüht sich sogar Lizenzen zu filtern: https://www.google.at/advanced_search?
    Scroll ganz runter, dann findest du den Filter Nutzungsrechte.

    Es gibt auch schon Suchmaschinen, die Creative Commons Werke suchen: https://search.creativecommons.org/

    Otto: Apes don't read philosophy. - Wanda: Yes they do, Otto, they just don't understand
    Beleidigungen sind Argumente jener, die über keine Argumente verfügen.
    «Signanz braucht keine Worte.» | «Signanz gibts nur im Traum.» 

    Das neue MTB-Projekt (PO, Wiki, Mitschriften, Ausarbeitungen, Folien, ...) ist online
    http://mtb-projekt.at

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!