Ein Tauchgang zu Web-Metadaten
Das Web wurde als Medium geboren, um Dokumente und andere Medienressourcen online zu teilen. Bis heute basiert es auf HTML, einer Markup Language, mit der Benutzer auf einfache Weise Inhalte erstellen können. Die Leichtigkeit, mit der HTML geschrieben werden kann, war (und ist) ein Faktor, der die Web-Plattform so beliebt machte.
Die einfache Erstellung von Inhalten führte zu einer vermehrten Anzahl an Webseiten. Jedoch war es nicht so einfach, entsprechende Informationen im Internet zu finden. In der Anfangszeit wurde das Problem durch die Erstellung von Linkkatalogen zu bestimmten Themen gelöst. Dieser Ansatz war manuell und wurde bald durch Suchmaschinen ersetzt, die mit Hilfe von automatisierten Prozessen Inhalte aus dem Web durchsuchen und indizieren, um eine durchsuchbare Datenbank zu erstellen.
Suchmaschinen wurden schnell zur dominierenden Kraft im Web. Sie gewannen auch zunehmend an kommerzieller Bedeutung, da sie den Traffic zu den Unternehmen, die ihre Waren und Dienstleistungen verkauften, ankurbelten. Dies wiederum wurde von anderen als Chance gesehen, und so wurde die Branche der Suchmaschinenoptimierung geboren. Unter SEO versteht man den Versuch, die Suchmaschinen so zu beeinflussen, dass der Inhalt auf den Suchergebnisseiten mit Hilfe von Content-Redaktion und/oder technischen Methoden einen hohen Rang einnimmt.
Suchmaschinen kreieren aus einem riesigen Chaos einen Sinn
Der Prozess des Auffindens und Auflistens relevanter Inhalte aus dem Internet ist keine triviale Aufgabe. Man muss über riesige Datenmengen und fortschrittliche Algorithmen verfügen, um sinnvolle Muster darin zu finden. Das Web hat auch eine unglaublich unordentliche Art, Daten zu speichern. Anders als bei den meisten Computerprogrammen, bei denen die Syntax tiptop sein muss oder das Programm nicht läuft, funktioniert HTML auch dann, wenn es ein bisschen kaputt ist.
Die robuste Beschaffenheit des Internets ermöglichte die einfache Erstellung von Inhalten, erschwerte aber deren Verarbeitung. Ein praktisches Beispiel ist, dass Google die definierte Sprache für ein HTML-Dokument völlig ignoriert. Der Grund dafür ist, dass diese Definition oft falsch ist, z.B. aufgrund von Copy-Paste-Vorlagen oder falscher CMS-Konfiguration. Anstatt sich auf die vorgegebene Definition zu verlassen, macht der Algorithmus fundierte Vermutungen: Wenn er sich wie Deutsch liest, ist es dies wahrscheinlich, auch wenn die Definition angibt, dass es Englisch ist.
Es gibt nichts, was Ingenieure und Autoren von Inhalten daran hindert, etwas strukturierteres zu schaffen. HTML hatte schon immer strukturierte Elemente wie Überschriften, die Sie zur Erstellung semantisch relevanter Dokumentstrukturen verwenden können. Sie können auch Metadaten hinzufügen, um dem Inhalt und seinen Beziehungen zu anderen Entitäten im Web eine Bedeutung zu geben. Die Tools existieren und sie werden bis zu einem gewissen Grad genutzt.
Letztendlich bleibt das Open Web im Vergleich zu Unternehmen wie Facebook oder Twitter in kontrollierten "walled gardens" mit einer unvollkommenen Datenmodell-Implementierung stecken. Glücklicherweise ist dies zunehmend kein so großes Problem. Fortschritte in der Technologie (wie das obige Beispiel der Google-Sprache) können die Lücken füllen, in denen semantische Daten nicht vorhanden sind oder wenn die Eingabe von Natur aus falsch ist.
Metadaten sind Daten über Daten
Auch wenn wir vielleicht nie ein vollständig semantisches Web bekommen werden, in dem alles mit allem zusammenhängt und Maschinen die Daten und ihre Bedeutung mit Leichtigkeit verarbeiten können, gibt es immer noch Raum für Verbesserungen. Es ist möglich, unser unordentliches Web mit einigen strukturierten Daten zu annotieren, die es einfacher machen, dem Ganzen einen Sinn zu geben. Die Investition in Metadaten kann auch einen Wettbewerbsvorteil im SEO-Bereich bringen.
Die meisten Personen, die mit dem Web oder Informationsmanagement im Allgemeinen gearbeitet haben, sind mit dem Begriff Metadaten vertraut. Es handelt sich dabei um Informationen, die verwendet werden können, um Inhalten eine zusätzliche Bedeutung zu geben. HTML-Meta-Tags wie Titel und Beschreibung sind die rudimentärste Form davon im Web, aber ausgefeiltere Formate wie Open Graph und Twitter-Karten haben eine zunehmende Verbreitung erfahren.
Die oben genannten Formate sind in ihrem Wortschatz noch alle recht begrenzt. Sie können einige grundlegende Attribute wie Inhaltstyp, Beschreibung und vielleicht ein Miniaturbild ausdrücken. Sie sind sowohl für die grundlegende Inhaltsindexierung als auch für den Austausch in sozialen Medien nützlich, aber es fehlt ihnen an Tiefe. Fortgeschrittenere Metadatenformate gibt es schon länger, die RDFa und Mikroformate verwenden.
RDFa und Mikroformate sind in HTML-Elemente eingebettete Attribute, die sie mit Metadaten zu Dingen wie Personen, Organisationen, Kalenderereignissen und Beziehungen zwischen diesen Entitäten annotieren. Mikroformate werden in Markup eingefügt und sind als solche umständlich zu implementieren.
Mikroformate wurden weitgehend durch JSON-LD als den de-facto-reichen Metadaten-Standard für das Web ersetzt. Der technische Begriff setzt sich aus zwei Akronymen zusammen, die das Wie und Was beschreiben:
- JSON: JavaScript-Objekt-Notation
- LD: Verknüpfte Daten
Anstatt die Metadaten mit in das HTML-Markup einzubetten, wird JSON-LD in einem einzigen Blob innerhalb des Kopfbereichs geschrieben. Dabei handelt es sich um ein JSON-Fragment, das mit einem bestimmten Datenformat von Schema.org übereinstimmt. Schema.org ist ein aktiv entwickeltes hierarchisches Vokabular aus verschiedenen Typen von Entitäten und Aktivitäten. Die vollständige Liste der Schema.org-Klassen: Vollständige Hierarchie auf Schema.org
Schlussfolgerung
Metadaten sind nach wie vor ein wichtiges Thema im Web. Sie haben sich von der missbräuchlichen Verwendung für das Ausfüllen von Schlüsselwörtern als Black-Hat-SEO-Technik zu einer hilfreichen Ergänzung entwickelt, die den Benutzern hilft, Ihre Inhalte und Dienstleistungen zu entdecken. Es handelt sich außerdem um einen sich ständig weiterentwickelnden Bereich, so dass Sie nicht definieren können, welche Metadaten Sie auf Ihrer Website am besten verwenden sollten, und erwarten können, dass sie sehr lange relevant bleiben.
Einige proprietäre Metadaten-Tags können mit der Zeit irrelevant werden, wenn die Popularität einer Plattform abnimmt, z. B. als Google Plus abgeschaltet wurde oder Myspace seine Attraktivität verloren hat. Sie sollten sich also nie auf Ihren Lorbeeren ausruhen, wenn es um Metadaten geht, sondern diese regelmäßig überprüfen und notwendige Anpassungen vornehmen. Etwa alle sechs Monate könnte dabei schon hilfreich sein.
Dennoch scheint die Kombination aus JSON-LD und Schema.org-Spezifikationen eine zukunftssichere Plattform zu sein, die Beine für einen Marathon hat. Zum Zeitpunkt der Erstellung dieses Artikels im Mai 2020 unterstützt Google die folgenden Entitätstypen aus der Spezifikation: Artikel, Buchbesprechungen, Datensätze, Veranstaltungen, Stellenausschreibungen, lokale Unternehmen, Filme, Produkte, Fragen und Antworten, Restaurants, Softwareanwendungen und TV-Episoden. Eine lange Liste, die jedoch nicht den gesamten Umfang des heute auf Schema.org verfügbaren Vokabulars abdeckt.
Was wahrscheinlich länger dauert als die Markierung Ihrer Metadaten, ist der Ort, an dem sie gespeichert sind. Ein robustes und leistungsfähiges Tool zu haben, das die Verwaltung von Metadaten bewältigen kann, ist der Schlüssel zum langfristigen Erfolg. Erfahren Sie mehr über die Content-Engine und andere Funktionen, die Ihnen beim Aufbau reichhaltiger semantischer Beziehungen zwischen Entitäten helfen, indem Sie unser kostenloses eBook über digitale Erlebnisplattformen herunterladen.
eZ Platform ist nun Ibexa DXP
Ibexa DXP wurde im Oktober 2020 veröffentlicht und ersetzt den Produktnamen eZ Platform. Damit einhergehend steht eine Weiterentwicklung der Technologie. Erfahren Sie mehr dazu in dem Blogpost Vorstellung der Ibexa DXP v3.2, um mehr über die DXP und den Produkten Ibexa Content, Ibexa Experience und Ibexa Commerce zu erfahren.