Ein Beispiel: Für sixx.de habe ich in einem Relaunch-Projekt die Aufgabe bekommen, aus den von ProSiebenSat.1 veröffentlichten TV-Programminformationen HTML-Dokumente für eine Seite zu erzeugen zu lassen. Das haben wir auch in einem Kraftakt hinbekommen.
Damals stellte die Sendergruppe die Daten als XML-Dateien mit Verweisen auf Bilder zur Verfügung. Abnehmer für diese Daten waren bis dahin eher Programmzeitschriften gewesen als Online-Angebote. Diese Bilderberge nahmen schon mal ein halbes Gigabyte ein – pro Woche und pro Sender. Das musste auf dem Server zusammengeführt werden.
Inzwischen hat ProSieben längst eine API zu den EPG-Daten, die dem Anfragenden die richtigen Daten mundgerecht für jeden Sender und jeden beliebigen Zeitraum liefert. (Wer mit so etwas tiefer einsteigen will: Gleich alle Daten besorgen, etwa bei Watchmi. Nette Leute, tolle Technik.)
Ich bin schon ein bisschen länger in diesem Geschäft Produktmanagement, und dann kommt immer der Moment, zu dem man mit einer Anfrage zu früh ist. So war das in diesem Projekt auch. Das Lustigste an der sehr kleinteiligen Arbeit an Programmdaten ist der Name des Formates: Struppi.
Die BBC hat sich in ihrer Researchabteilung jetzt auch mit dem Thema Metadaten beschäftigt, und zwar für die Publizierung von News im Internet. Dazu gab es im Mai diesen Blogpost: Unpicking Web Metadata – BBC R&D. Mit enormem Fleiß haben die Kollegen dabei verschiedene Publisher untersucht, wie diese Metadaten ihren Onlineerzeugnissen mitgeben. Warum? Sie wollten einen Metadatenaggregator bauen. Ihre Annahme war simpel:
We expected metadata across feeds to be pretty consistent in structure – we assumed that publishers would follow a clear syndication standard so that aggregators, and other similar software, could easily share their articles.
Ihre Ergebnisse sind so einleuchtend wie erschütternd:
The answer was no.
Even a conservative audit of web content metadata shows that whilst publishers are fairly consistent when it comes to their own metadata habits, on aggregate, metadata across publishers is very inconsistent.
Die einzigen Daten, die konsistent gepflegt sind, waren die auszeichnenden Open-Graph-Tags, die für Facebook (und Twitter) wichtig sind, damit Likes der eigenen Seite gut aussehen. (Nebenbei ein Indiz dafür, welche Macht Facebook über Webseitenbetreiber hat, liebe EU-Kommission.)
Warum sind Metadaten bei News-Seiten also überall so unterschiedlich? Ich glaube, es hat mit vielen Faktoren zu tun. Hier ein paar, in keiner besonderen Reihenfolge:
- Redaktionen sind ganz schlecht im Kategorisieren von News-Artikeln (historisch-anekdotisches Wissen, ich bin an Studien interessiert. Gibt es die?). Jedes mittelgroße Relaunch-Projekt hat irgendwann damit zu tun.
- Es ist sicher kein Zufall, dass viele CMS Funktionen zum Zusammenführen von Tags mitbringen. Oder die Plugins, die WordPress um entsprechende Funktionen erweitern, deuten auch in diese Richtung.
- CMS geben oftmals, wie gerade angedeutet, die Struktur für Metadaten vor:
- wie die gepflegt werden
- wie die nach außen sichtbar gemacht werden
- Taxonomiesysteme sind eher selten im Einsatz, das ist zumindest mein ganz persönlicher Rückblick auf die Medien, bei denen ich arbeiten durfte. Ganz große Organisationen arbeiten an so etwas: dpa braucht das, die öffentlich-rechtlichen Rundfunkanstalten sind in der Regel auch sehr daran interessiert. Eher lifestylige Medien – nicht so sehr.
- Ein waschechter Informationsarchitekt, der sich die Datenlage ansieht – wie oft verirrt der sich wirklich in solche Projekte? Mir ist das von sporadischen Mitarbeiten bekannt, etwa bei einer grundlegenden Konzeption eines neuen Intranets. Aber dauerhaft? Oder ein User Researcher?
- Bei der Konzeption am Reißbrett ist der Researcher noch sehr weit von der redaktionellen Arbeit weg. Wichtig ist es, dass er auch in dem Team mitarbeitet und die Daten-Vorgaben einhält. Einige Orgs gehen hier auf die Rolle des Data Stewards zu, der für die Datenqualität. Spannend, aber teuer und daher auch nur ein Weg für sehr große Organisationen.
- Viele Projekte werden immer noch in großen Würfen, den Relaunches geplant – die kommen alle zwei bis sieben Jahre. Eine kontinuierliche Arbeit am Produkt ist selten, denn sie können sich nur mittelgroße bis große Organisationen leisten (dediziertes Produktteam, das dauerhaft arbeiten kann).
Die BBC-Kollegen gaben dann auch auf, es sei denn, man wolle Facebook oder Google werden:
We did make efforts to standardise and harmonise the data, but before long concluded that the reality of web publishing is messy, and, at least currently, the only way of building a metadata model – never mind a detailed metadata model – around web content is either to rely on one of the big aggregators (e.g. search engines like Google) or to build our own.
Ich habe immer noch nix darüber geschrieben, warum mir im Moment Metadaten so nahe liegen, aber das ist dann wohl wirklich ein eigener Post. Das hat mir zumindest der innere Editor/Redakteur gerade gesagt.
(Via.)