#pdftribute: Wenn das Dateiformat der Absicht widerspricht

Vergangene Woche hat sich der Open Access-Aktivist Aaron Swartz das Leben genommen. Im Zuge der Berichterstattung über sein Wirken wird vor allem erwähnt, wie er sich zwischen 2010 und 2011 durch einen Switch am MIT-Server Zugang zu über 4,8 Millionen wissenschaftlichen Beiträgen der Plattform JSTOR verschafft hat (ohne diese aber zu veröffentlichen). Zwei Jahre zuvor hatte der damals 22-Jährige mit dem „Guerilla Open Access Manifesto“ bereits Aufmerksamkeit innerhalb der angloamerikanischen
Akademikerschaft erzielt.

Wie einflussreich seine Ideen, bzw. sein Eintreten für die Open Access-Bewegung unter vornehmlich us-amerikanischen Wissenschaftlerinnen war, zeigt sich derzeit an der Aktion #pdftribute: Netzaffine Wissenschaftler reagieren auf Swartz‘ Tod mit der kostenlosen (Re-) Veröffentlichungen ihrer Werke im Web. Die Seite pdftribute.net sammelt (wenig übersichtlich) alle bei Twitter unter dem Hashtag #pdftribute veröffentlichten Werke.

Im Zuge dieser posthumen Solidaritätsbekundung haben die bekannte Online-Ethnographin Danah Boyd und andere persönliche Freunde und Weggefährten Swartz‘ darauf aufmerksam gemacht, dass sie die Aktion und Anteilnahme begrüßen, allerdings bezweifeln, dass eine Veröffentlichung im PDF-Format im Sinne von Swartz gewesen wäre.

Wieso? Zum einen ist .pdf ein kommerzielles und proprietäres Format. Zwar wurde 2008 die Dateiformatsversion 1.7 durch den Hersteller (aber nicht alleinigen Patentinhaber) Adobe zur Verwendung ohne Lizenzgebühren freigegeben. Seitdem wurde der Standard von Adobe aber weiter entwickelt und die Freigabe zur lizenzfreien Verwendung nicht erneuert. D.h. streng genommen ist jede nicht über das kostenpflichtige Programm Adobe Pro erstellte .pdf der Welt in einer leistungsschutzrechtlichen Grauzone und juristisch anfechtbar. (Besonders auch von den anderen Patentinhabern, die der lizenfreien Verwendung nie zugestimmt haben.)

Neben dieser etwas kleinteilig anmutenden Argumentation – die uns aber bewusst machen sollte, dass unser selbstverständlicher Umgang mit Dateiformaten bei aktueller Rechtslage von der Duldung der kommerziellen Hersteller abhängig ist – macht Boyd aber einen wichtigeren Punkt geltend:

[PDF is a] format that cannot be easily parsed by bots. If your goal is to honor Aaron, don’t just make your work human readable; make it machine readable by using a text-based markup language. Think: HMTL.

Das PDF-Format ist so programmiert, dass außer dem Dateinamen und dem in der Dateibeschreibung hinterlegten Dokumententitel keine Informationen durch Suchmaschinen-Crawler indiziert werden können. D.h., indem dieses Format seinen Inhalt ~~für Suchmaschinen unzugänglich macht~~ nicht für Weiterverabeitungen öffnet, ist es dem Gedanken der Zugänglichkeit zu Wissen eher abträglich. Am Beispiel von #pdftribute lässt sich gut beobachten, wieso wir sensibel für die technische Beschaffenheit unserer digitalen Werkzeuge sein sollten. Denn die mittlerweile über 40.000 Tweets mit PDFs zu wissenschaftlichen Arbeiten sind trotz der guten Absicht bis auf die massenmediale Wirkung weitgehend als Rauschen versendet.

UPDATE: Der von mir betonte Schwerpunkt auf Suchbarkeit in der Kritik der mangelnden Maschinenlesbarkeit von PDFs ist insofern falsch, als dass das viel größere Probleme die mangelnde Weiterverarbeitung, der in den PDFs beinhalteten Daten, ist. Neuere PDFs sind auch nach ihrem Inhalt von Bots indizierbar.

2 Kommentare

In der Sache (PDF und Open Access) hast du natürlich Recht, aber dies stimmt so nicht:
„…dass außer dem Dateinamen und dem in der Dateibeschreibung hinterlegten Dokumententitel keine Informationen durch Suchmaschinen-Crawler indiziert werden können.“
Sofern PDFs nicht geschützt (passwort~ bzw. verschlüsselt) sind, lassen die sich eigentlich ganz gut indizieren. Natürlich nicht _so_ gut wie HTML – da fehlen Metadaten und funktionale Auszeichnungen (Überschrift, Fließtext, Zitat, Aufzählung usw.), und oft geht der lineare Zusammenhang flöten, womit dann auch das große Ärgernis der mangelhaften Editierbarkeit zusammenhängt…

Hallo Kai, danke für Deinen Kommentar! Ja, Du hast recht, ich habe da mit dem Fokus auf die Suchbarkeit einen inhaltlichen Fehler gemacht, der mittlerweile auch in der AIR-L Mailingliste (vond er ich das Thema aufgriff) angemerkt wurde:
„Machine Readable“ meint weniger „searchable“, sondern vor allem die Möglichkeit aus diesem Format Daten für Bearbeitungen in anderen Dateiformaten (Excel, CSV) erschwert. Ein Beispiel aus der Praxis: http://sunlightfoundation.com/blog/2011/11/30/senate-finally-publishes-its-spending-online-but-could-do-much-better
Ich habe den Post mal dahingehend geupdatet!

2 Kommentare

Antworte auf den Kommentar von Kai Becker Antwort abbrechen

Ähnliche Beiträge