PDF: poniendo trabas al progreso

Supongamos que el Dr. Zutano debe preparar un artículo científico para su publicación.

Con la exquisita habilidad de un monje cartujo, empieza las operaciones de gathering de todas las referencias disponibles e imaginables. Es posible que en el proceso navegue por miríadas de bases de datos, cada una con su propia interfaz de navegación, campos propios, etcétera. Si utiliza un sistema de manejo de referencias le bastará media horita para que las referencias de interés se congreguen en una sola base de datos y sean de fácil exportación.

Pero nuestro héroe también quiere el artículo completo. En PDF, porque es manejable, bonito, y sale bien impreso. Cuando lo consigue, si lo consigue, es un documento con un layout magnífico, pero una pesadilla para todo lo demás. Cuando lo baja, el fichero no tiene el nombre del artículo, con el autor y la nada de eso. Al terminar el download, el PDF tiene un título incognoscible, primigenio – en el sentido de Lovecraft. Un galimatías de letras y números en el mejor de los casos, o un mero nombre por defecto en el peor. De tal guisa, el Escritorio se le llena de archivos anónimos, que toca abrir con el lentísimo lector de Adobe.

Antaño los artículos se organizaban en preciosas carpetas colgantes, acumulando polvo y micropartículas de papel que le daban al despacho un entrañable aspecto mohoso. Pero ahora, con las Nuevas Tecnologías, esto ya no es necesario. El Dr. Zutano empieza a organizar sus PDFs en preciosas carpetas virtuales, temáticas. Se percata de que los PDFs no tienen metadatos importables en bases de datos típicas, ni siquiera los meta-tags ID3 que tienen todos sus ficheros Mp3 o los datos EXIF de sus fotos. Maldice a los editores por crear títulos en varias líneas que no se pueden cortar y pegar directamente como nombre de fichero, porque contienen saltos de líneas, símbolos reservados, etcétera. Algunos salen incluso como ensaladas de letras.

Investigando un poco – procrastinando – descubre que el estándar PDF contempla la existencia de meta-datos, sí, y que de alguna forma se puede incrustar XML dentro de los ficheros. Pero que los editores pasan de ello un kilo o dos, y que existen cosas como BibTeX, LaTeX y DocBook, estándares que la mayoría de portales de búsqueda bibliográfica no utilizan, y mucho menos en determinadas ramas del conocimiento.

Entonces, arremangándose, sigue haciendo su labor minuciosa de copy&paste artesanal, imprecando en arameo.