Metadatos: definición, aplicaciones y estándares

2013 febrero 28
por classora

Los metadatos son simplemente datos sobre datos, es decir, información estructurada que describe a otra información y que nos permite encontrarla, gestionarla, controlarla, entenderla y preservarla en el tiempo.

Los metadatos no son un concepto nuevo: la inclusión de metadatos es el método utilizado tradicionalmente en el mundo de las bibliotecas para gestionar libros y archivos. Sin embargo, el nacimiento de la informática y, más concretamente, las posibilidades de intercambio de información surgidas en torno a la Web Semántica, hizo que aumentara la popularidad del término. Del mismo modo se hizo patente la necesidad de describir estándares.

Para ilustrar su utilidad, podemos ver unos sencillos ejemplos de metadatos empleados por Classora Knowledge Base. Si tomamos una unidad de conocimiento como Fernando Alonso, vemos que tiene asociados diferentes atributos en su ficha: fecha de nacimiento, profesión, carreras en F1… etc. Cada uno de estos atributos dispone en Classora de un conjunto de metadatos asociados como el que se describe a continuación:

  • Tipo de dato: indica si es una fecha, un valor numérico, otra unidad de conocimiento, una cadena de caracteres… etc. Por ejemplo: la fecha de nacimiento es de tipo DATE, la profesión es de tipo KNOWLEDGE-UNIT y el nº de carreras es de tipo INTEGER. En general, tener los datos tipificados resulta imprescindible en cualquier base de datos estructurada.
  • Unidades: indica las unidades en las que está medido el dato, si procede. Por ejemplo, la fecha de nacimiento y la profesión no tienen unidades asociadas, mientras que el nº de carreras tiene una unidad específica para indicar que se trata de eventos de Fórmula 1.
  • Modalidad de carga: indica si el dato fue cargado manualmente (por un miembro de Classora Technologies o por un usuario del portal público de datos) o bien si fue cargado automáticamente (a través de los robots de carga –crawlers– de Classora).
  • Autor: indica, si procede, la persona o el bot que modificó el dato por última vez.
  • Fecha de actualización: indica la fecha de la última vez que se modificó el dato.
  • Fuente: indica la fuente de donde se extrajo el último valor del dato.
  • Frecuencia de refresco: indica la periodicidad con la cual los robots de Classora deben conectarse a la fuente original de datos para mantenerlo actualizado. Por ejemplo, la fecha de nacimiento de Fernando Alonso es un dato constante (es decir, no necesita ser actualizado), mientras que el nº de carreras disputadas en F1 es un dato que es necesario contrastar en las fuentes originales cada 15 días.
  • Fiabilidad: hay datos que están disponibles en más de una fuente. Por ejemplo, la fecha de nacimiento de Fernando Alonso puede estar disponible en la Wikipedia en inglés, la Wikipedia en español, la página de la FIA, y Freebase. Con los metadatos adecuados, los robots pueden saber que se trata del mismo dato y evaluar si su valor coincide en todas las fuentes. Por ello, si tres de las cuatro indican la misma fecha, podría establecerse una fiabilidad aproximada del 75%. Otro tema muy importante en este sentido es el orden y la actualización de las fuentes. Por ejemplo, si el mismo dato está disponible en dos fuentes diferentes, pero su valor no coincide… ¿cuál se escoge de entre los dos? Para ello Classora utiliza la precedencia de las fuentes, que establece cuales son, a priori, más fidedignas. Por ejemplo, en el caso de la Wikipedia, los bots de Classora siempre otorgan mayor precedencia a la versión inglesa que a la española.
  • Significado: es probablemente uno de los metadatos más importantes, ya que permite que el dato sea interpretado automáticamente vía software. Classora sabe que el 29 de Julio de 1981 es la fecha de nacimiento de Fernando Alonso, que es un piloto de F1. Por tanto, es posible crear un informe vía CQL que devuelva todos los pilotos de F1 nacidos en ese año.
  • Historial de cambios: entre los metadatos de cada unidad de conocimiento se encuentra una lista con los valores anteriores de cada atributo, incluyendo también para cada caso la fecha en la que fue incluído el valor, su autor… etc. Se trata de tener una perspectiva histórica de los cambios tanto para fines consultivos como para fines preventivos (posibilidad de recuperarse de ataques o deshacer aportaciones incorrectas).

Esta capa de inteligencia basada en metadatos es lo que hace que el repositorio digital de Classora sea considerado una base de conocimiento, y no solo una base de datos.

Tipos de metadatos

En general, los metadatos pueden clasificarse en tres amplias categorías con límites no siempre bien definidos, y muchas veces superpuestos:

Metadatos descriptivos: son aquellos que sirven para la descripción e identificación de los recursos de información. Permiten la búsqueda y recuperación de los datos, así como distinguir recursos y entender sus contenidos. Se realizan mediante estándares como Dublin Core, estándares MARC, microdatos de HTML… etc.

Metadatos estructurales: son los que más influyen en la recuperación de la información, facilitando la navegación y presentación de los recursos. Ofrecen información sobre su estructura interna y permiten establecer relaciones entre ellos, de manera que pueden incluso unir los archivos de imagen y textos que están relacionados. Los estándares más difundidos para en este sentido son SGML, RDF y EAD (Encoded Archival Description).

Metadatos administrativos: incluyen datos para la gestión de derechos, firma digital, auditorías de calidad, control de acceso mediante contraseñas… etc. También se podrían enmarcar en esta categoría los metadatos sobre preservación a largo y corto plazo. Ejemplo, imágenes DICOM que incluyen metadatos como: tipo y modelo de escáner utilizado, resolución, paciente, limitaciones de reproducción… etc.

Dublin Core y otros estándares

Dublin Core es probablemente el estándar de metadatos más extendido. Su nombre hace referencia a Dublín (Ohio, Estados Unidos), ciudad que en 1995 albergó la primera reunión a nivel mundial de muchos de los especialistas en metadatos y Web de la época.

Dublin Core describe material digital como videos, sonidos, imágenes, textos y páginas web. Para ello utiliza básicamente XML, HTML y RDF. Además, proporciona un conjunto de convenciones simples y estandarizadas para describir recursos de forma que se facilite su encuentro online. Para la transmisión de datos, tiene asociado el protocolo OAI-PMH.

Dublin Core está gestionado por la DCMI (Dublin Core Metadata Iniciative), una organización que trata de fomentar la adopción de estándares y generar un foro abierto para el desarrollo de vocabularios especializados en describir recursos, que permitan sistemas de recuperación más inteligentes.

La siguiente tabla es una recopilación no exhaustiva de algunos de los más importantes estándares para metadatos que se han generado hasta el momento.

Recursos en general Dublin Core (DCMES, DCMI Metadata Terms)
Obras de arte CDWA (Categories for the Description of Works of Art)
CDWA Lite
VRA (Visual Resources Association)
Core Categories
Recursos bibliográficos MODS (Metadata Object Description Schema)
MARC21, UNIMARC, MARCXML
TEI (Text Encoding Initiative) Headers
Archivos y preservación EAD (The Encoded Archival Description)
OAIS (Reference Model for an Open Archival Information System)
PREMIS (Preservation Metadata: Implementation Strategies)
Recursos educativos IMS
LOM (Learning Object Metadata)
CanCore
SCORM (Sharable Content Object Reference Model)
Publicación ONIX (ONline Information Exchange)
Derechos de autor CopyrightMD
DOI (Digital Object Identifier)
ODRL (Open Digital Rights Language)
Recursos científicos CSDGM (Content Standard for Digital Geospatial Metadata)
Darwin Core
Multimedia MPEG-7 Multimedia Content Description Interface
PBCore (The Public Broadcasting Metadata Dictionary)
Redes sociales y personas vCard
FOAF (Friend Of A Friend)
Información geográfica ISO-19115
FGDC (Federal Geographic Data Committee)
Libro electrónico EPUB (Electronic Publication)
Imágenes médicas DICOM (Digital Imaging and Communication in Medicine)

En definitiva, tal y como hemos comentado en otras ocasiones, si estás interesado en este tema, no dudes en contactar con nosotros para que te hagamos llegar más enlaces y documentación adicional. Desde Classora Technologies quedamos completamente a tu disposición.

Leave a Reply

Note: You can use basic XHTML in your comments. Your email address will never be published.

Subscribe to this comment feed via RSS