Bases de conocimiento en Internet

2012 enero 26
por classora

Hace apenas unos años, los principales términos informáticos giraban en torno a los datos que generaba y controlaba una organización. Hoy en día, cada vez se habla más de su conocimiento. ¿En qué se diferencian los datos de la información o el conocimiento?

En una conversación informal los tres conceptos suelen utilizarse indistintamente, lo que puede llevar a una interpretación libre de los mismos. Quizás la forma más sencilla de diferenciarlos sea recordar la regla del teléfono: un número de teléfono aislado representa un dato, un listín telefónico (convenientemente organizado, formateado y contextualizado) representa información, y todo el procedimiento que cada uno de nosotros sabe repetir para localizar el número que necesita, teclearlo en el móvil, y contactar con el interlocutor deseado, eso es lo que representa el conocimiento.

Datos, información, conocimiento

Hasta hace no mucho tiempo, los datos podían estar localizados en sistemas software (bases de datos, principalmente), pero el conocimiento no. El conocimiento era un campo reservado a agentes de mayor nivel, como personas o empresas. Sin embargo, la escalada de complejidad y mejoras que experimentaron las aplicaciones de gestión (ERP, CRM, CMI, BPM, GD, WF… etc.) hizo que los datos de las organizaciones, y de los sistemas de información en general, se fuesen documentando cada vez más, dotándolos de metadatos y mecanismos que permitían mejorar su consumo interno.

Así fue como nacieron las bases de conocimiento, una evolución de las bases de datos que hacen que la información almacenada en ellas se encuentre catalogada de tal manera que pueda ser entendida y consumida no sólo por una persona, sino también por una máquina.

Hoy en día, el concepto de «base de conocimiento» se proyecta como la evolución natural de los sistemas de información, tanto a nivel privado (dentro de grandes empresas) como a nivel público (en gobiernos e instituciones oficiales). De hecho, muchas bases de conocimiento empiezan a estar accesibles directamente desde Internet. Un buen ejemplo es el Portal de Datos Públicos del Gobierno Español, enmarcado en el movimiento Open Data.

Llegados a este punto, lo normal es que surjan iniciativas abiertas y disponibles en Internet. Mucha gente estará pensando en Wikipedia como una base de conocimiento. Sin embargo, la realidad es que, aunque Wikipedia almacena una cantidad ingente de información, no es capaz de interpretarla de manera automática. Así que para obtener un buen ejemplo abierto y disponible de base de conocimiento, debemos recurrir a la DBPedia, un proyecto promovido por la Universidad de Berlín que se basa en la Wikipedia para estructurar información pública.

Entre las principales bases de conocimiento generalistas disponibles en Internet nos encontramos con las iniciativas más similares a Classora Knowledge Base en cuanto a finalidad y arquitectura: Wolfram Alpha, Dbpedia, Freebase y True Knowledge.

  • Wolfram Alpha: promovida por el prestigioso científico Stephen Wolfram (padre del programa Matemathica) en la Universidad de Illinois. Ahora mismo representa una de las líneas de negocio más pioneras de la matriz del grupo empresarial Wolfram Research.
  • Dbpedia: iniciativa de la Universidad de Berlín en colaboración con otras universidades alemanas. Han invertido una gran cantidad de recursos en estructurar la información disponible en Wikipedia, transformando artículos de texto plano en datos computables.
  • Freebase: es una base de conocimiento colaborativa y libre, recientemente adquirida por Google, que fue impulsada inicialmente por la empresa Metaweb Technologies, en San Francisco. Freebase basaba todo su contenido en licencias Creative Commons.
  • True Knowledge: es una iniciativa de la Universidad de Cambridge cuya finalidad última consiste en crear un motor computacional de respuestas estructuradas. True Knowledge maneja el récord en cuanto a volumen de información almacenada.

Por su parte, Classora Knowledge Base es la primera base de conocimiento internacionalizada y disponible completamente en español e inglés. Classora presenta una característica diferencial sobre las iniciativas anteriores: la aplicación de técnicas de Business Intelligence para cruzar información de cada unidad de conocimiento con todos los informes (listas, clasificaciones, rankings y encuestas) en los que figura, monitorizar su evolución temporal, y representar todos estos resultados en múltiples formatos e interfaces sencillas.

A nivel técnico, todas las bases de conocimiento se deben enfrentar a varios problemas generales: (1º) conseguir un volumen suficiente de información estructurada, (2º) eliminar duplicidades -datos repetidos- e islas de información -datos inconexos-, (3º) actualizar cada dato almacenado con la cadencia oportuna, consultando periódicamente la fuente original, (4º) entender los requerimientos concretos del usuario -humano o máquina- a través de asistentes o consultas en lenguajes formales y (5º) ofrecer un rendimiento óptimo, proporcionando una solución en un tiempo de respuesta razonable -aunque no necesariamente tiempo real-.

En fin, éste es el estado actual del arte en cuanto a las bases de conocimiento y las herramientas públicamente disponibles en Internet. Un paso más para acercar los dispositivos electrónicos a nuestro modo de ver las cosas… ¿crees que algún día los humanos conseguiremos sintetizar completamente nuestro conocimiento en un sistema software?

La verdad es que ya hemos empezado a hacerlo… ¿quieres ver cómo?

8 Responses dejar uno →
  1. enero 30, 2012

    Estupendo post!

    Hacéis un excelente trabajo, poco a poco se van viendo resultados. Ánimos y un abrazo molinero.

    Eduardo

  2. enero 31, 2012

    Muchas gracias, Eduardo.

    Como siempre tus comentarios de ánimo nos sirven para coger un poquito más de impulso en estos tiempos complicados.

    Un abrazo muy grande,

    Iván

    • enero 31, 2012

      Ánimo Iván, la cosa es resistir los tiempos convulsos, creando nuevas estructuras y productos!

      Y poco a poco ir sacando cosillas.

      Otro abrazo!

      Eduardo

  3. Concha Ausín permalink
    julio 5, 2012

    El proyecto de Classora Base de Conocimiento/Knowledge Base parte de un planteamiento bastante avanzado, como es no sólo recopilar información de la forma másenciclopédica posible, sino poner esa información en relación y contraste con otras. Evidentemente resulta práctico comenzar por la creación de fichas o unidades de conocimiento lo más diversas y amplias posibles. A ello se une la inclusión de dichas fichas como entradas de bloques (rankings o encuestas) en torno a una misma condición o tema (ejemplo: Ranking de países por PIB en un periodo en cuestión, o una Encuesta sobre ¿Cual es la mejor película de toda la historia?). Ésto en mi opinión permite al fundamento de la base mayor permanencia en el tiempo y resistir la evolución tecnológica del mundo de la información. La base de datos, mediante las fichas, siempre estará ahí y seguirá permitiendo su manejo o su utilización diversa adaptándola a los cambios sociales, culturales, económicos, etc. como base de conocimiento, que es un valor añadido.

Trackbacks and Pingbacks

  1. Big Data, Linked Data, Open Data « El Blog de Classora
  2. Motores de enriquecimiento semántico de contenidos « El Blog de Classora
  3. Principales tecnologías utilizadas en los proyectos de enriquecimiento semántico | El Blog de Classora
  4. Metadatos: definición, aplicaciones y estándares | El Blog de Classora

Dejar una respuesta

Note: You can use basic XHTML in your comments. Your email address will never be published.

Subscribe to this comment feed via RSS