Data Mining y Data-Driven Journalism

2013 septiembre 3
por classora

El Data-Driven Journalism, a menudo abreviado como DDJ, es un proceso periodístico basado en el análisis y filtrado de grandes conjuntos de datos con el objetivo de generar una noticia inédita, o bien con la intención de respaldar, a través de hechos estadísticos, una serie de informaciones, hipótesis o conjeturas previas.

En los últimos años, el periodismo conducido por los datos está cobrando una gran importancia, especialmente en el contexto de la prensa digital. Esto se debe fundamentalmente a dos motivos: por un lado, al empuje de las tecnologías semánticas (muy asociadas a la comprensión del lenguaje natural por parte de las máquinas). Por otro lado, a las grandes revoluciones que afectan a los datos publicados en Internet, tanto desde un punto de vista técnico como desde un punto de vista filosófico: el Big Data, Linked Data y Open Data.

Esto ha provocado que se hayan editado cientos de libros sobre periodismo de datos, e incluso que se hayan creado unos premios a nivel mundial. Estos galardones, los Data Journalism Awards, están auspiciados por Google y promovidos por una institución internacional llamada GEN (Global Editors Network). Su objetivo consiste en reconocer públicamente el mérito de los periodistas e instituciones que han conseguidos los mejores trabajos de infografía, enriquecimiento de contenidos y DDJ.

Volumen de datos en Internet según su naturaleza

Como otros muchos proyectos, los trabajos de Data-Driven Journalism pueden llevarse a cabo, con un esfuerzo enorme, de manera manual. Esto implicaría que los promotores del proyecto recopilasen los datos y los analizasen pausadamente, buscando patrones guiados por su propia intuición, o bien que cruzasen todas las posibles combinaciones de variables para comprobar si existe o no algún tipo de correlación. En el fondo, así es como se llevaron a cabo la mayor parte de los proyectos de referencia del Data-Driven Journalism, apoyándose solo parcialmente en mayor o menor medida de algún tipo de soporte informático.

Afortunadamente, hoy en día, con las técnicas de Data Mining (Minería de datos) y con las tecnologías Big Data (soporte para grandes volúmenes de datos) cada vez resulta más sencillo y automático el descubrimiento de correlaciones y conclusiones inéditas entre la marabunta de datos desestructurados. ¿Cómo se consigue?

Arquitectura Data-Driven Jounalism basada en Data Mining

A continuación mostramos un esquema, muy simplificado y completamente genérico, que indica los pasos comunes que se suelen aplicar para conseguir proyectos exitosos de Data-Driven Journalism empleando las últimas tecnologías disponibles:

  • Recopilación de datos: se trata de decidir el conjunto de datos necesario, localizar las fuentes oportunas y analizar la cantidad y la calidad de la información disponible.
  • Integración de datos: casi siempre será necesario recurrir a más de una fuente de datos. Y en muchas ocasiones, los datos estarán desestructurados o no estarán integrados entre sí. Será necesario, por tanto, transformarlos para que tengan un formato homogéneo y se puedan cruzar. En definitiva, habrá que aplicar las valiosísimas tecnologías ETL (Extracción, Transformación y Carga) sobre el conjunto de datos inicial.
  • Operaciones data-mining: en este punto se trata de aplicar los algoritmos oportunos de minería de datos para conseguir detectar patrones o tendencias inéditas, así como llegar a conclusiones curiosas. En el siguiente apartado veremos algunas técnicas comunes.
  • Contraste de resultados: el descubrimiento de algunas tendencias puede hacernos llegar a suposiciones erróneas. Hay que recordar que correlación no implica causalidad. Será necesario comprobar empíricamente las hipótesis para validar los resultados obtenidos.

En cualquiera de estos pasos generales, si el volumen de datos a manejar es muy grande, estas operaciones pueden apoyarse en tecnologías Big Data, como los sistemas de archivos distribuidos, las bases de datos NoSQL o el software de procesado en cluster (MapReduce).

Ejemplo de trabajo sobre la deforestación en la Amazonia

Técnicas de Data Mining

Las técnicas de minería de datos no son más que algoritmos, más o menos sofisticados, que proceden de la inteligencia artificial y de la estadística. Según el objetivo del análisis, estas técnicas se clasifican en algoritmos supervisados o predictivos (capaces de extrapolar un dato desconocido a priori, a partir de otros datos conocidos) y algoritmos no supervisados (capaces de descubrir patrones y tendencias ocultas en los datos). Aunque en periodismo de datos los dos tipos de algoritmos son bienvenidos, en Data-Driven Journalism los algoritmos no supervisados suelen ser los más valorados. A continuación enumeramos las técnicas y herramientas de minería de datos más comunes:

  • Redes neuronales: son un paradigma de aprendizaje y procesamiento automático basado en la forma en que funciona el sistema nervioso de los seres humanos. Algunos ejemplos de red neuronal son el perceptrón, el perceptrón multicapa y las redes de Kohonen.
  • Regresión lineal: es una de las técnicas estadísticas más utilizadas para localizar relaciones entre datos. Es rápida y eficaz pero resulta insuficiente en espacios multidimensionales donde puedan surgir relaciones entre más de dos variables.
  • Árboles de decisión: dada una base de datos, se crean construcciones lógicas que sirven para representar y categorizar una serie de condiciones que ocurren de forma sucesiva y que van a permitir la resolución de un problema. Ejemplos: Algoritmos ID3 y C4.5.
  • Agrupamiento o clustering: se trata de agrupar vectores según criterios de distancia, de forma que al final se consiga que los vectores de entrada estén más cerca de aquellos que tengan características comunes. Ejemplos: Algoritmo K-means y algoritmo K-medoids.

Para finalizar este post introductorio, intentaremos mostrar algunos de los espectaculares resultados que se pueden conseguir en el periodismo de datos utilizando Data Mining.

Casos de éxito en Data-Driven Journalism

Uno de los casos más llamativos del Data-Driven Journalism fue el reportaje Do Not Harm (No hagan daño) llevado a cabo en el año 2010 por el diario Las Vegas Sun. Este reportaje analizaba la atención recibida por los pacientes en los distintos hospitales de la zona. Los periodistas del Sun examinaron más de 2.900.000 registros hospitalarios y llegaron a conclusiones impactantes:

  • Revelaron más de 3.600 lesiones, infecciones y errores quirúrgicos evitables.
  • Identificaron más de 300 casos en que los pacientes murieron por errores que pudieron haberse prevenido.

Web posterior del reportaje Do Not Harm, de Las Vegas Sun

El reportaje tuvo un impacto directo sobre la situación, ya que el gobierno de Nevada se vió obligado a modificar algunas leyes para mejorar la situación y acallar la voz de la ciudadanía.

Caso Wikileaks
Los periodistas Jonathan Stray y Julian Burgess realizaron un trabajo de investigación sobre los registros (logs) de la Guerra de Irak. Se trató de una llamativa incursión en el análisis de texto y la visualización, utilizando técnicas experimentales para comprender temas que vale la pena explorar, dentro de un gran conjunto de datos en formato texto.

Por medio de técnicas y algoritmos de analítica de textos, Jonathan y Julian crearon un método que muestra concentraciones de palabras clave contenidas en miles de informes del gobierno de Estados Unidos sobre la guerra de Irak, difundido por WikiLeaks, en un formato visual. El resultado es el que se muestra en la imagen siguiente.

Visualización de texto completo de los registros de la guerra de Irak, Associated Press

Más información

Como en otras ocasiones, si te interesa conocer más información sobre este tema no dudes en contactar con nosotros para que te enviemos documentación adicional. Cuenta con Classora Technologies para estar informado sobre Data Mining y Data-Driven Journalism.

Dejar una respuesta

Note: You can use basic XHTML in your comments. Your email address will never be published.

Subscribe to this comment feed via RSS