El Data-Driven Journalism, a menudo abreviado como DDJ, es un proceso periodístico basado en el análisis y filtrado de grandes conjuntos de datos con el objetivo de generar una noticia inédita, o bien con la intención de respaldar, a través de hechos estadísticos, una serie de informaciones, hipótesis o conjeturas previas.
En los últimos años, el periodismo conducido por los datos está cobrando una gran importancia, especialmente en el contexto de la prensa digital. Esto se debe fundamentalmente a dos motivos: por un lado, al empuje de las tecnologías semánticas (muy asociadas a la comprensión del lenguaje natural por parte de las máquinas). Por otro lado, a las grandes revoluciones que afectan a los datos publicados en Internet, tanto desde un punto de vista técnico como desde un punto de vista filosófico: el Big Data, Linked Data y Open Data.
Esto ha provocado que se hayan editado cientos de libros sobre periodismo de datos, e incluso que se hayan creado unos premios a nivel mundial. Estos galardones, los Data Journalism Awards, están auspiciados por Google y promovidos por una institución internacional llamada GEN (Global Editors Network). Su objetivo consiste en reconocer públicamente el mérito de los periodistas e instituciones que han conseguidos los mejores trabajos de infografía, enriquecimiento de contenidos y DDJ.
Como otros muchos proyectos, los trabajos de Data-Driven Journalism pueden llevarse a cabo, con un esfuerzo enorme, de manera manual. Esto implicaría que los promotores del proyecto recopilasen los datos y los analizasen pausadamente, buscando patrones guiados por su propia intuición, o bien que cruzasen todas las posibles combinaciones de variables para comprobar si existe o no algún tipo de correlación. En el fondo, así es como se llevaron a cabo la mayor parte de los proyectos de referencia del Data-Driven Journalism, apoyándose solo parcialmente en mayor o menor medida de algún tipo de soporte informático.
Afortunadamente, hoy en día, con las técnicas de Data Mining (Minería de datos) y con las tecnologías Big Data (soporte para grandes volúmenes de datos) cada vez resulta más sencillo y automático el descubrimiento de correlaciones y conclusiones inéditas entre la marabunta de datos desestructurados. ¿Cómo se consigue?
A continuación mostramos un esquema, muy simplificado y completamente genérico, que indica los pasos comunes que se suelen aplicar para conseguir proyectos exitosos de Data-Driven Journalism empleando las últimas tecnologías disponibles:
En cualquiera de estos pasos generales, si el volumen de datos a manejar es muy grande, estas operaciones pueden apoyarse en tecnologías Big Data, como los sistemas de archivos distribuidos, las bases de datos NoSQL o el software de procesado en cluster (MapReduce).
Las técnicas de minería de datos no son más que algoritmos, más o menos sofisticados, que proceden de la inteligencia artificial y de la estadística. Según el objetivo del análisis, estas técnicas se clasifican en algoritmos supervisados o predictivos (capaces de extrapolar un dato desconocido a priori, a partir de otros datos conocidos) y algoritmos no supervisados (capaces de descubrir patrones y tendencias ocultas en los datos). Aunque en periodismo de datos los dos tipos de algoritmos son bienvenidos, en Data-Driven Journalism los algoritmos no supervisados suelen ser los más valorados. A continuación enumeramos las técnicas y herramientas de minería de datos más comunes:
Para finalizar este post introductorio, intentaremos mostrar algunos de los espectaculares resultados que se pueden conseguir en el periodismo de datos utilizando Data Mining.
Uno de los casos más llamativos del Data-Driven Journalism fue el reportaje Do Not Harm (No hagan daño) llevado a cabo en el año 2010 por el diario Las Vegas Sun. Este reportaje analizaba la atención recibida por los pacientes en los distintos hospitales de la zona. Los periodistas del Sun examinaron más de 2.900.000 registros hospitalarios y llegaron a conclusiones impactantes:
El reportaje tuvo un impacto directo sobre la situación, ya que el gobierno de Nevada se vió obligado a modificar algunas leyes para mejorar la situación y acallar la voz de la ciudadanía.
Caso Wikileaks
Los periodistas Jonathan Stray y Julian Burgess realizaron un trabajo de investigación sobre los registros (logs) de la Guerra de Irak. Se trató de una llamativa incursión en el análisis de texto y la visualización, utilizando técnicas experimentales para comprender temas que vale la pena explorar, dentro de un gran conjunto de datos en formato texto.
Por medio de técnicas y algoritmos de analítica de textos, Jonathan y Julian crearon un método que muestra concentraciones de palabras clave contenidas en miles de informes del gobierno de Estados Unidos sobre la guerra de Irak, difundido por WikiLeaks, en un formato visual. El resultado es el que se muestra en la imagen siguiente.
Como en otras ocasiones, si te interesa conocer más información sobre este tema no dudes en contactar con nosotros para que te enviemos documentación adicional. Cuenta con Classora Technologies para estar informado sobre Data Mining y Data-Driven Journalism.
Trackbacks and Pingbacks