Qué es el periodismo de datos y cómo empezar desde cero

Introducción

TL;DR: El periodismo de datos es el uso sistemático de datos —públicos, privados o recolectados— como fuente periodística para investigar, explicar y visualizar fenómenos complejos. No es sólo hacer gráficos: implica limpieza, verificación, análisis y ética. Este dossier ofrece definiciones, un flujo de trabajo paso a paso, herramientas prácticas, dos mini-casos aplicados y plantillas de trabajo para empezar desde cero. 📊

El periodismo de datos ya no es una especialidad reservada a grandes redacciones: es una competencia esencial para periodistas, editores y creadores de contenido que quieren contar historias con evidencia cuantificable y verificar afirmaciones públicas. Permite transformar registros (gastos públicos, sentencias, registros sanitarios, bases administrativas, APIs, etc.) en reportajes que identifican patrones, responsabilizan instituciones y explican tendencias.

En este artículo encontrarás un marco conceptual, una guía práctica paso a paso, herramientas recomendadas y dos mini-casos (texto y multimedia) que puedes reproducir. Está pensado para quienes empiezan pero también para equipos editoriales que quieran organizar procesos reproducibles y responsables.

Nota: donde corresponde, indico fuentes y recursos reconocidos para profundizar. Si algún dato no puede verificarse con certeza, lo explicito.

Marco básico y principios

¿Qué es exactamente “periodismo de datos”? Es la práctica periodística que utiliza datos estructurados o no estructurados como fuentes primarias o secundarias para descubrir, comprobar y explicar historias. Va desde hallar una pauta en una hoja de cálculo hasta combinar archivos masivos, documentos judiciales y APIs para construir una investigación. En esencia: el dato es un testigo más al que se le hacen preguntas y se contrastan sus respuestas con otras fuentes y con la realidad.

([datajournalism.com](

Dos puntos clave:

El dato no habla solo: necesita contexto periodístico (quién, cómo, cuándo y por qué se generó).

No es sólo visualización: una buena visualización no reemplaza la investigación; la resume y facilita la comprensión.

Breve línea histórica y relevancia actual: el empleo de datos en periodismo se ha institucionalizado en conferencias y cursos especializados; asociaciones como IRE/NICAR y centros académicos ofrecen formación continua para periodistas de datos, lo que refleja su consolidación en la práctica profesional contemporánea.

([ire.org](

Checklist de principios éticos y metodológicos

Primacía de la verificación: siempre contrastar datos con fuentes originales y documentos.

Transparencia metodológica: publicar (cuando sea posible) el dataset y el código o explicar por qué no se puede compartir.

Privacidad y minimización: proteger datos personales sensibles y aplicar anonimización.

Reproducibilidad: documentar pasos (transformaciones, filtros, supuestos).

Contexto y límites: explicar incertidumbres, márgenes de error y supuestos clave.

Guía paso a paso

A continuación encontrarás un flujo numerado pensado para proyectos desde micro (nota local) hasta investigaciones medianas. Cada paso incluye una mini-checklist y advertencias sobre errores comunes.

Paso 1 — Definir la pregunta periodística

Formula una pregunta clara: ¿qué quieres probar o explicar? (Ej.: “¿Cómo han cambiado los contratos públicos en mi municipio en los últimos 5 años?”)

Delimita alcance y fuentes potenciales.

Checklist: pregunta explicativa, variables clave, periodo temporal, cobertura geográfica.

Error común: empezar con la recolección de datos sin una pregunta clara. Resultado: exceso de ruido y trabajo perdido.

Paso 2 — Localizar y obtener datos

Buscar fuentes oficiales (portales de transparencia, registros públicos, APIs gubernamentales).

Extraer datos de PDFs/HTML/APIs o pedirlos mediante solicitudes de acceso a la información.

Registrar metadatos: origen, fecha de descarga, licencia, responsables.

Checklist: URL o documento fuente, fecha, formato, permiso de uso.

Herramientas útiles: Tabula/pdfplumber para tablas en PDF; requests/BeautifulSoup o herramientas no-code para scraping; formularios FOIA/solicitudes de transparencia.

Advertencia: verificar la integridad del dataset (filas faltantes, truncamiento de descargas). No asumir que un CSV “limpio” es correcto.

Paso 3 — Limpieza y transformación

Normalizar nombres de columnas y tipos de datos (fechas, números, códigos).

Unir tablas por claves coherentes (IDs, NIF, códigos geográficos).

Detectar y corregir duplicados, formatos erróneos y outliers sospechosos.

Checklist: copia de trabajo, registro de operaciones (undo/redo), backup del original.

Herramienta destacada: OpenRefine es una opción robusta para limpiar datos de manera interactiva y reproducible.

([openrefine.org](https://openrefine.org/?utm_source=openai))

Error común: borrar filas por impulso sin entender por qué están vacías; a veces las “celdas vacías” contienen información relevante (ej. registros incompletos deliberados).

Paso 4 — Análisis exploratorio

Resumen descriptivo: distribuciones, medias, medianas, percentiles.

Segmentación por variables relevantes (tiempo, lugar, actor).

Visualizaciones rápidas para detectar patrones.

Checklist: control de versiones, notas de hipótesis, visuales preliminares guardados.

Error común: interpretar correlación como causalidad sin evidencia adicional.

Paso 5 — Verificación y triangulación

Contrastar hallazgos con documentos originales, fuentes humanas (entrevistas, correo oficial) y otras bases de datos.

Revisar errores sistemáticos (cambios en metodología de recolección a lo largo del tiempo).

Checklist: lista de preguntas a la institución/productor de datos, registro de respuestas, versión final del dataset con notas.

Advertencia: no omitir la comunicación con las entidades involucradas; además del rigor periodístico, esto reduce riesgos legales y reputacionales.

Paso 6 — Narrativa y visualización

Elige la forma de comunicación: texto largo, artículo corto, gráficos interactivos, mapas, video o combinaciones.

Diseña visualizaciones que respondan a la pregunta central y hagan explícito el apoyo de los datos.

Checklist: leyendas claras, fuentes visibles, explicación de métodos, versión descargable del dataset cuando sea posible.

Error común: usar colores o efectos que distorsionen la percepción (por ejemplo, ejes truncados que exageran cambios).

Paso 7 — Publicación responsable

Publicar con documentación metodológica: supuestos, limitaciones y acceso a archivos (si procede).

Preparar materiales para verificación externa y reproducibilidad.

Checklist: archivo con pasos reproducibles, link a dataset, detalles de limpieza y código (si lo hay).

Herramientas y recursos recomendados

Las herramientas varían según el volumen de datos, la complejidad del análisis y el output deseado. Aquí una selección práctica con notas de uso.

Google Sheets / Excel — cuando comienzas o trabajas con datasets pequeños; ideal para prototipos y cálculos rápidos.

OpenRefine — limpieza y normalización de datos “sucios”; excelente para clustering de valores y reconciliación. Útil cuando recibes múltiples CSVs con escrituras distintas. 🔧

Python (pandas) / R (tidyverse) — análisis reproducible, transformaciones complejas y generación de gráficos programáticos; elegir según afinidad y comunidad.

Tabula / pdfplumber — extracción de tablas desde PDFs oficiales.

Datawrapper / Flourish / Observable — creación rápida de gráficos y mapas interactivos sin necesidad de programar demasiado; Datawrapper facilita mapas coropléticos y gráficos embebibles.

QGIS — análisis y cartografía más avanzada cuando trabajas con datos geoespaciales.

Git & GitHub / GitLab — control de versiones, colaboración y publicación de código/datasets (o explicación de por qué no se comparte).

APIs y scraping (requests, BeautifulSoup, Scrapy) — para extraer información que no se descarga de forma directa.

OCR (Tesseract) y servicios de visión — cuando trabajas con imágenes o PDF escaneados.

Recursos de aprendizaje y guías prácticas: el Data Journalism Handbook es una referencia amplia con perspectivas prácticas y críticas; para limpieza interactiva de datos, la web oficial de OpenRefine ofrece documentación y tutoriales útiles.

([datajournalism.com](

Aplicación práctica

Abajo hay dos mini-casos realistas: uno corto (texto) y otro pensado para multimedia (mapa + video). Tras cada caso muestro un “workflow mínimo” y un “workflow editorial” para equipos.

[IMAGE: insert relevant illustrative image here]

Mini-caso 1 — Nota local sobre contratos municipales (texto)

Escenario: Un periodista local recibe una tabla con órdenes de compra municipales (CSV) entre 2019–2025. Quiere saber si hubo aumento inusual de adjudicaciones sin licitación.

Pregunta: ¿ha crecido el porcentaje de contratos por adjudicación directa respecto al total? (variable clave: tipo de adjudicación)

Obtención: verificar con la secretaría municipal el CSV original; pedir metadatos sobre cambio de formatos.

Limpieza: uniformizar valores de “tipo de adjudicación” (ej.: ‘Adjudicación Directa’, ‘Directa’, ‘AD’ → ‘Directa’).

Análisis: calcular % anual de contratos directos; comparar por monto y por proveedor.

Verificación: solicitar al municipio explicación sobre variaciones; revisar actas y decretos que justifiquen procedimientos extraordinarios.

Narrativa: artículo explicando la tendencia, con gráfico de barras y tabla descargable con resumen por año.

Workflow mínimo (periodista individual): Google Sheets/Excel → OpenRefine (limpieza) → Datawrapper (gráficos) → artículo. Documentar pasos en un archivo README.

Workflow editorial (equipo): periodista de datos & reportería de campo: extracción original por la persona de datos, limpieza por periodista de datos, verificación legal por editor, visualizaciones por diseñador; reunión editorial para revisar redacción y preguntas a la fuente; publicación con dataset y metodología.

Mini-caso 2 — Reportaje multimedia sobre acceso a salud (mapa + video)

Escenario: Un medio quiere explorar desigualdades en la distribución de camas UCI por región y producir un video corto y mapa interactivo.

Pregunta: ¿qué tan equitativa fue la distribución de camas UCI por 100,000 habitantes entre regiones en 2024?

Obtención: datasets del ministerio de salud (camas reportadas), población por región (censo/est. poblacional) y geodata (shapefiles de límites administrativos).

Limpieza: reconciliar nombres de regiones, transformar a tasas por 100,000 habitantes.

Análisis: índices de desigualdad (por ejemplo, coeficiente de variación); identificar regiones en cola.

Visualización: mapa coroplético (QGIS o Datawrapper) y gráficos de barras; guion para video mostrando historias humanas en las regiones afectadas.

Verificación: contactar hospitales y autoridades regionales para confirmar cifras y explicaciones.

Workflow mínimo (pequeño equipo): Python (pandas) o R para cálculo de tasas → QGIS o Datawrapper para mapa → editor de video para combinar entrevistas y visuales.

Workflow editorial (redacción grande): equipo de investigación (datos), reporteros locales (entrevistas), diseñador interactivo (mapa), editor de datos (revisión de metodología), abogado/editor.jefe (revisión de riesgos), publicación sincronizada en web y redes.

Conclusión

El periodismo de datos combina técnicas tradicionales de la profesión —verificación, fuentes, contexto— con prácticas y herramientas para trabajar con información estructurada. Empezar desde cero requiere curiosidad, una pregunta clara, disciplina en la limpieza y la documentación, y una sensibilidad ética sobre privacidad y transparencia.

Consejos finales:

Comienza con problemas locales y datasets pequeños para practicar el flujo completo.

Documenta todo: un buen README vale tanto como un buen gráfico.

Prioriza la reproducibilidad y la protección de personas vulnerables en tus datos.

Busca formación y comunidad (conferencias, cursos, foros) para mejorar continuamente.

FAQ

¿Necesito saber programación para hacer periodismo de datos?

No necesariamente. Puedes empezar con Google Sheets, OpenRefine y herramientas de visualización como Datawrapper. Sin embargo, aprender Python o R aumenta tu capacidad para analizar conjuntos grandes y automatizar procesos. Lo importante es la metodología: plantear la pregunta, obtener y verificar los datos, y documentar los pasos.

¿Cómo manejo datos personales sensibles en una investigación?

Evalúa si los datos son necesarios para la historia; si no lo son, elimina o anonimiza. Usa técnicas de minimización (agregación, supresión de identificadores) y consulta a la sección legal de tu medio. Registra las decisiones y explica las limitaciones al publicar.

Fuentes

Data Journalism Handbook / DataJournalism.com (guía práctica y crítica). ([datajournalism.com](

OpenRefine (sitio oficial, herramienta de limpieza de datos). ([openrefine.org](https://openrefine.org/?utm_source=openai))

IRE / NICAR — formación y conferencias sobre periodismo de datos (recursos y talleres). ([ire.org](

Qué es el periodismo de datos y cómo empezar desde cero

Introducción

Marco básico y principios

Checklist de principios éticos y metodológicos

Guía paso a paso

Paso 1 — Definir la pregunta periodística

Paso 2 — Localizar y obtener datos

Paso 3 — Limpieza y transformación

Paso 4 — Análisis exploratorio

Paso 5 — Verificación y triangulación

Paso 6 — Narrativa y visualización

Paso 7 — Publicación responsable

Herramientas y recursos recomendados

Aplicación práctica

Mini-caso 1 — Nota local sobre contratos municipales (texto)

Mini-caso 2 — Reportaje multimedia sobre acceso a salud (mapa + video)

Conclusión

FAQ

¿Necesito saber programación para hacer periodismo de datos?

¿Cómo manejo datos personales sensibles en una investigación?

Fuentes

Deja una respuesta Cancelar la respuesta

Informe: señales de presión en el mercado laboral y precios

Informe: qué cambia en el mercado laboral tras la suba de precios

Informes: cómo evolucionan los controles por consumo responsable

Periodismo colaborativo: la revolución informativa

Cómo proteger tus fuentes y datos en la era digital

Estrategias para monetizar contenido sin perder independencia editorial

Cómo estructurar un reportaje largo para mantener la atención del lector

Qué hacer cuando una noticia viral resulta ser falsa