La era de la inteligencia artificial: una revolución en marcha (3/5)

Archivos que hablan: IA para la investigación histórica y la preservación

El archivo histórico es, a la vez, huella material y texto en potencia. Durante décadas, transformar legajos, manuscritos y periódicos en información analizable exigió tiempos enormes y equipos numerosos. Hoy, la inteligencia artificial (IA) permite desbloquear más rápidamente la información contenida en documentos, sin suplantar el juicio del historiador. Este artículo presenta un panorama de herramientas, flujos de trabajo reproducibles, estudios de caso ilustrativos, criterios de ética y fiabilidad, y una guía paso a paso para ejecutar un piloto realista. El propósito es doble: (1) ampliar cobertura y velocidad; (2) mantener una cadena de evidencia verificable que sostenga conclusiones sólidas.

1) Panorama de herramientas

1.1. Digitalización e imagen

  • Captura y estándares. Resoluciones de 300–600 dpi, carta de color y regla métrica, iluminación homogénea, control de distorsión. El uso de visores basados en IIIF facilita compartir imágenes en alta resolución sin duplicar archivos.
  • Preprocesamiento. Corrección de inclinación (deskew), aplanado de curvaturas, reducción de ruido, binarización adaptativa y segmentación de zonas (márgenes, columnas, pies de página).
  • OCR/HTR.
    • OCR (reconocimiento de texto impreso) funciona bien en tipografías regulares (periódicos, folletos).
    • HTR (reconocimiento de escritura manuscrita) aprende de ejemplos específicos de una mano o conjunto de manos; requiere conjuntos de verdad (ground truth) de entrenamiento.
  • Métricas de calidad. Character Error Rate (CER) y Word Error Rate (WER) para medir precisión; fijar umbrales (p. ej., CER ≤ 5% para impresos, ≤ 10–15% para manuscritos difíciles) orienta retrabajos.

1.2. Estructuración y formatos

  • ALTO/PAGE-XML. Guardan layout (coordenadas de líneas, cajas de texto) junto con el contenido; útil para citar por coordenadas.
  • TEI-XML. Modelo flexible para marcar personas, lugares, fechas, variantes, notas críticas, lagunas y enmiendas.
  • Dublin Core/MODS/EAD. Esquemas de metadatos para describir piezas, expedientes y colecciones; clave para preservación y descubrimiento.

1.3. Procesamiento del lenguaje natural (NLP)

  • Normalización. Expansión de abreviaturas, unificación de grafías (p. ej., “Méjico/México”), estandarización de fechas.
  • Extracción de entidades (NER). Detección de personas, lugares, instituciones, cargos, oficios; vinculación (entity linking) a identificadores persistentes (VIAF, Wikidata, TGN/ULAN de Getty, GeoNames).
  • Desambiguación y correferencias. Distinguir homónimos y unir menciones (“el Sr. Pérez”, “Don José”).
  • Relaciones. Tripletas sujeto–relación–objeto (p. ej., Fulanoarrendóhacienda X en año Y).
  • Búsqueda semántica y RAG. Indexar corpus para que las respuestas citen el folio/página exacto.

1.4. Cartografía histórica

  • Geocodificación temporal. Asignar coordenadas a topónimos históricos (nombres variantes, jurisdicciones cambiantes).
  • Incertidumbre espacial. Representar rangos (polígonos/ bounding boxes), niveles de precisión y confidence scores.
  • Capas y series de tiempo. Mapas comparados por décadas, rutas y redes (comercio, correspondencia, expediciones).
  • Integración con SIG. Exportar a QGIS o herramientas web para publicar mapas navegables.

1.5. Reconstrucción de textos dañados

  • Relleno de lagunas guiado. Los modelos proponen lecturas probables marcadas como hipótesis con probabilidad asociada; nunca sustituyen la indicación de lacunae.
  • Realce multiespectral. Cuando se dispone de imágenes multiespectrales, algoritmos separan tintas y fondos para recuperar trazos.
  • Colación y crítica textual. Alineación automática de variantes entre copias/ediciones para construir aparatos críticos preliminares.

1.6. Publicación y preservación

  • Repositorios con PIDs. Asignación de DOI/ARK a conjuntos de datos, imágenes y ediciones digitales.
  • Control de versiones. Git u otros sistemas para rastrear cambios y reproducir resultados.
  • Licencias. Claridad sobre derechos de reproducción y uso (CC BY/CC0 cuando sea posible).
  • Accesibilidad. Transcripciones legibles por máquina y por humanos; visores con capas (imagen + texto + anotaciones).

2) Flujos de trabajo reproducibles

2.1. Principios

  1. Documentar cada paso (herramientas, versiones, parámetros).
  2. Separar datos crudos, intermedios y finales en carpetas/versiones.
  3. Métricas en cada fase (calidad de OCR/HTR, precisión/recobrado en NER, tasas de geocodificación).
  4. Revisión humana con muestreos y reglas de aceptación.
  5. Trazabilidad desde cualquier afirmación hasta el folio/imagen correspondiente.

2.2. Cadena típica

  1. Adquisición. Inventario, permisos, plan de digitalización, control de calidad de imagen.
  2. Preprocesamiento. Correcciones ópticas y segmentación por zonas.
  3. Transcripción. OCR/HTR inicial + corrección sobre muestra.
  4. Normalización. Expandir abreviaturas, uniformar fechas y nombres (conservando forma original).
  5. Enriquecimiento. NER, entity linking, relaciones, tópicos.
  6. Geocodificación. Topónimos con dimensión temporal e incertidumbre.
  7. Validación. Muestreos estratificados, cálculo de precision/recall y CER; revisión por pares.
  8. Publicación. TEI/ALTO, metadatos, mapas, tablero de calidad, data paper.
  9. Preservación. PIDs, licencias, depósito en repositorio y reproducible bundle (scripts, bitácora, versiones).

2.3. Versionado y auditoría

  • Bitácora ejecutiva (para lectores) y bitácora técnica (para replicadores).
  • Semillas aleatorias fijadas en procesos estocásticos.
  • Pruebas de regresión: si cambia un modelo, re-evaluar métricas en el mismo conjunto de verificación.
  • Acuerdo entre anotadores (Cohen’s kappa) para tareas manuales; metas mínimas (p. ej., κ ≥ 0.75).

3) Estudios de caso ilustrativos

Los siguientes casos son escenarios modelo para visualizar posibilidades. No describen proyectos específicos; sintetizan prácticas recomendables.

Caso A: Protocolos notariales coloniales (manuscrito)

Objetivo. Extraer redes económicas a partir de escrituras y poderes de finales del siglo XVIII.

Flujo.

  1. Digitalización a 400 dpi, control de color.
  2. HTR con entrenamiento incremental basado en 200 páginas “verdad”.
  3. Normalización de abreviaturas (“q.” → que, “dho.” → dicho), pero se conserva la forma original en un atributo.
  4. NER de personas, oficios, lugares, montos; entity linking a VIAF/Wikidata cuando exista identificación inequívoca.
  5. Extracción de relaciones: A otorga poder a B; A arrienda a B; montos y fechas normalizados.
  6. Geocodificación de topónimos históricos (incluye jurisdicciones; precisión marcada por niveles).
  7. Visualización de redes (nodos por individuos; aristas por relaciones jurídicas) y mapas por década. Control de calidad. CER 12% tras HTR (aceptable dada la dificultad), precision/recall en NER > 0.90/0.85 en muestra revisada. Resultado. Un grafo navegable por oficio y parroquia, que sugiere hipótesis sobre intermediarios y flujos de capital. El historiador interpreta.

Caso B: Periódicos del siglo XIX (impreso)

Objetivo. Analizar cambios de opinión pública en torno a reformas políticas.

Flujo.

  1. OCR con modelos específicos para tipografía Antigua.
  2. Corrección ortográfica conservando variante histórica en nota.
  3. Indexación y búsqueda semántica; extracción de tópicos y tendencias por año.
  4. Detección de actores colectivos (sociedades, logias, partidos) y seguimiento de voceros. Control de calidad. CER < 3%; validación humana de artículos críticos; panel de frecuencias con intervalos de confianza. Resultado. Series temporales de argumentos (p. ej., “orden”, “progreso”, “federalismo”) y mapas de difusión regional; insumo para trabajos de historia política y de la prensa.

Caso C: Cartas dañadas y reconstrucción de lagunas

Objetivo. Proponer lecturas tentativas en pasajes ilegibles por humedad.

Flujo.

  1. Filtrado de canales e incremento de contraste; cuando es posible, compuesto multiespectral.
  2. El modelo sugiere hasta tres lecturas con probabilidad y justificación lingüística (n-gramas, paralelos en el mismo corpus).
  3. Las lagunas se marcan en TEI (, ), quedando clara la condición de hipótesis. Control de calidad. Revisión por dos especialistas; solo se aceptan reconstrucciones con coincidencia independiente o evidencia externa. Resultado. La edición anota soluciones posibles sin convertirlas en hecho, respetando la prudencia filológica.

4) Ética y fiabilidad

4.1. Cadena de evidencia

Toda afirmación debe rastrearse hasta la imagen/folio y a la versión del procesamiento que la produjo. La edición digital ha de permitir:

  • Citas con coordenadas (p. ej., página 145, línea 12–17).
  • Acceso al texto base y a la normalización aplicada.
  • Registro de quién validó qué, cuándo y con qué criterios.

4.2. Sesgos de corpus

  • Representatividad. Colecciones sobrerrepresentadas pueden deformar conclusiones (p. ej., voz urbana vs. rural).
  • Lenguaje y categorías. Etiquetas anacrónicas o ajenas al contexto histórico introducen violencia interpretativa. Preferir vocabularios controlados explicados en la metodología.
  • Mitigación. Auditorías periódicas; trazabilidad de decisiones de catalogación; inclusión de contraejemplos en el entrenamiento.

4.3. Exactitud y “alucinaciones”

  • Regla de oro: sin fuente explícita, no publicar.
  • RAG con repositorios internos o públicos confiables; el sistema debe negarse a responder si la evidencia es insuficiente.
  • Semáforo de riesgo: verde (paratextos), amarillo (síntesis de terceros, requiere cotejo), rojo (novedades interpretativas, exige revisión doble).

4.4. Derechos y sensibilidad

  • Licencias claras y respeto a datos personales en fondos recientes.
  • Contextos sensibles (poblaciones indígenas, violencia, salud): adoptar principios de no daño y consulta con comunidades afectadas cuando corresponda.

4.5. Transparencia con lectores

  • Rotular contenidos asistidos por IA y explicar el proceso de verificación.
  • Publicar errores conocidos y limitaciones del corpus y de los modelos utilizados.

5) Guía paso a paso para un pequeño proyecto piloto

Objetivo (90 días). Transformar un conjunto acotado (p. ej., 5–8 volúmenes o 1.500 páginas) en datos verificables: transcripciones, entidades, mapas y una edición digital mínima, con métricas y documentación.

Semana 1–2: Diseño y preparación

  1. Acotar el caso. Elegir un fondo con pertinencia histórica y permisos claros.
  2. Definir preguntas. ¿Qué queremos medir o encontrar? (p. ej., redes de crédito, circulación de topónimos).
  3. Muestreo de calidad. Digitalizar 50 páginas de prueba; estimar CER posible y complejidad paleográfica.
  4. Política de datos. Licencias, acceso, anonimización si aplica.
  5. Esquema de metadatos. Dublin Core + notas TEI básicas; vocabularios de personas/lugares.

Semana 3–6: Digitalización y transcripción

  1. Captura masiva. 300–400 dpi con control de color; bitácora de incidencias.
  2. Preprocesamiento y segmentación; almacenamiento de ALTO/PAGE-XML.
  3. OCR/HTR con entrenamiento incremental (empezar con 150 páginas “verdad” cuidadosamente corregidas).
  4. Evaluar CER por lote; decidir retrabajos o aceptación.

Semana 7–8: Enriquecimiento y validación

  1. Normalización (fechas, abreviaturas, grafías) conservando forma original.
  2. NER y linking a identificadores; calibrar precision/recall con muestras estratificadas.
  3. Geocodificación con capas temporales e incertidumbre; construcción de un primer mapa.
  4. Validación por pares (dos revisores); registro de acuerdos y discrepancias (κ).

Semana 9–10: Publicación mínima viable

  1. Edición TEI con aparato de variantes si aplica; visores IIIF con capas (imagen + texto + anotaciones).
  2. Dashboard de calidad: CER por lote, precisión NER, % de geocodificación, incidencias.
  3. Repositorio con PIDs, licencia, readme técnico y citación sugerida.
  4. Informe narrativo (2–3 páginas): qué se logró, límites, próximos pasos.

Semana 11–12: Evaluación y escalamiento

  1. Lecciones aprendidas (qué automatizar, qué reservar a humanos).
  2. Costeo por tarea (minutos/página, costo/transcripción validada).
  3. Plan de escalado: ampliar corpus, mejorar modelos con nuevas “verdades”, fortalecer cartografías y vínculos con catálogos editoriales.

Roles mínimos:

  • Coordinación historiográfica (define preguntas, valida interpretaciones).
  • Especialista en datos/edición digital (TEI, metadatos, IIIF).
  • Operador de IA/NLP (OCR/HTR, NER, RAG).
  • Revisores (paleografía/temas).

Entregables:

  1. Conjunto de imágenes estandarizadas;
  2. Transcripciones con CER documentado;
  3. Dataset de entidades y relaciones con identificadores;
  4. Mapa navegable con leyendas claras;
  5. Edición digital mínima con TEI y visor;
  6. Documento metodológico con métricas, licencias y cadena de evidencia.

Conclusión: técnica al servicio del método

La IA no convierte al archivo en verdad automática; lo vuelve interrogable a otra escala. Su valor no está en prometer sustituciones, sino en liberar tiempo experto para lo que el historiador hace mejor: contextualizar, comparar, interpretar y escribir. Con estándares abiertos, flujos reproducibles y controles de calidad, los “archivos que hablan” lo hacen con rigurosidad y respeto por su materialidad y su contexto histórico.

En el siguiente artículo de la serie —“La nueva economía de la imaginación: IA, autoría y el contrato editorial”— examinaremos cómo estas capacidades impactan la cadena de valor del libro, la curaduría y la propiedad intelectual, proponiendo políticas editoriales prácticas para un catálogo sólido y transparente.

Anabasis Project


Palabras clave: investigación histórica con IA, paleografía asistida, OCR, HTR, IIIF, TEI-XML, ALTO, PAGE-XML, Dublin Core, MODS, EAD, edición digital crítica, normalización de abreviaturas, extracción de entidades (NER), entity linking, VIAF, Wikidata, GeoNames, TGN/ULAN, búsqueda semántica, RAG, cartografía histórica, geocodificación temporal, incertidumbre espacial, QGIS, líneas de tiempo, redes históricas, reconstrucción de textos dañados, análisis multiespectral, colación y aparato crítico, metadatos, preservación digital, repositorios con PID, DOI, ARK, licencias Creative Commons (CC BY, CC0), control de versiones (Git), bitácora técnica, trazabilidad, cadena de evidencia, CER, WER, precision y recall, acuerdo entre anotadores (Cohen’s kappa), flujos reproducibles, tablero de calidad (dashboard), ética por diseño, privacidad y no daño, políticas de acceso, transparencia metodológica, data paper, reproducible bundle.

Hashtags: #ArchivosQueHablan #IAParaHistoriadores #PaleografíaAsistida #OCR #HTR #EdiciónDigital #IIIF #TEIXML #Metadatos #NER #EntityLinking #Wikidata #VIAF #CartografíaHistórica #Geocodificación #RAG #BúsquedaSemántica #ReconstrucciónDeTextos #PreservaciónDigital #CadenaDeEvidencia #Trazabilidad #CER #WER #PrecisionRecall #CohensKappa #ÉticaPorDiseño #AccesoAbierto #CreativeCommons #ScriptaMagna #AnabasisProject

¿Te ha gustado? Comparte en tus redes