
Los datos son, sin discusión, el combustible de la economía digital. Pero su verdadero poder emerge solo cuando los transformamos en inteligencia accionable y estructurada. En el ámbito de la ciberinteligencia, disponer de una arquitectura de datos robusta —que siga estándares de intercambio como STIX 2.1 y TAXII 2.1— permite detectar amenazas, anticipar campañas adversarias y colaborar eficazmente con terceros.
Sobre esto y mucho más tratará la charla “Arquitectura de datos para la gestión de la ciberinteligencia”, donde Jaime Casado y Daniel A. de Next Digital nos explicarán cómo las estructuras de datos pueden transformar la gestión y análisis de información no estructurada en entornos de ciberinteligencia
Esta charla se celebrará en el contexto de la Codemotion Madrid 2025, más concretamente el miércoles 21 de mayo en el plató 5 a las 11:45. Si aún no tienes tus entradas, te recordamos que todavía estás a tiempo de comprarlas por aquí.
Contexto de la charla
En ciberseguridad trabajamos con una gran cantidad de datos no estructurados: registros de red, repositorios OSINT, foros clandestinos, telemetría de endpoints, archivos multimedia (IMINT) y feeds de inteligencia cerrados. Una arquitectura eficaz debe:
- Ingerir fuentes heterogéneas en tiempo real (p. ej., brokers Kafka con conectores para APIs, logs y capturas de red).
- Normalizar y enriquecer los eventos (ETL/ELT con Spark Structured Streaming, enriquecimiento STIX/TAXII y taxonomías MITRE ATT&CK).
- Almacenar datos crudos y refinados en data lakehouses (Delta Lake o Apache Iceberg) y grafos (Neo4j) para relaciones entidad-atributo.
- Procesar correlaciones y analítica avanzada (detección de anomalías con MLflow, búsquedas Sigma/ELK, grafos de ataque).
- Visualizar y orquestar hallazgos (TIP OpenCTI, TheHive + Cortex, paneles Kibana/Grafana, flujos SOAR) para que el analista actúe con contexto.
De esta forma podremos identificar patrones, anomalías y correlaciones que podrían convertirse en indicadores de amenazas cibernéticas o actividades malintencionadas. La clave está en diseñar estructuras que permitan no solo almacenar estos datos, sino también establecer conexiones entre ellos.
¿Por qué es necesario estructurar dicha información?
No importa si hablamos de fuentes abiertas OSINT (Open Source Intelligence), fuentes cerradas y de acceso restringido o de datos extraídos de imágenes, conocidos como IMINT (Imagery Intelligence). Tampoco si se tratan de logs internos o feeds de amenazas. El objetivo de una arquitectura de datos es ofrecer la infraestructura necesaria para almacenar estos datos de tal manera que estos se puedan consultar y analizar de la forma más sencilla, rápida, fiable y práctica posible.
Además en el ámbito de la ciberinteligencia se debe tener en cuenta que la información será compartida por multitud de profesionales y equipos, y es por esto que debe existir una estructura de datos estándar para que dichos equipos, CERTs, o ISACs puedan consumirla sin fricciones.
Si conseguimos diseñar una estructura de datos eficiente y fácilmente gestionable, será más sencillo aplicar filtros, correlaciones y visualizaciones que permiten extraer patrones y detectar amenazas. Los datos nos “hablarán” y nos permitirán:
- Prevenir ataques antes de que ocurran.
- Reaccionar más rápido cuando sucede un incidente.
- Conocer al enemigo: sus técnicas, herramientas y objetivos.
¿Qué características debe tener una arquitectura de datos para ciberinteligencia?
Si bien es cierto que una estructura de datos para la gestión de la ciberinteligencia guardará algunas características comunes con un proyecto de Inteligencia de negocio, como ser escalable y flexible, tolerante a fallos, por capas… Hay que tener en cuenta además que el entorno ciber es un entorno vivo y que cambia con mucha rapidez por lo que además necesitaremos que nuestro modelo o estructura sea capaz de:
- Admitir grandes volúmenes de logs, telemetrías, y fuentes OSINT sin perder eventos
- Normalizar, deduplicar y enriquecer los datos de forma automática
- Presentar la información estratégica, operativa y táctica debe presentarse en formatos STIX 2.1 y compartirse por TAXII 2.1, garantizando así la interoperabilidad y facilidad de intercambio.
- Combinar data-lakehouse para datos crudos/refinados con baes de grafos para relaciones entre actores, TTPs e IoCs, habiltando consultas complejas sin sacrificar rendimiento.
La charla: Arquitectura de datos para la gestión de la ciberinteligencia
Esta entrada es tan solo una breve puesta en escena de lo que podremos aprender en la charla “Arquitectura de datos para la gestión de la ciberinteligencia”.
En ella serán los auténticos expertos en la materia los que nos explicarán qué estrategias y arquitecturas existen para procesar grandes volúmenes de información no estructurada en el ámbito de la ciberinteligencia.
Jaime Casado Aparicio, Data Engineer en Next Digital, y Daniel A., analista de datos en Next Digital, nos desvelarán todos los secretos de este tipo de estructuras de datos, así como las mejores prácticas para implementar arquitecturas de datos eficientes que maximicen el valor de la información no estructurada.
Además, se expondrá cómo plantear esta estructura en un home-lab, permitiendo que cualquier usuario pueda construir su propia infraestructura de análisis sin necesidad de grandes inversiones.
Los ponentes
- Jaime Casado Aparicio – Data Engineer en Next Digital: Data Engineer y un apasionado de transformar datos en soluciones eficientes y escalables. Me encanta trabajar en equipo, pero también disfruto del reto de encontrar soluciones por mi cuenta. Para mí, la precisión y la eficiencia no son solo cualidades técnicas, sino la clave para crear software que realmente marque la diferencia. Y, por supuesto, nada de esto tiene sentido sin pensar en el usuario final: si los datos hablan, ¡es nuestro trabajo asegurarnos de que cuenten una gran historia!
- Daniel A. – Analista de datos en Next Digital: analista de datos especializado en inteligencia corporativa. Mi misión es convertir el caos de los datos en información estratégica. Desde hace años, ayudo a las empresas a organizar, interpretar y aprovechar sus datos para tomar decisiones más inteligentes y acertadas. Porque en un mundo donde la información es poder, mi trabajo consiste en asegurarme de que las empresas lo usen a su favor.