Big Data vs seguridad mundial

En estos últimos años, los ámbitos empresarial, académico, político, administración  y de la seguridad han estado haciendo frente a la avalancha de datos con un nuevo concepto que ha dado en denominarse Big Data. Por la simple denominación usada se entiende que se trata de grandes volúmenes de información que no es sencillo tratar con las herramientas y procedimientos tradicionales.  Esta idea hace evolucionar los métodos y recursos habituales para hacerse cargo de grandes volúmenes de datos (de terabytes pasamos a zetabytes). Estos se generan a gran velocidad (pasamos de datos en lotes/archivos a datos en “streaming”) y además se añade una posible componente de complejidad y variabilidad en el formato de esos datos (pasamos de datos estructurados a datos semi-estructurados o no estructurados). Todo ello requiere de técnicas y tecnologías específicas para su captura, almacenamiento, distribución, gestión y análisis de la información.

Big Data MAHT2016

En la figura de arriba podemos ver como empresas como WallMart, NSA (National Security Agency), DARPA (Defense Advanced Research Projects Agency), INTERPOL , entre otras, se relacionan con el concepto de Big Data. MAHT2016 (para aumentar tamaño dar click sobre la imagen y nuevamente click sobre ella.)

Es importante mencionar que a veces se recurren a definiciones poco precisas sobre este concepto, veamos como algunas compañías lideres, explican  que es Big Data;

EMC: “Las tecnologías de Big Data describen un nuevo conjunto de tecnologías y arquitecturas, diseñadas para extraer valor y beneficio de grandes volúmenes de datos con una amplia variedad en su naturaleza, mediante procesos que permitan capturar, descubrir y analizar información a alta velocidad y con un costo reducido”

IBM: considera que hay “Big Data”, si el conjunto de información supera el terabyte de información, es sensible al tiempo, y mezcla información estructurada con no estructurada. Así, su enfoque trata de buscar la forma mejor de aprovechar estos datos, su gestión, su combinación (datos estructurados con los que no lo son), la aplicación
de algoritmos predictivos de comportamiento, y con todo ello, permitir la toma de decisiones que añadan valor al negocio.

Un reciente estudio realizado por la consultora IDC Digital Universe, revela que el tamaño del universo digital alcanzó los 9,8 zettabytes (ZB) en 2015, y predice que para 2020 se alcancen los 40 ZB, a partir de los datos generados por personas y dispositivos, aunque sólo el 0,5% de la información se analiza. Las estimaciones indican que sólo un 20% del universo digital cuenta actualmente con protecciones frente a robo digital, medidas de privacidad o cumplimiento de reglamentaciones. Y el volumen de información va a crecer mucho más rápido que la inversión en hardware, software, servicios, telecomunicaciones y personal (un 40% entre 2015 y 2020); como consecuencia, la inversión por gigabyte se reducirá en un 90%. Con todo, se estima que el crecimiento de sectores emergentes del universo digital (gestión de almacenamiento, seguridad, Big Data, Cloud Computing) puede variar entre el 35% y el 65%.

Big Data no es una tecnología en sí misma, sino más bien un planteamiento de trabajo para la obtención de valor y beneficios de los grandes volúmenes de datos que se están generando hoy en día. Se deben contemplar aspectos como los siguientes:
• Cómo capturar, gestionar y explotar todos estos datos.
• Cómo asegurar estos datos y sus derivados, así como su validez y fiabilidad.
• Cómo disponer la compartición de estos datos y sus derivados en la organización para la obtener mejoras y beneficios.
• Cómo comunicar estos datos y sus derivados (técnicas de visualización, herramientas, y formatos) para facilitar la toma de decisión y posteriores análisis.

Capacidades técnicas de Big Data

  • Adquisición
  • Trasmisión.
  • Almacenamiento y procesado.
  • Presentación tratamiento automática.
  • Tratamiento automático.
  • Aprendizaje y toma de decisión automáticos. (Matemáticas).

De lo anterior explicare algunas capacidades técnicas

Adquisición

Una de las principales razones de la actual “explosión de la información digital” es la evolución exponencial en el número y capacidad de los sistemas de adquisición de datos. Esta evolución tiene una clara raíz tecnológica: la mejora, abaratamiento y miniaturización de estos sistemas, tanto de los sensores cómo de la electrónica asociada,
y en particular de su conexión a la red Internet.

Un ejemplo que muestra esta evolución tecnológica son los smartphones, que pueden integrar sensores relativamente sofisticados (cómo una cámara de alta resolución o un receptor GPS) junto a otros sencillos (sensores de aceleración o el propio micrófono) y son capaces de digitalizar y transmitir la información correspondiente a la red, todo ello con un costo reducido.

En la idea inicial de un Internet of Things todos estos sensores ubicuos se autoidentificarían a la red y proporcionarían de forma autónoma un gran volumen de datos, útil para entender diferentes modelos físicos, sociales o económicos, para sistemas complejos de modelar. En iniciativas cómo las Smart Cities se integran este tipo de sensores y otros similares cómo sensores de paso, de presencia, o estaciones medioambientales, con otros más complejos cómo cámaras, con el propósito de optimizar un modelo de uso de recursos urbanos. El flujo de información proporcionado por estos sensores al sistema distribuido o central de monitorización y almacenamiento de los mismos viene limitado por el ancho de banda de la red de comunicación disponible, típicamente del orden de Kilobits/s o Megabits/s si se usa tecnología sin cables (GSM/GPRS/UTMS o wifi/wimax) hasta Gigabit/s para conexiones por cable o fibra (reservado normalmente a la conexión de hubs de sensores o de cámaras de alta resolución). El reto viene de la integración de un gran número de sensores: pensemos por ejemplo en la integración de millones de medidas en tiempo casi real de consumo eléctrico en hogares proporcionado por contadores inteligentes.

La llegada de la web 2.0 ha supuesto un cambio en el modo de comunicación de los usuarios en Internet, de esta forma los usuarios han dejado de ser meros receptores de información y han comenzado a ser generadores de la misma. Hoy en día, la mayor parte de los usuarios forman parte de las redes sociales, disponen de sus propios blogs
o comentan en ellos, participan en foros, comentan noticias,… lo que provoca que el volumen de información disponible haya crecido de forma exponencial en los últimos años, como muestran algunos datos relevantes:

  • Durante el 2012, los usuarios de YouTube subieron 48 horas de vídeos nuevos cada minuto.
  • Se crearon 571 sitios web cada minuto durante el pasado año
  • Cada día Facebook procesa 100 terabytes de información procedente de sus usuarios.
  • Según datos de Twitter a principios de 2012, se escribieron 175 millones de tweets al día.
  • Se prevé que la producción de datos sea 44 veces mayor en 2020 que en 2009.

De hecho, la necesidad de poder manejar estos volúmenes de información que se producen en Internet es uno de los pilares básicos del nacimiento del término Big Data.

Esta fuente de información es fundamental a la hora de plantear técnicas de adquisición de datos en el sector de la Seguridad y la Defensa, de hecho, una de las disciplinas que engloban la inteligencia es lo que se conoce como OSINT (Open Source Intelligence) que toma de las fuentes abiertas para la generación de inteligencia, entre ellas la información de Internet. De esta forma, algunos países como Estados Unidos han creado órganos específicos como el National Intelligence Open Source Center (OSC), o Australia con su National Open Source Intelligence Centre (NOSIC).  “El volumen de información es tan brutal, que requiere de organizaciones especializadas en la búsqueda y tratamiento de fuentes abiertas, centralizada al más alto nivel, incluso a nivel político, poniendo la información a disposición del nivel militar estratégico y operacional”.

Almacenamiento y procesado

“Hace una década, la escalabilidad del almacenamiento de datos se consideraba uno de los mayores problemas técnicos a los que se enfrentaban los propietarios de dichos datos. Sin embargo, la incorporación de nueva tecnología eficiente y escalable en gestión de datos y almacenamiento ha hecho que este deje de ser el problema que era” [cita de Big Data, a New World of Opportunities, NESSI White Paper, Diciembre 2012]. Efectivamente, mientras que en el año 2000 la instalación de un sistema de almacenamiento de capacidad 10 Terabytes (10.000 Gigabytes) era un pequeño reto técnico y económico, en 2015 la instalación de un sistema de almacenamiento de 5 Petabyte (5000 TB), que ocupa menos de un rack standard, no conlleva ninguna dificultad. La razón hay que buscarla por un lado en la evolución de la capacidad y precio de los discos magnéticos (actualmente alcanzan 3TB en formato SAS 3.5”) y por otra parte en la mejora de los sistemas de conexión y ficheros distribuidos.

Tanto los sistemas SAN (Storage Area Network) en los que cada computador conectado a la red de almacenamiento puede acceder directamente a cada bloque de información almacenado, conectado usualmente por fibra mediante el protocolo FCP (Fiber Channel Protocol, SCSI sobre Fibra) a velocidades de 8Gbit/s, o NAS (Network Attached Storage), en los que se accede a los sistemas de disco a nivel de fichero, normalmente por protocolo IP, a velocidad de hasta 10 Gbit/s, permiten implementar soluciones distribuidas, con redundancia, y actualmente a un costo asumible. El desarrollo de soluciones más flexibles y de menor costo y complejidad, cómo ISCSI, y la lenta pero imparable introducción de los discos de estado sólido (SSD), con mucho menor consumo de energía y mejor rendimiento especialmente en acceso aleatorio, permite esperar una evolución muy positiva en los próximos años.

Los sistemas de ficheros de alto rendimiento, cómo GPFS o Lustre, ofrecen al usuario, a través de servidores dedicados, volúmenes de trabajo de varios Petabytes con un rendimiento igual o superior al proporcionado por sistemas de disco local, limitado solamente por la conexión de red y la potencia del propio ordenador. Esta solución es la que implementan actualmente la mayoría de los centros de supercomputación, utilizando incluso conexiones Infiniband que permiten velocidades de conexión máxima de 40Gb/s y mínima latencia.

Nube proveedores de Internet. MAHT2016

Nube proveedores de Internet. MAHT2016

Por otra parte el análisis o procesado de estos grandes volúmenes de datos se realiza normalmente en clústeres formados por servidores de alto rendimiento, interconectados entre sí y conectados a los sistemas de almacenamiento descritos. La potencia de los sistemas de computación ha crecido de forma exponencial desde los años 70, cómo intuitivamente predijo en 1965 Gordon Moore, cofundador de Intel: cada dos años aproximadamente se duplica el número de transistores por circuito integrado y por tanto la potencia del procesador.

Esta evolución se refleja en la potencia de los servidores actuales, con varios procesadores y múltiples núcleos por procesador, que superan fácilmente los 300 Gigaflops (300.000 millones de operaciones por segundo). Del mismo modo han aparecido los procesadores basados en aceleradores de gráficos o GPUs, con más de 500 núcleos cada uno, que permiten superar la potencia de 1 Teraflop (1000 Gigaflops) en un solo servidor. Así la mayoría de los supercomputadores incluidos en la lista top500 [top500.org] supera los 100 Teraflops y los más potentes llegan a superar los 10 Petaflops (10.000 Teraflops) y los 500.000 núcleos.

En los clústeres los nodos pueden operar de modo “individual”, procesando cada uno de ellos información de forma independiente sin necesidad de comunicación con los demás nodos, o de forma colectiva en “paralelo”, cuando el procesado requiere comunicación entre los nodos. Un ejemplo de este segundo caso es el procesado segmentado de una imagen muy grande, o el entrenamiento de una red neuronal sobre un gran volumen de datos.

La “paralelización” y optimización de las aplicaciones para que hagan uso de muchos núcleos es un paso crítico para mejorar el rendimiento de muchas aplicaciones en Big Data. Frente a esta infraestructura “clásica” de almacenamiento y procesado de datos, que funciona de modo muy eficaz para muchos problemas clásicos, incluyendo la implementación de bases de datos SQL, han aparecido en relación con ciertos problemas de Big Data nuevas soluciones en principio más económicas y eficientes para el almacenamiento y posterior procesado de datos.

Probablemente la más conocida es la implementada por Google para el procesado de las búsquedas, basada en el denominado Google File System (GFS) que proporciona acceso a datos distribuidos sobre grandes clústeres de servidores de muy bajo costo, junto con la técnica MapReduce que distribuye la tarea de procesado de la información entre los nodos en los que está almacenada de forma local.

La plataforma abierta HADOOP permite implementar esta solución de modo eficiente y escalable, empleando el sistema denominado HDFS (Hadoop Data File System). La combinación de este tipo de sistema de ficheros distribuidos junto con nuevas técnicas de bases de datos NoSQL, permite abordar de forma muy eficiente y extremadamente escalable problemas de Big Data del tipo almacenamiento y análisis de un flujo de millones de “mensajes”, sean mensajes intercambiados en una red social, búsquedas en Google, registros de millones de sensores, o trazas de la actividad de cientos de miles de personas. Además muchas de estas bases de datos NoSQL, renunciando a algunos de los requerimientos de las bases de datos SQL, permiten extensiones en columnas, incluir información heterogénea, mejor escalabilidad, etc.

 

Aprendizaje y toma de decisión automáticos. (Modelos Matemáticos)

Todos somos conscientes de la importancia que la información, en su acepción más amplia, ha ido adquiriendo en las últimas décadas. Incluso, algunos estudiosos van un paso más allá y caracterizan este periodo de tiempo, precisamente, por este concepto, y así nos encontramos ante la “era de la información”. Sin embargo, conviene profundizar en qué debemos entender por información, estableciendo las diferencias entre “dato” e “información”. Si bien es posible encontrar varias definiciones de estos conceptos dependiendo de la aproximación a los mismos, de forma genérica podemos establecer que dato es la representación, en cualquier formato, de un atributo o característica de una entidad, proporcionando una descripción de un aspecto de la misma.

Por otro lado, información es el resultado de un proceso de organización y procesado de un conjunto de datos, del que se obtiene como resultado un mensaje que permiten ampliar el nivel de conocimientos del sujeto o sistema que lo recibe.

Desde la aparición de los primeras computadoras hasta nuestros días, la recogida de datos ha evolucionado de forma exponencial. La aparición de diferentes dispositivos para la recogida de datos como escáneres y videocámaras y la multiplicación de soportes de datos, como los diferentes tipos de tarjetas (tenemos una tarjeta prácticamente para cada tipo de transacción que realizamos), ha hecho posible que en un periodo relativamente corto de tiempo hayamos pasado de recoger información basada en caracteres alfanuméricos y por medio de un terminal informático, a estar generando y recogiendo datos, en varios formatos, prácticamente de forma continua en acciones tan cotidianas como comunicarnos por medio de terminales móviles, ordenar transacciones financieras, realizar compras en supermercados, etc.

Según la información disponible en la web oficial de IBM, en la que se cuantifica esta recogida de datos, cada día se recogen 2.5 trillones de bytes de datos, lo que es equivalente a que el 90% de los datos almacenados a día de hoy han sido recogidos en los dos últimos dos años.

Ya que el acopio de datos por sí mismo no proporciona ningún avance en el nivel de conocimiento de quien lo realiza, paralelamente a este almacenamiento se han desarrollado un conjunto de procedimientos con el objetivo de explotar los mismos. Esta explotación debe ser entendida fundamentalmente como la obtención de información que permita aumentar el nivel de conocimiento, como elemento básico para la toma de decisiones, en el ámbito en el que se desenvuelve la organización que tiene acceso a estos conjuntos de datos y los explota.

El desarrollo de estos procedimientos, entre otros conjuntos de técnicas con objetivos similares, se ha realizado por investigadores con perfiles profesionales diferentes, aunque la mayoría de ellos se encuadran en disciplinas como las matemáticas (estadística e investigación operativa), ingeniería e informática, dando lugar a una nueva área de conocimiento conocida como inteligencia artificial (existen otras denominaciones también admitidas con carácter general, dependiendo de la aproximación a este tipo de procedimientos, como aprendizaje estadístico).

Algunos de los trabajos teóricos que sirven de base a estos procedimientos son anteriores al desarrollo de la capacidad de cálculo proporcionada por la herramienta computacional, y la potencia y aplicabilidad de los mismos no se ha desarrollado hasta contar con este apoyo imprescindible.

Dentro de este ámbito de la explotación de los conjuntos de datos con el fin de extraer conocimiento, es posible distinguir diferentes tipos de tareas, cada una de las cuales constituye un tipo de problema a ser resuelto por técnicas normalmente distintas. Si bien todas estas tareas se centran en trabajos a partir un conjunto de datos o dataset, cada una de ellas tiene sus propios requisitos y procedimientos. Como consecuencia, el tipo de información a extraer de cada una de estas tareas puede diferir de la extraída del resto.

Se puede establecer una primera clasificación entre estas tareas, diferenciando aquellas que son de tipo predictivo (clasificación y regresión) de las que son descriptivas (clustering y asociación):

  • Clasificación: En ella, cada registro del conjunto de datos pertenece a una clase, indicada mediante el valor de un atributo llamado clase del registro. Este atributo puede tomar varios valores discretos, cada uno de los cuales caracteriza a cada clase. El objetivo de los algoritmos empleados en esta tarea es asignar los valores de clase a registros no clasificados, minimizando los errores de clasificación, y valiéndose para ello de aquellos registros del dataset (forman el denominado conjunto de entrenamiento o aprendizaje) en los que sí aparecen todos los atributos.
  • Regresión: Tarea predictiva consistente en asignar un valor real a un atributo de un registro a partir de los valores, también reales en su versión más general, del resto de atributos del registro. La asignación se realiza mediante una función real, construida a partir de los registros del dataset que sí contienen todos los atributos, tanto el que se ha de predecir como el resto, denominados predictores. El algoritmo de construcción de esta función real se basa en minimizar el error entre el valor predicho y el real de estos registros, que forman el conjunto de entrenamiento de esta tarea.
  • Clustering: Esta tarea consiste en dividir o segmentar el conjunto de registros. El objetivo de este tipo de algoritmos es diseñar los clústeres o grupos de tal forma que los registros incluidos en uno de ellos se caracterizan por su gran similitud o cercanía (en el sentido más amplio del término), mientras que entre los grupos (considerados de forma global) no existen similitudes o se encuentran suficientemente alejados.
  • Asociación: El objetivo de esta tarea es identificar relaciones no explícitas entre atributos categóricos. Mediante las reglas de asociación no se establece ningún tipo de relación causa efecto, sino que el objetivo de esta tarea son aquellas relaciones que se establecen en función de la ocurrencia conjunta de determinados atributos.

 

Depuración, exploración y visualización

Si bien los avances técnicos permiten la adquisición de datos de una forma ágil, estos no están exentos de imprecisiones, incoherencias y errores. Por lo tanto, como paso previo a la aplicación de cualquier procedimiento de obtención de información de un conjunto de datos es imprescindible someterlos a un proceso de depuración
para minimizar los efectos perversos de estas disfunciones. En general, este preproceso precisa de recursos y tiempo, pero permiten añadir mayor precisión a la información y conocimiento posteriores. También resulta muy aconsejable una exploración de los mismos una vez depurados.

Son varios los objetivos que se pueden conseguir con estas técnicas. En primer lugar la exploración de los datos permite la toma de contacto y la familiarización con los mismos. Esta exploración se puede realizar de dos formas principalmente, siendo éstas complementarias. En primer lugar la visualización de los datos mediante el empleo de procedimientos gráficos también van a permitir profundizar en el conocimiento general del conjunto de datos. En segundo lugar.

Es aconsejable realizar una exploración mediante el empleo de procedimientos numéricos descriptivos simples y de aplicación directa al conjunto de datos. Si en el análisis exploratorio de datos se perciben evidencias de información redundante o si bien el volumen del conjunto de datos resulta excesivo para las capacidades de los posteriores procesos de tratamiento, se hace aconsejable cuando no necesario reducir la dimensión de este conjunto.

Entre las principales técnicas para llevar a cabo esta reducción, podemos citar las siguientes.

  • Análisis de componentes principales.
  • Análisis factorial
  • Aprendizaje supervisado: Modelos de clasificación, árboles de clasificación, clasificadores basados en reglas, clasificadores basados en el vecino más cercano, clasificadores bayesianos, redes neuronales y modelos de regresión.
  • Aprendizaje no supervisado: Asociación y análisis clúster entre otras.

 

Seguridad

Aunque la generación de la inmensa cantidad de datos, así como la necesidad de procesarlos y explotarlos de manera eficaz y eficiente es transversal a toda nuestra sociedad, qué duda cabe que el ámbito de la defensa y la seguridad son dos de los entornos donde resulta interesante analizar cómo el Big Data puede aplicarse y ofrecer beneficios.

Nodos de trafico. MAHT2016

Nodos de trafico. MAHT2016

Tanto el ámbito de la defensa como el de la seguridad están marcados por un enfoque prioritario hacia la prevención. Prevenir siempre es mejor y menos costoso que curar. Sin embargo, la prevención requiere decisiones en ventanas de tiempo muy definidas y con un alto nivel de síntesis de la inmensidad de datos y factores involucrados.

Por otro lado, los conflictos y/o crisis recientes y actuales han visto crecer su grado de complejidad, y todo hace prever que esta tendencia continuará. Ejemplos de esta complejidad son el mayor número e interconectividad de los actores y acciones, derivada de la globalización; los nuevos escenarios, con líneas divisorias muy difusas entre lo civil y lo militar; entornos intensivos en información con creciente mezcla de escenarios virtuales (ciberdefensa, económicos, etc.) y reales etc.

Para poder trabajar con la creciente complejidad y abundancia de datos, es necesario un mayor enfoque en la comprensión de la situación, especialmente en aquellos ámbitos donde los objetivos (blancos, enemigos, criminales, etc.) son en apariencia de pequeña escala y/o de carácter ambiguo. Esta difusión de los objetivos impone un desafío creciente para las capacidades en defensa y seguridad occidentales, ya que éstas se fundamentan en la habilidad de encontrar, prevenir y golpear en la fuerza enemiga (o elementos fuera de la ley, en el caso de la seguridad interior).

Sin embargo, las amenazas presentes (y futuras) procuran utilizar el entorno actual, caracterizado por la congestión (de información, de alternativas, de actores, etc.) y por el ruido (falsas alarmas, indistinción civil-militar, entornos urbanos, etc.) para esconderse en el mejor de los casos, o para utilizarlo en nuestra contra de manera directa, en el caso peor.

Y es en estos desafíos donde la utilización de Big Data puede ofrecer mejoras en las capacidades actuales y soluciones a problemas, ya sea existentes o bien emergentes.

Así, de manera genérica podemos decir que la aplicación de “Big Data” a defensa y seguridad persigue capturar y utilizar grandes cantidades de datos para poder aunar sensores, percepción y decisión en sistemas autónomos, y para incrementar significativamente el que el entendimiento de la situación y contexto del analista y el combatiente/ agente del orden.

  • Vigilancia y Seguridad de fronteras
  • Ciberdefensa / Ciberseguridad
  • Lucha contraterrorista y contra crimen organizado
  • Lucha contra el fraude
  • Seguridad ciudadana
  • Inteligencia militar
  • Planeamiento táctico de misiones.

Desde este punto de partida, el estudio ha pretendido profundizar en la aplicación de Big Data a cada una de estas áreas. Para ello se han identificado 12 aplicaciones específicas directamente asociadas bien a necesidades/problemas en los que Big Data puede arrojar ventajas frente a otras soluciones tecnológicas, o bien asociadas a nuevas oportunidades que Big Data abre para la exploración de nuevas capacidades en seguridad y defensa.
Las aplicaciones específicas identificadas son:

1. Detección de intrusión física en grandes espacios o infraestructuras abiertas.
2. Computación sobre información encriptada.
3. Análisis automático de vulnerabilidades de red (máquinas-tráfico de datos).
4. Criminología computacional.
5. Uso fraudulento de recursos corporativos y/o sensibles.
6. Análisis de video en tiempo real / Búsqueda y recuperación rápida en librerías de video.
7. Inteligencia visual en máquinas.
8. Identificación de anomalías, patrones y comportamiento en grandes volúmenes de datos.
9. Análisis de texto (estructurado y no estructurado) como apoyo a la toma de decisión en tiempo real en entornos intensivos en datos.
10. Consciencia situacional.
11. Traducción automática a gran escala (en número de idiomas y en volumen).
12. Predicción de eventos.

Computación sobre información cifrada

Hoy en día muchos de los datos de interés para una aplicación residen en servidores deslocalizados físicamente de donde se está accediendo y necesitando esos datos e información. Un ejemplo muy actual son los servidores en la “nube”. En el ámbito de seguridad y defensa también se da esta configuración, y en ellos como es lógico, la seguridad de la información es un tema especialmente relevante.

Una manera de abordar este desafío, es poder operar, computar, sobre esos datos sin necesidad de desencriptarlos previamente. Mediante este planteamiento, los datos por lo tanto permanecen cifrados, quedando la seguridad de estos dependiendo de la robustez del cifrado, pero en el acceso y operación a los datos no se generan debilidades en la seguridad potencialmente utilizables para la intercepción de la información por un tercero.

En la actualidad existen principalmente dos aproximaciones para implementar este planteamiento. La primera es la denominada encriptación homomórfica (FHE, fully homomorphic encryption). Los datos se cifran antes de ser transferidos a los servidores, adicionalmente se incorpora a los servidores un interpretador software que permite trabajar con los datos sin necesidad de descifrarlos. Los resultados se mandan a los usuarios cifrados, solo los usuarios con la clave adecuada pueden descifrarlos. Sin embargo, la encriptación homomórfica presenta un inconveniente que la hace prácticamente inviable, enlentece la computación / operación con estos datos alrededor de diez órdenes de magnitud.

Análisis automático de vulnerabilidades de red (máquinas-tráfico de datos)

La aplicación de Big Data al mundo de la ciberseguridad / ciberdefensa, persigue fundamentalmente dos objetivos:

• Reducir la cantidad de tiempo que los analistas pasan descubriendo ciberataques al agrupar y correlacionar fuentes de redes de datos dispares e,

• incrementar la precisión, tasa y velocidad de detección de ciber-amenazas a redes de ordenadores.

Para ello es necesario cambiar el modo en que la información relativa a las redes es adquirida, procesada y puesta a disposición de los ciber-defensores. Procurando proporcionarles datos conectados y correlacionados, para que puedan abordar directamente el problema del orden de escala de los datos asociados a la seguridad de las redes.

A este desafío hay que añadir la tendencia creciente a integrar en esas redes diversos dispositivos de IT no corporativos.

Las soluciones necesitaran:

• Indexar las fuentes de datos de la red automáticamente o con una mínima intervención humana

• Integrar estructuras de datos (que no presentan consistencia en su una estructura de datos)

• Permitir a los analistas realizar inferencias a partir de la base de datos de grupos y correlaciones (es decir, buscar relaciones entre cualquier campo de datos de la red).

Dos ejemplos de estos programas en el mundo de la Defensa son el Cyber Targeted- Attack Analyzer y el Cyber Insider Threat (CINDER), ambos de DARPA.

Ataques en tiempo real (NORSE 2016)

Ataques en tiempo real (NORSE 2016)

El mundo de la seguridad de redes en organizaciones y en infraestructuras críticas, tiene ya un largo recorrido tanto en investigación como en productos existentes, sin embargo los nuevos requisitos impuestos por las dimensiones volumen de datos, y prestaciones demandadas hacen que los productos actuales queden en desventaja frente a las amenazas emergentes.

Así las nuevas capacidades de Big Data surgen en un momento en el que las organizaciones hacen frente a nuevos riesgos originados por dos desafíos:

1. Disolución de los límites de las redes: La extensión y apertura de las redes de datos de las organizaciones, permitiendo a socios, suministradores y clientes acceder a información corporativa mediante nuevas formas dinámicas para impulsar la innovación y la colaboración, hace que estas redes se vuelven más vulnerables al mal uso y el robo de datos. Las aplicaciones y datos corporativos son cada vez más accesibles mediante servicios en la nube y dispositivos móviles, rompiendo los últimos límites de la red corporativa e introduciendo nuevos riesgos en la información y vectores de amenaza.

2. Adversarios más sofisticados: Los ciberatacantes se han vuelto más adeptos a realizar ataques complejos y muy específicos que evitan las defensas tradicionales, las medidas estáticas de detección de amenazas y las herramientas basadas en firma. A menudo, los ataques o fraudes no son detectados hasta que el daño se ha realizado.

Por esto, es necesario soluciones más ágiles basadas en evaluaciones dinámicas de riesgo. El análisis de grandes volúmenes de datos y operaciones de seguridad en tiempo real serán esenciales para proporcionar una seguridad significativa.

Las soluciones de seguridad analítica de Big Data se caracterizan básicamente por:

• Escala. Las soluciones de seguridad analítica de Big Data deben ser capaces de recoger, procesar y almacenar entre terabytes y petabytes de datos para una gran variedad de actividades de seguridad analítica.

• Flexibilidad analítica. Las soluciones de seguridad analítica de Big Data deben proporcionar a los usuarios la habilidad de interactuar, buscar y visualizar este volumen de datos de múltiples formas.

• Rendimiento. Las soluciones de seguridad analítica de Big Data deben construirse con una arquitectura computacional adecuada capaz de procesar algoritmos y búsquedas complejas y mostrar los resultados en un tiempo aceptable.

En las primeras fases de este mercado, se pueden encontrar dos visiones y por tanto dos tipos de soluciones de seguridad analítica de Big Data:

1. Soluciones de seguridad analítica de Big Data en tiempo real. Las soluciones de seguridad analítica de Big Data en tiempo real son una evolución de las soluciones de gestión de registros construidas para los requisitos de rendimiento y escalas actuales. Estas soluciones se construyen alrededor de una arquitectura distribuida, formada por dispositivos diseñados para el procesado continuo local y procesado paralelo conjunto. Algunos ejemplos de soluciones de seguridad analítica de Big Data en tiempo real incluyen Click Security, Lancope, y Solera Networks.

2. Soluciones de seguridad analítica de Big Data asimétricas. Se trata de en una categoría de soluciones relativamente nueva, diseñada para las necesidades no lineales de los analistas de seguridad que habitualmente pasan de búsqueda en búsqueda cuando investigan eventos de seguridad individuales y/o comportamientos anómalos de sistemas, redes, actividades de usuario ,etc. Las soluciones de seguridad analítica de Big Data asimétricas pueden basarse en repositorios de datos propietarios, pero es probable que todos los productos acaben basándose en tecnologías de Big Data como Cassandra, Hadoop, y NoSQL. La idea es que los analistas de seguridad alimentaren estas soluciones con grupos de actualizaciones que contengan terabytes de datos estructurados y no estructurados con el fin de observar las tendencias históricas de seguridad en grandes períodos de tiempo. Las soluciones asimétricas estarán basadas en algoritmos de aprendizaje artificial, análisis de clústeres y visualización avanzada. Las primeras soluciones en este ámbito vienen de empresas como LexisNexis, PacketLoop, y RedLambda.

Criminología Computacional

Una de las áreas donde los conceptos de Big Data encuentran una aplicación directa es la Criminología Computacional, donde la capacidad de analizar grandes volúmenes de datos relacionados con actividades criminales multiplica las posibilidades de neutralización de las amenazas relacionadas con dichas actividades. En este contexto, Big Data estaría relacionado con técnicas como el minado de datos criminales, el análisis de agrupaciones y el aprendizaje de reglas de asociación para la predicción del crimen, análisis de redes criminales, análisis de textos multilingües, análisis de opiniones y sentimientos, etc.

Programas de investigación como el COPLINK o el Dark Web Research de la Universidad de Arizona ofrecen un excelente ejemplo del potencial de estas tecnologías. COPLINK, desarrollado inicialmente con fondos de la National Science Foundation y el Departamento de Justicia de Estados Unidos, es un sistema de compartición de información y de minado de datos criminales utilizado por más de 4500 departamentos de policía en los Estados Unidos y por 25 países OTAN. El sistema COPLINK fue adquirido por IBM en 2011. Dark Web, financiado por la National Science Foundation y el Departamento de Defensa, ha generado una de las mayores bases de datos existentes para la investigación del terrorismo, con cerca de 20 terabytes de información sobre sitios web y contenidos de redes sociales relacionados con terrorismo.

Análisis de vídeo en tiempo real / búsqueda y recuperación rápida en librerías de vídeo

En las operaciones militares actuales, o en el caso del ámbito de seguridad con la proliferación de sistemas de video vigilancia instalados en las ciudades, se recogen una cantidad ingente de datos de video. Esta cantidad es especialmente masiva en labores de inteligencia, vigilancia, adquisición de objetivos y reconocimiento debido al incremento del uso de UAVs.

En esta situación surge un problema importante al no disponer de suficiente capacidad de análisis o incluso de tiempo material para la revisión de tanta cantidad de información. Así se identifican dos aplicaciones donde Big Data puede ser de utilidad:

1. El análisis de vídeo en tiempo real.
2. La búsqueda y recuperación rápida en librerías de vídeo.

Como se indicaba, un área de interés para la primera aplicación es la de ISTAR (de inteligencia, vigilancia, adquisición de objetivos y reconocimiento), ofreciendo a los analistas de imágenes militares la capacidad de explotar la gran cantidad de imágenes y video capturados. De esta manera es posible para los analistas establecer alertas asociadas a diferentes actividades y sucesos de interés mientras estos están ocurriendo (por ejemplo alertas del tipo “una persona acaba de entrar en el edificio”). O incluso de manera predictiva en base a patrones de hechos ya conocidos, que permitan adelantarse a los acontecimientos en un tiempo suficiente para poder reaccionar frente a las amenazas.

 Cortesía The Human Face of Big Data EMC (Miguel Tovar)

Cortesía The Human Face of Big Data EMC (Miguel Tovar)

En el caso de la segunda aplicación, se persigue el desarrollo de agentes inteligentes (“búsqueda basada en contenidos”) que permitan encontrar contenidos de vídeo de interés en librerías con en miles de horas de grabaciones de vídeo. Hasta ahora, la mayoría de las búsquedas en librerías de video requieren una gran cantidad de intervención humana, bien mediante visionado rápido del video, o con búsquedas mediante metadatos y/o anotaciones realizadas anteriormente. El objetivo por tanto, es detectar de manera rápida y precisa en estas grandes librearías de video actividades potencialmente sospechosas, o trabajar en la detección de objetos (por ejemplo vehículos: acelerando, girando, parando, adelantando, explotando o en llamas, formando convoyes o manteniendo una distancia con otro, entre otras posibilidades), o también identificar comportamientos extraños de una persona (excavando, dejando abandonado un objeto, etc.), o en interacciones hombre-hombre (siguiendo, reuniéndose, moviéndose conjuntamente, intercambiando objetos, etc.) que puedan resultar de interés para una investigación.

Identificación de anomalías, patrones y comportamiento en grandes volúmenes de datos

Actualmente, los analistas de inteligencia militar se enfrentan con la tarea de manejar los enormes y crecientes volúmenes de datos complejos provenientes de múltiples fuentes y tipos de inteligencia. El objetivo es fusionar todos estos datos para la identificación automática de posibles amenazas y operaciones a través del análisis de la información, como por ejemplo la originada en sensores de imagen, sensores radar e interceptación de comunicaciones.

Todos estos datos deben ser evaluados, relacionados y finalmente usados en el apoyo a la toma de decisión y acciones en una ventana de tiempo crítico. El uso de correlación de diversos tipos de información sobre personas, eventos, fechas, detección de actividad y seguimiento, etc., permite mejorar la habilidad de los analistas para procesar información de forma más efectiva y eficiente. Por ejemplo, se pretende proporcionar capacidades de seguimiento de estos elementos (de personas, eventos, etc.) en tiempo real o cercanas a tiempo real para el apoyo directo a usuarios tácticos en el campo de batalla, mediante el desarrollo de tecnologías semi- o completamente automáticas. Para ello es necesario la:

• Combinación, análisis y explotación de datos e información originada en múltiples fuentes, incluyendo sensores de imagen, otros sensores y otras fuentes;
• Gestión eficiente de las tareas asignadas a los sensores
• Detección e identificación de amenazas mediante el uso de algoritmos de descubrimiento y predicción del comportamiento.

Base de milicia rebelde. MAHT2016.

Base de milicia rebelde. MAHT2016.

De manera general se persiguen los siguientes objetivos:

• reemplazar los silos de información existentes por un sistema integrado que opere a nivel nacional, de teatro de operaciones e incluso en sistemas de inteligencia táctica de menor nivel;
• optimizar el manejo de datos para lograr hacer uso de forma efectiva de tecnologías ISR existentes y emergentes
• independencia respecto a la misión y al sensor y tener aplicabilidad en teatros de operación que cambian de forma dinámica;
• estar basados en estándares para permitir añadir eliminar, sustituir y modificar componentes de hardware y software según se vayan desarrollando y están disponibles para su integración y
• promocionar la colaboración eficiente entre los analistas de inteligencia e incrementar la eficiencia y eficacia de los analistas individuales a través de un cuadro ISR global y unificado.

Uno de los programas más destacados en este ámbito es el Insight de Darpa, que ya se ha probado en escenarios de guerra asimétrica, con énfasis en operaciones de contrainsurgencia donde ha demostrado funcionalidades en el ciclo completo, es decir, de la fuente-a-analista y del analista al operativo. Para ello, se priorizaron sensores, potencia de computación y capacidad analítica para el apoyo directo a brigadas tácticas y batallones en el marco de una misión de seguridad en un área amplia y para la obtención de capacidades de:

• capturar información de los sistemas de mando de batalla,
• capturar información y de interactuar dinámicamente con fuentes espaciales, aéreas y terrestres
• fusionar datos de diferentes fuentes de inteligencia.
• almacenar, indexar, buscar y entregar de forma persistente información recibida de fuentes múltiples, y presentarla al analista
• detectar redes enemigas, seguir a múltiples vehículos en tiempo real
• proporcionar información relevante y a tiempo a los operativos
• repetición virtual y simulación de sensores como herramientas para la integración y ensayo del sistema.

Campo de entrenamiento de grupo terrorista MAHT2016.

Campo de entrenamiento de grupo terrorista MAHT2016.

Otros programas destacables de Darpa en este ámbito, son el programa Anomaly Detection at Multiple Scales (ADAMS) que aborda el problema de detección de anomalías y la caracterización de grandes conjuntos de datos y el programa Persistent Stare Exploitation and Analysis System (PerSEAS). Este último está desarrollando capacidades de identificación de amenazas de forma automática e interactiva basadas en la correlación de múltiples actividades y eventos dispares en wide area motion imagery (WAMI) y datos de múltiples fuentes de inteligencia. PerSEAS permitirá nuevos métodos de adjudicación de hipótesis de amenazas y análisis forense a través de modelos basados en actividad y capacidades de inferencia.

Se espera que las investigaciones en marcha ofrezcan en el medio plazo:

• Clasificación robusta para detectar, geo-registrar e identificar objetos de la superficie de forma precisa a pesar de las dificultades del entorno, configuraciones y emplazamientos.
• Herramientas robustas de automatización para identificar relaciones, patrones vitales y actividades de vehículos terrestres
• Herramientas robustas para capturar, almacenar y recuperar información basada en HUMINT para identificar e impulsar el apoyo local contra los insurgentes
• Herramientas específicas de dominio para capturar, buscar y explotar información explícita de redes insurgentes a partir de fuentes de datos textuales no estructuradas.

Y en plazo temporal cercano a los 10 años:

• Clasificación robusta para detectar, geo-registrar e identificar todos los objetos de la superficie de forma precisa a pesar de las dificultades del entorno, configuraciones y emplazamientos.
• Herramientas de automatización robusta para identificar relaciones, patrones vitales y actividades de soldados a pie
• Herramientas robustas para buscar, minar, y explotar datos de fuentes abiertas para identificar todos los aspectos de redes insurgentes.

Defensa

La necesidad de analizar datos y de prescribir acciones es un fenómeno generalizado y en el entorno de las administraciones públicas, aunque sigue siendo una tarea que se realiza de forma poco automática, más bien artesanal. Este fenómeno es bastante significativo en el entorno de Defensa. Un ejemplo claro de esta afirmación la da la consultora GovWin Networks quienes afirman que el Departamento de Defensa estadounidense gasta el 58,4% de todo el gasto federal en almacenamiento de datos, de los cuales la mayoría provienen de la necesidad de almacenar videos. Las fuentes de estos videos son:

1. UAV (o drones) como el Predator recogen una ingente cantidad de videos para el reconocimiento de imágenes en escenarios hostiles.
2. Imágenes y videos procedentes de los vehículos de exploración y reconocimiento terrestres, bien en el espectro visible o bien en el infrarrojo.
3. Imágenes obtenidas de satélites de vigilancia.
4. Cámaras de vigilancia en lugares públicos gestionados por las diferentes administraciones estatales y locales.
5. Cámaras de vigilancia en los entornos de lugares privados como hospitales, colegios, y empresas.Videos publicados y compartidos en las diferentes redes sociales, tales como YouTube, Facebook, Twitter, blogs u otros lugares del ciberespacio.

Reconociendo que las infraestructuras de Big Data todavía no se aplican masivamente en el procesamiento de imágenes, se deberían identificar posibles aplicaciones partiendo de las ya existentes. Por tanto ¿qué capacidades pueden ofrecer estos sistemas de utilidad para Defensa?

• Detección de movimientos.
• Detección de accesos no permitidos en zonas de exclusión (en vigilancia de infraestructuras críticas).
• Reconocimientos faciales (en determinados entornos).
• Seguimiento y reconocimiento de objetivos de imágenes (bien de UAV o de otras plataformas y fuentes).
• Reconocimiento de comportamientos sospechosos en lugares públicos.
• Cálculos de altura de edificios en imágenes aéreas para zonas urbanas de conflicto.
• Identificación de actividades económicas o de cosechas en zonas en conflicto.
• Identificación de objetos abandonados sospechosos.
• Como se puede apreciar estas capacidades tienen gran potencialidad en el mundo militar, y de hecho, ya se hace uso de muchas de ellas en los diferentes sistemas existentes y desplegados. Las aplicaciones donde se pueden encontrar se pueden agrupar en las siguientes:
• Herramientas de Inteligencia, reconocimiento y seguimiento de objetivos (ISTAR).
• Herramientas de visualización del estado operacional del campo de batalla.
• Herramientas de Ayuda a la toma de decisiones.

Aunque las dos últimas pueden ser una consecuencia de la primera de las aplicaciones, con arquitecturas de Big Data las tareas se facilitan pudiéndose llegar a la integración de esas herramientas.

 

Conclusiones

Basado en lo anterior y en mi experiencia BIG DATA puede ayudar de forma eficaz a la:

  • Vigilancia y Seguridad perimetral.
  • Vigilancia y Seguridad de fronteras.
  • Seguridad física de infraestructuras críticas.
  • Comunicaciones y redes seguras.
  • Bancos de datos para los ámbitos financiero, seguridad interior, inteligencia, defensa.
  • Protección (redes IT) de Infraestructuras críticas.
  • Ciberdefensa / Ciberseguridad.
  • Lucha contraterrorista y contra crimen organizado.
  • Lucha contra el fraude.
  • Control y seguridad de recursos informáticos y datos en organizaciones.
  • Gestión del conocimiento en grandes organizaciones.
  • Seguridad ciudadana.
  • Inteligencia militar.
  • Planeamiento táctico de misiones.
  • Toma de decisión en tiempo real para operaciones (Defensa/seguridad).
  • Inteligencia industrial.
  • En ámbito militar en HUMINT/operaciones en entornos urbanos.
  • Preparación de seguridad de eventos singulares(deportivos, políticos, etc.)
  • Control y comportamientos de multitud

No obstante no hay que olvidarse de los inconvenientes del Big Data. Siendo el principal de ellos el proceso de adopción de Big Data: software y hardware necesario y su costo. Pero además existen otros muchos de menor peso como por ejemplo:

  • Rechazo por parte del personal.
  • Gasto de formación.
  • Colaboración necesaria por parte de todos los departamentos.
  • La denominada “Toma de decisiones pasivas”, esto hace referencia antes de la instalación de Big Data, a que las empresas primero esperan a que lo instalen sus competidores para ver que errores comentes con la creencia de que ellos lo podrán adoptar mucho más rápido.
  • Problemas de privacidad
  • Problemas de información desactualizada.
  • Filtrado (no todos los datos son información).

Hoy en día la seguridad es beneficiada por el Big Data, lo malo de esto es que no entendemos como nuestro comportamiento puede ser modelado y esto genera una incertidumbre de una invasión a nuestra privacidad.

Agradecimientos a

  • INTERPOL http://www.interpol.int/
  • NSA https://www.nsa.gov/
  • SEDENA http://www.gob.mx/sedena
  • Procuraduría General de la República http://www.gob.mx/pgr
  • CISEN http://www.cisen.gob.mx/
  • Comisión de Investigación de Nuevas Tecnologías del Centro Superior de Estudios de la Defensa Nacional (CESEDEN)

Bibliografía:

1. Michael S., Rebecca S., Janet S., otros, Analytics: el uso de Big Data en el mundo real, Informe ejecutivo de IBM Institute for Business Value, IBM Corporation 2012.
2. Jean-Pierre D., Oracle Big Data for the Enterprise, Oracle Whitepaper, 2012.
3. Ivan P., Jaime G., Big Data: Cómo la avalancha de datos se ha convertido en un importan-te beneficio, informe de TICbeat, 2012.
4. John G., David R., The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East, Sponsored by EMC Corporation, 2012.
5. Helen S., Peter H., Oracle Information Architecture: An Architect’s Guide to Big Data, Oracle Whitepaper, 2012.

 

 

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s