domingo, 9 de noviembre de 2008

Principales Experiencias a Nivel Mundial: Mineria de datos

A continuación se describen las principales experiencias de aplicación de minería de datos en el análisis de información criminal. Es importante destacar que la mayoría de ellos incorporan a su vez herramientas de visualización geográfica:


Proyecto COPLINK

El Proyecto COPLINK fue creado en el año 1997 en el Laboratorio de Inteligencia Artificial de la Universidad de Arizona, en Tucson, con el objetivo de servir de modelo para ser llevado a nivel nacional. Recientemente se ha desarrollado la versión comercial, denominada COPLINK Solution Suite [Coplink, 2007].

Coplink está compuesto por dos sistemas integrados: Coplink Connect y Coplink Detect. El primero busca compartir información criminal entre distintos departamentos policiales, mediante un fácil acceso y una interfase sencilla, integrando distintas fuentes de información. El segundo esta diseñado para detectar de forma automática distintos tipos de asociaciones entre las bases de datos mediante técnicas de minería de datos. Ambos sistemas presentan una interfase visual amigable [Coplink, 2004].

Proyecto OVER

El Proyecto OVER comenzó en el año 2000 en Reino Unido como una iniciativa conjunta de la Policía de West Midlands y el Centro de Sistemas de Adaptación y División de Psicología de la Universidad de Sunderland. El proyecto esta enfocado en los casos de robo a domicilio particulares. Sus principales objetivos son [Zeleznikow, 2005]:

* Identificar los recursos críticos para establecer estrategias de prevención y detección más eficientes.
* Proveer de fundamentos empíricos para el desarrollo de planes interdepartamentales orientados a la reducción del delito.
* Identificar la información relevante a ser recolectada en el lugar del hecho,
redundando en mejoras de eficiencia y reducción de tiempo del personal
policial.
* Alimentar al sistema tanto con información hard (información forense) como soft información sobre la escena del delito).
* Analizar la distribución espacio-temporal de los hechos y confirmar las suposiciones sobre tendencias y patrones.

Las principales técnicas utilizadas son:

* Redes bayesianas,
* Redes neuronales de Kohonen (SOM), para la confección de perfiles de delincuentes según el modus operandi y su asociación con delitos no resueltos.

Si bien el proyecto desarrolla principalmente capacidades predictivas, el software incorpora otras herramientas útiles como por ejemplo la visualización geo-referenciada de los hechos.


Otras Experiencias

A continuación se presentan otras experiencias menos difundidas de aplicaciones de este tipo.

1.- El Departamento de Policía de Ámsterdam utiliza el software de minería de datos DataDetective [Sentient, 2007] junto con Mapinfo para el análisis de registros criminales. Las principales técnicas empleadas son árboles de decisión y redes neuronales de backpropagation. Han unificado varias bases de datos policiales junto con información externa (clima, variables socioeconómicas y demográficas) en un único data warehouse. Los principales usos son:

* Identificación de las causas del comportamiento criminal (por ejemplo casos de reincidencia).
* Identificación de las causas del delito en un determinado barrio.
* Agrupamiento de delitos parecidos en clusters y su descripción, permitiendo un abordaje más efectivo.
* Identificación de delitos parecidos utilizando algoritmos fuzzy search, relacionando casos no resueltos con casos resueltos.
* Identificación de zonas de aumento del delito (por ejemplo se ha utilizado para la localización de equipos preventivos en operativos de búsqueda de armas).
* Evaluación de la performance policial.


2.- El Departamento de Policía de Richmond (Virginia) ha desarrollado una aplicación para el análisis de información criminal que combina minería de datos, mediante el software Clementine [SPSS, 2007], junto a un entorno visual aportado por Information Builders [IB, 2007] y una iterfase desarrollada por RTI Internacional [RTI, 2007]. El principal objetivo es optimizar la alocación de recursos, en base a una modalidad preactiva y no reactiva. Por ejemplo durante año nuevo se identificaron las zonas que habían tenido un aumento en los casos de heridos de con arma de fuego el año anterior y para la noche se reforzaron exclusivamente esas zonas. El resultado obtenido fue una reducción del 49% en los casos de este tipo con un menor requerimiento de personal policial (aproximadamente 50 agentes menos) [SPSS, 2007].

3.- La Policía Estatal de Illinois adquirió en 2005 un software de minería de datos del compañía RiverGlass Inc. [RiverGalss, 2007] con el objetivo de analizar la información criminal en tiempo real. El campo de aplicación es muy grande y va desde la seguridad marítima en los puertos a la detección de casos de fraude financiero.


4.- El Departamento de Policía de San Francisco desarrolló junto a IBM la aplicación CrimeMaps, en base a la tecnología DB2 de IBM [IBM, 2007]. Este software permite a los oficiales mediante un simple explorador web buscar un determinado tipo de crimen, realizar análisis de clustering y fijar niveles umbrales de alerta temprana para un determinado delito en una determinada zona de acuerdo a una frecuencia histórica.


5.- El Departamento de Policía de Nueva York inició en julio de 2005 el Real Time Crime Center [NYC, 2007]. Este ambicioso proyecto tiene como objetivo conformar un enorme data warehouse y cruzar información de todo tipo mediante herramientas de inteligencia de negocios (como Repotnet 1.1 y Accurint Pro) de forma de detectar patrones de comportamiento y asociaciones antes desapercibidos.


Descripción de Herramientas


Tabla de Centroides

La tabla de centroides permite conocer cuál es el centroide de cada cluster. En un sentido geométrico, el centroide es el lugar del hiper-espacio de posibles estados que equidista de todos los casos que corresponden a un determinado cluster. En un sentido práctico no es mas que la media o la moda de cada atributo para cada cluster.

Es importante tener especial cuidado en la interpretación de las modas de los atributos categóricos. La correcta lectura debe hacerse en cada atributo por separado, independientemente del resto.

Otro problema que presenta esta visión es que por definición la moda indica una mayoría relativa pero no la cuantifica, por lo que a priori no conocemos la representatividad de una determinada variable para identificar un determinado cluster.

Diagramas de Venn
Como se presentó en el punto anterior, un problema que presenta la tabla de centroides para extraer conclusiones es la representatividad de los atributos categóricos para cada cluster y su nivel de solapamiento. Los Diagramas de Venn nos ayudan a visualizar los niveles de representatividad y solapamiento. En este caso, al tratarse de pocos datos, quedan sub conjuntos vacíos que no son comunes cuando hay mayor cantidad de registros.



Gráficos de Barras

La distribución de los clusters entre las variables de los distintos atributos permite comprender el nivel de significancia de los mismos.

Gráficos de Dispersión

Se describen los cluster en base a dos de los atributos mas representativos.

Gráficos de Distribución

Son un caso especial de los gráficos de dispersión, en donde la asignación del color coincide con el eje de ordenadas, permitiendo visualizar la distribución de un atributo en función de otro. Aportan información similar a los gráficos de barras, pero con otro enfoque.


Gráficos de Interrelaciones

Estos gráficos de dispersión permiten visualizar 3 atributos al mismo tiempo e identificar cual es la interrelación que subyace entre ellos. Por lo general el atributo que se encuentra en la dimensión de color es el cluster (variable a explicar).


Árbol de Clasificación

Para Identificar las reglas de pertenencia a cada cluster de una manera formal, se utlilizan los árboles de clasificación donde se presentan nodos, en donde se evalúa un determinado atributo, por ejemplo (hora y lugar); ramas que surgen de cada nodo, en donde se representan los estados posibles que puede tomar el atributo del nodo; y hojas, en donde se muestra la clasificación a cada clase (en este caso clusters 0 y 1). En las hojas se muestra la cantidad total de registros clasificados y, separado con una barra, la cantidad de registros mal clasificados (si los hubiera)



La lectura de un árbol se realiza en forma de reglas de clasificación. Existe una regla para cada hoja



Matrices de Confusión

Las matrices de confusión permiten entender cual es el error que comete un árbol de clasificación al intentar clasificar todos los registros.


Conclusiones

Existe información a partir de la cual es posible desarrollar un proyecto de Minería de Datos a gran escala para ayudar a la generación de políticas criminales en Chile. Los conocimientos descubiertos como resultado de este proceso sirven para:

[a] Proporcionar una justificación sustentada en los datos disponibles de los conceptos preexistentes.
[b] La detección de piezas de conocimiento sobre el dominio no identificable mediante otros métodos.

Se propone un proyecto que:

[a] Aplique las técnicas de inducción para explicar en mayor detalle los cluster identificados.
[b] Ampliar el análisis a otros ámbitos y tipos de hechos (por ejemplo: homicidios dolosos causados por accidentes de tránsito).

Futuras Lineas de Investigación

En primer lugar se propone aumentar el alcance de la información al ser analizada con este tipo de técnicas. Esto implica tanto una expansión transversal, haciendo uso de otras bases de datos como la de “homicidios culposos en accidentes de tránsito”; como longitudinal, analizando la información histórica existente para detectar patrones de evolución temporal en cuanto a las modalidades delictivas.

En segundo lugar se sugiere el diseño de procedimientos estándar de minería de datos para ser implementados en Chile o en otro país. Esta batería de procedimientos les permitiría a los analistas extraer e identificar patrones y asociaciones en forma automatizada y estandarizada.

En tercer lugar se propone proceder al análisis de la información geográfica (que hoy no es aprovechada) mediante GISs (Geographical Information Systems). Este tipo de análisis permitiría detectar, por ejemplo, zonas de alta densidad de homicidios en accidentes de tránsito.

Finalmente se propone expandir el uso de estas técnicas a las fuerzas de seguridad, en donde estas aplicaciones han encontrado su mayor aplicación a nivel mundial.