martes, 29 de marzo de 2011

Qué es clusterizar (clustering)?

La clusterización (clustering) divide una base de datos en grupos diferentes, la meta principal de realizar el proceso de clusterización es encontrar grupos que son diferentes de los otros, y que sus miembros sean similares entre si. En la siguiente figura se puede observar un ejemplo de clusterización.

Fuente: Autor

No se debe confundir el concepto de clusterización con el concepto de segmentación. La segmentación hace referencia al problema de identificar grupos que tienen características comunes, en cambio, la clusterización es una forma de segmentar datos en grupos que no han sido predefinidos, por otra parte la clasificación es un modo de segmentar datos asignándolos a grupos que ya han sido definidos.

lunes, 28 de marzo de 2011

Mineria de datos y data warehousing

Una pregunta que surge comúnmente respecto a la minería de datos es la relación que existe entre el data warehousing y la minería de datos. Mas aun si es necesario contar con un data Warehouse para poder hacer minería de datos. Este post pretende realizar la aclaración en estos aspectos.


Frecuentemente, los datos en los cuales se realiza la minería son extraídos inicialmente en un data warehouse empresarial para posteriormente ingresarlos en una base de datos de minería o un data mart (Figura 1). Esto es debido a que los problemas de la limpieza de los datos para data warehouse y para minería de datos son muy similares y existen beneficios si los datos que se van a analizar ya son parte de un data Warehouse. Así, si los datos ya han sido limpiados para un data warehouse, es mas probable que no se necesite hacer una limpieza para hacer minería.

Figura1. Data mart extraído de data warehouse (1).

Sin embargo un data warehouse no es un requerimiento para la minería de datos. Preparar un data warehouse que consolide datos de diferentes fuentes, resuelve problemas de integridad de los datos. Pero, es posible extraer datos de minería de una o varias bases de datos mediante una base de datos de solo lectura, esta nueva base de datos se puede comportar como un data mart (Figura 2).


Figura2. Data mart extraído de las fuentes de datos (1).
1. Tomado de: Introduction to Data Mining and Knowledge Discovery, Two Crows Corporation, Third Edition.