Cap Tulo3
Capítulo 3
Agrupación de Documentos
1. Definición
La agrupación o clustering es la división de datos en grupos de objetos similares. Cada grupo, llamado cluster, consiste en objetos altamente similares entre si y disimilares en relación a los objetos de otros grupos. (berkhin02survey.pdf) (FSMA_SI_2011_1_principal.pdf)
Los métodos de agrupamiento son conocidos también como algoritmos deaprendizaje por observación o análisis exploratorio de los datos, debido a que la organización obtenida es realizada por observación de regularidades en los datos, sin uso de conocimiento externo (BIBLIOTECA_113_RT_383.pdf).
En los problemas de categorización se cuenta con una colección de ejemplos de entrenamientos preclasificados y la tarea del sistema es aprender las descripciones de lasclases con el fin de clasificar un nuevo objeto sin etiquetar. En el caso del agrupamiento, el problema es agrupar la colección no etiquetada en clusters significativos sin ninguna información previa. Cualquiera de las etiquetas asociadas con los objetos esobtenida a partir de los datos (Feldman).
2. Medidas de Proximidad.
La agrupación de los textos se realiza mediante las medidasde proximidadentre los objetos en cuestión. Según (gan2007data), estas son utilizadas para medir cuantitativamente la similitud o disimilitud de dos puntos de datos o dos clusters.
Existen diferentes medidas para diferentes tipos de datos, incluyendo datos numéricos, binarios, mixtos y otros(gan2007data). Entre las medidas más utilizadas se encuentran: la distancia Euclídea, de Manhatan, de Mahalanobis;similitud Jaccard, similitud Coseno y varios otros (Feldman) (gan2007data)(garreAdis05.pdf). Para el agrupamiento de documentos textuales la medida más utilizada es la función de similitud coseno(Feldman) (text-cluster.pdf)(FSMA_SI_2011_1_principal.pdf), descrito a continuación por medio del ejemplo utilizado en (FSMA_SI_2011_1_principal.pdf).
Considerar dos documentos y , representados en el espaciovectorial m-dimensional, en el cual cada término de la colección representa una de estas dimensiones. La similitud coseno está definida de acuerdo al ángulo coseno formado entre los vectores de los documentos, según la ecuación 1.
De esta manera, a medida que el valor del ángulo se aproxima a 0 y el coseno se aproxima a 1 entonces indica que los documentos son más similares entre sí y por elcontrario, si el valor del ángulo es 90 y el coseno 0 entonces los dos documentos no comparten ningún término.
3. Métodos de Agrupamiento
Actualmente existe una gran variedad de algoritmos de agrupamiento divididos en diferentes métodos, entre los más tradicionales se encuentran los métodos jerárquicos y particionales.
3.1 Métodos jerárquicos
Losmétodosjerárquicosconstruyen una jerarquía decluster también conocido como dendograma. Cada nodo del cluster contiene grupos hijos, grupos hermanos que comparten un mismo padre(berkhin02survey.pdf) (xu2008clustering).
Los métodos de agrupamiento jerárquico se clasifican en aglomerativos y divisivos(aggarwal2013data) (xu2008clustering):
Métodosaglomerativos:inician tomando grupos aislados (que contiene solo un dato por cluster) en el nivelinferior y continua la fusión de dos grupos a la vez para construir una jerarquía de abajo a arriba de los clusters.
Métodos divisivos: comienzan con todos los objetos de datos en un cluster de macro enorme, posteriormente dividido en dos grupos continuamente generando una jerarquía de arriba debajo de los clusters.
Figura 1. Ejemplo de dendograma de un cluster jerárquico.(xu2008clustering)
3.2Métodos Particionales.
En los métodos particionales, también conocido como agrupamientos por optimización, el objetivo es dividir iterativamente el conjunto de objetos en k grupos, en la cual k generalmente es un valorproveído inicialmente por el usuario. Los grupos de documentos se forman buscando optimizar la compactación y/o separación del agrupamiento (FSMA_SI_2011_1_principal.pdf).
Los...
Regístrate para leer el documento completo.