Uso del Cluster con spss
Analisis de Datos
Licenciatura en Biolog´
ıa
Curso 2oo9/2o10
´
Practica 3
El fichero de datos necesario para realizar esta pr´ctica, turtlefm2.xls, se encuentra en la
a
p´gina web:
a
http://www.uam.es/daniel.faraco
La ruta es la siguiente: Docencia, An´lisis de datos (pr´cticas) . Guardamos este fichero en
a
a
el escritorio de Windows, por ejemplo. No hay que abrir el ficherocon el programa
Excel.
Para comenzar esta pr´ctica abrimos el programa SPSS.
a
1
Introducci´n
o
En esta pr´ctica trabajaremos con el fichero de datos turtlefm2.xls que corresponde a
a
un estudio de medidas biom´tricas de c de 48 tortugas pintadas: 22 hembras, 22 machos y 4
e
ejemplares sin clasificar. Las variables que consideraremos son la longitud, el ancho y la altura
delcaparaz´n. Los m´todos “clusters” que estudiamos en este tema tambi´n se utilizan para
o
e
e
clasificar nuevas observaciones, en tal caso reciben el nombre de m´todos de clasificaci´n no
e
o
supervisada para diferenciarlos del an´lisis discriminante que recibe el nombre de m´todo de
a
e
clasificaci´n supervisada.
o
2
An´lisis cluster jer´rquico
a
a
Para obtener el an´lisis clusterjer´rquico utilizamos la siguiente secuencia de pasos:
a
a
1. Analizar → Clasificar → Conglomerados jer´rquicos ... .
a
2. Pasar las variables longitud, ancho y altura del recuadro izquierdo al recuadro derecho
Variables: .
3. Pasar la variable sexo al recuadro Etiquetar los casos mediante: .
4. Seleccionamos Estad´sticos y marcamos:
ı
• þ Historial de conglomeraci´n.
o
• þ Matriz dedistancias.
1
→ Continuar .
5. Seleccionamos Gr´ficos y marcamos:
a
• þ Dendrograma.
•
Ninguna.
→ Continuar .
e
6. Seleccionamos M´todos y en:
1
• M´todo de conglomeraci´n seleccionamos Vecino m´s pr´ximo .
e
o
a
o
• Medida seleccionamos
Intervalo y Distancia eucl´dea .
ı
→ Continuar .
7. Por ultimo, → Aceptar .
´
Los resultados de la secuencia anterior son:
• Unamatriz de distancias de dimensi´n 48 × 48 y de la que podemos obtener o deducir
o
lo siguiente (s´lo presentamos las cuatro primeras filas y columnas):
o
– La distancia eucl´
ıdea entre la observaci´n 3:d y 4:d es:
o
d3,4 =
(162 − 177)2 + (124 − 132)2 + (61 − 67)2 =
√
325 = 18.028.
– Tambi´n, vemos que los ejemplares 1:d y 2:d est´n m´s cerca entre s´ que de los
e
a
a
ıejemplares 3:d y 4:d, y a su vez 3:d y 4:d est´n m´s cerca entre s´ que de los
a
a
ı
ejemplares 1:d y 2:d. Por tanto, parecer´ razonable clasificar a 1:d y 2:d como
ıa
de sexo distinto a 3:d y 4:d en el caso que concluy´semos que 3:d y 4:d tienen el
e
mismo sexo.
Matriz de distancias
Distancia euclídea
Caso
1:d
2:d
3:d
4:d
:
1:d
,000
11,747
45,022
62,658
:
2:d
11,747
,00035,341
53,292
:
3:d
45,022
35,341
,000
18,028
:
1
4:d
62,658
53,292
18,028
,000
:
..
..
..
..
:
Notemos que en esta opci´n podemos especificar si queremos transformar las variables antes de calcular
o
las distancias. Por ejemplo: si queremos calcular las distancias con las variables estandarizadas utilizamos:
En Transformar valores seleccionamos Puntuaciones Z y Porvariable.
2
• Un historial de conglomeraci´n del que podemos deducir lo siguiente:
o
– La primera uni´n se establece entre las observaciones 15 y 16 que tienen que ser
o
iguales en sus medidas puesto que la distancia entre ellas es 0. Las observaciones
15 y 16 forman el cluster que SPSS etiqueta por 15 (el n´mero m´s peque˜o) y que
u
a
n
volver´ a intervenir en la etapa 21.
a
–La segunda y tercera uni´n se realiza entre las observaciones 40 y 41 (que se
o
etiquetar´ como 40) y 17 y 18 (que se etiquetar´ como 17), respectivamente, y se
a
a
unen a una distancia (eucl´
ıdea) de 1. Volver´n a intervenir en las etapas 12 y 33,
a
respectivamente.
– La cuarta etapa une a las observaciones 47 y 48 (que se etiquetar´ como 47) y
a
volver´ a intervenir en la etapa...
Regístrate para leer el documento completo.