Iris flor conjunto de datos

El conjunto de datos flor Iris o conjunto de datos iris de Fisher es un conjunto de datos multivariante introducido por Ronald Fisher en su artículo de 1936, The use of multiple measurements in taxonomic problems (El uso de medidas múltiples en problemas taxonómicos) como un ejemplo de análisis discriminante lineal.^[1] A veces, se llama Iris conjunto de datos de Anderson porque Edgar Anderson coleccionó los datos para cuantificar la variación morfológica de la flor Iris de tres especies relacionadas.^[2] Dos de las tres especies se coleccionaron en la Península de la Gaspesia «todos son de la misma pastura, y recolectado el mismo día y medidos al mismo tiempo por la misma persona con el mismo aparato».^[3]

El conjunto de datos contiene 50 muestras de cada una de tres especies de Iris (Iris setosa, Iris virginica e Iris versicolor). Se midió cuatro rasgos de cada muestra: el largo y ancho del sépalo y pétalo, en centímetros. Basado en la combinación de estos cuatro rasgos, Fisher desarrolló un modelo discriminante lineal para distinguir entre una especie y otra.

Basado en el modelo análisis discriminante de Fisher, este conjunto de datos se convirtió en un caso de prueba típico por muchas técnicas clasificaciones estadísticas en aprendizaje automático como en máquinas de vectores de soporte.

Sin embargo, el uso de este conjunto de datos en algoritmos de agrupamiento no es común porque el conjunto de datos solo contiene dos racimos, con una separación obvia y clara. Uno de los racimos contiene Iris setosa, mientras el otro contiene ambos Iris virginica y Iris versicolor y no es separable sino que uno tiene la información de especies usadas por Fisher. Esto hace el conjunto de datos un ejemplo bueno para explicar la diferencia entre técnicas que se supervisan o no en la minería de datos: El modelo análisis discriminante solo se puede obtener cuando la especie objeta se conoce: etiquetas de clase y racimos no son siempre lo mismo.^[5]

Sin embargo, estas tres especies se pueden separar en la proyección en el componente principal del ramaje no lineal.^[6] El conjunto de datos se aproxima por el árbol más cerca con alguna sanción por el número excesivo de nódulos, doblándose y estirándose. Luego el mapa metro se construye.^[4] Se proyectan los puntos de datos para el nódulo más cerca. Por cada nódulo se prepara el gráfico circular de los puntos proyectados. La zona del gráfico es proporcional al número de los puntos proyectados. Se ve claro del gráfico que la mayoría absoluta de las muestras de las especies distintas de Iris son de los nódulos diferentes. Sola una fracción pequeña de Iris-virginica se mezcla con Iris-versicolor (la mezcla de nódulos azules con verdes en el diagrama). Así las tres especies de Iris (Iris setosa, Iris virginica y Iris versicolor) se separan por los procedimientos no supervisados del análisis del componente principal no alineado. Para discriminarlos es suficiente seleccionar el nódulo correspondiente en el árbol principal.

Se han publicado varias versiones del conjunto de datos.^[7]

Escribe un comentario o lo que quieras sobre Iris flor conjunto de datos (directo, no tienes que registrarte)

Comentarios
(de más nuevos a más antiguos)

Aún no hay comentarios, ¡deja el primero!