En estas lecciones aprenderá los algoritmos de clasificación más utilizados y a qué problemas se aplican normalmente.
En estas lecciones aprenderá los algoritmos de clasificación más utilizados y a qué problemas se aplican normalmente. Cubriremos varios estilos de modelado, que incluyen: regresión, Naive Bayes, máquinas de vectores de soporte, árboles de decisión, modelos de bosque aleatorios, vecinos K más cercanos y modelos de múltiples clases.
Para cada uno de estos estilos de modelado, aprenderá sus fortalezas y debilidades relativas y las compensaciones entre ellos. Este capítulo también cubrirá una introducción a las redes neuronales y su uso en problemas de clasificación comunes, como la clasificación de imágenes y las redes neuronales convolucionales.
Objetivos de aprendizaje
- Aprender los algoritmos de clasificación más utilizados
- Aprender las fortalezas y debilidades de los algoritmos
- Presentar las redes neuronales y su uso en problemas de clasificación
Habilidades que obtendrás
Clasificación de datosAprendizaje de árboles de decisiónAprendizaje automáticoAlgoritmos de aprendizaje automáticoMétodos de aprendizaje automáticoCapacitación en modelos de aprendizaje automáticoLo que aprenderás
- Identificar los algoritmos de clasificación más comúnmente utilizados y los problemas a los que típicamente se aplican
- Comparar las fortalezas, debilidades e intercambios de la regresión, Naive Bayes, máquinas de vectores de soporte, árboles de decisión, modelos de bosque aleatorio, y K vecinos más cercanos
- Aplicar modelos multiclase a problemas de clasificación
- Explicar perceptrones y redes neuronales y su uso en problemas de clasificación
- Usar redes neuronales convolucionales para clasificación de imágenes
Puntos clave
- El curso cubre varios estilos de modelado incluyendo regresión, Naive Bayes, máquinas de vectores de soporte, árboles de decisión, modelos de bosque aleatorio, aumento de gradiente, K vecinos más cercanos, y modelos multiclase.
- Para cada estilo de modelado, el curso examina sus fortalezas y debilidades relativas y los intercambios entre ellas.
- El curso introduce redes neuronales y su uso en problemas de clasificación comunes como la clasificación de imágenes.
- Las redes neuronales convolucionales se presentan en el contexto de la clasificación de imágenes.
Preguntas frecuentes
¿Qué algoritmos de clasificación cubre este curso?
Cubre regresión, Naive Bayes, máquinas de vectores de soporte, árboles de decisión, modelos de bosque aleatorio, aumento de gradiente, k-vecinos más cercanos, modelos multiclase, perceptrones y redes neuronales, y redes neuronales convolucionales para clasificación de imágenes.
¿Aprenderé las diferencias entre estos algoritmos?
Sí. Para cada estilo de modelado, aprenderá sus fortalezas y debilidades relativas y los intercambios entre ellas.
¿El curso cubre redes neuronales?
Sí. Introduce redes neuronales y su uso en problemas de clasificación comunes, incluyendo clasificación de imágenes y redes neuronales convolucionales.
¿Qué habilidades ayuda a construir este curso?
Construye habilidades en clasificación de datos, aprendizaje de árboles de decisión, aprendizaje automático, algoritmos de aprendizaje automático, métodos de aprendizaje automático, y entrenamiento de modelos de aprendizaje automático.
Transcripción
Transcripción
En este capítulo, nos pondremos manos a la obra con algunos de los algoritmos específicos que podrías usar para el modelado de clasificación. Uno de los métodos más comunes de hacer modelos de clasificación es con una regresión logística. Ahora bien, la regresión es uno de los estilos más comunes de aprendizaje automático utilizado en la práctica y tiene una historia muy larga. La regresión logística se basa en la misma teoría. como regresión lineal pero en lugar de predecir un valor específico, predice la probabilidad de pertenecer a una clase específica. Para ello, utiliza la función logística o sigmoidea. Esta función va de probabilidad cero al 100% de probabilidad. Una ventaja de usar la regresión logística es que si tienes esa probabilidad que se puede interpretar de forma bastante sencilla. Esto le permite ver una variable de entrada específica y ver cómo cambia dentro de los valores de esa variable de entrada afectar la probabilidad general de un punto de datos perteneciente a una clase específica. Entonces, veamos cómo podría funcionar. Así que aquí tengo un programa de ejemplo que ejecutará un modelo específico en tres conjuntos de datos sintéticos diferentes. Los conjuntos de datos sintéticos se configuran para que tengan propiedades específicas de modo que cuando comparamos los resultados de los diferentes modelos, podemos determinar dónde algunos de los modelos funcionan realmente bien y otros modelos lo hacen relativamente mal. Entonces, en el caso de la regresión logística, primero necesito importar el módulo de SK learn. Entonces necesito titular mi gráfico, y finalmente, necesito ingresar el clasificador real en sí que quiero ejecutar, en este caso, es la regresión logística. Entonces, cuando ejecutamos eso, primero muestra los conjuntos de datos sintéticos y luego nos muestra el rendimiento de la regresión logística. El primer conjunto de datos es como dos lunas entrelazadas, el segundo es como dos círculos, uno alrededor del otro. Y el último es esencialmente una mancha. que es aproximadamente linealmente separable. Bien, entonces, ¿cómo lo hizo? Entonces, el sombreado en los gráficos de resultados nos dice donde el modelo predice un valor frente a otro. Entonces, predecir si el punto de datos pertenece a la clase roja o a la clase azul y la grilla nos muestra donde el modelo cree que es una región que está mucho más asociado a la clase roja o la clase azul. Entonces puedes ver aquí en el primero recuerda que tenemos ese tipo de relación lineal entre las dos variables del modelo. Entonces, lo que eso significa es que va a superponerse esa función sigmoidea basada en la probabilidad en la cuadrícula de forma lineal. Entonces, para nuestros ejemplos, esto realmente no funciona tan bien no capta la estructura dentro de las lunas y especialmente no dentro de los círculos. Ahora el último, el conjunto de datos linealmente separable se puede ver que en realidad lo hace mucho mejor, pero lo interesante es el 100% de probabilidad las áreas donde el modelo es bastante seguro que el punto de datos pertenece a esa clase en realidad están bastante lejos. Entonces puede ver que la mayoría de los puntos de datos en realidad los está categorizando muy cerca a esa marca del 50%, ya sea justo por encima o justo por debajo. Esto nos da cierta intuición sobre los tipos de conjuntos de datos eso podría no estar tan bien modelado por regresiones logísticas. Así que esto debería darte un poco de intuición. acerca de cómo podría funcionar una regresión logística en datos de la vida real. Hay desafíos para este modelo a pesar de que es un método extremadamente común para modelar definitivamente puedes decir que no funciona muy bien para cierto tipo de relaciones entre sus variables de entrada. De hecho, no infiere ningún tipo de relación compleja dentro de sus variables de entrada. Necesitarías crear esas variables de entrada como nuevas funciones para poder utilizarlas. Lo bueno es que es bastante fácil de interpretar. lo que está pasando en el modelo. Entonces, si tiene un estilo de conjunto de datos que tiene una precisión bastante buena, luego interpretarlo es bastante fácil porque solo tienes unos pocos coeficientes que necesitas interpretar para entender lo importante cada uno de esos elementos son. Y puedes ponerlos directamente en forma de probabilidades y puedes pensar en ellos en probabilidades que es una forma muy intuitiva de pensar en modelado de clasificación. El problema final con la regresión logística es que es bastante sensible a los valores atípicos. Significa que tu conjunto de entrenamiento realmente puede afectan el resultado modelado. Así que tenga cuidado con los valores atípicos en sus datos, es algo que siempre deberías estar revisando de todos modos pero realmente importa cuando se utiliza la regresión logística. El otro desafío con la regresión logística es que se basa en un conjunto de suposiciones que pueden no cumplirse con muchas de las diferentes fuentes de datos que utiliza. Entonces, por ejemplo, tener una varianza desigual dentro de sus diferentes variables de entrada es algo que puede afectar masivamente al modelo que construyes. Así que recuerda nuestros datos de card deco vimos mucha variación desigual en las variables de entrada. Entonces, en este caso, nos gustaría asegurarnos de que que teníamos una variable de entrada que funcionaría en nuestro modelo. Así que ahora deberías tener una buena idea. de cómo se puede implementar una regresión logística usando la biblioteca de aprendizaje de SK y las formas en que puede usar algunas de las visualizaciones para interpretar lo que el modelo te está diciendo y lo que está pasando con la predicción. Puedes construir tu intuición sobre algunos de estos conjuntos de datos sintéticos para que te hagas una idea de cómo se comparan los diferentes modelos cuando va a utilizar esto en sus desafíos reales.
Aprende sobre la marcha
Lleva tu aprendizaje a todas partes: la app de KnowledgeCity te permite ver las lecciones sobre la marcha.