Esta es la segunda entrega de nuestra exploración del aprendizaje automático «sin código». En nuestro primer artículodescribimos nuestro conjunto de problemas y discutimos los datos que usaríamos para probar si una herramienta de ML altamente automatizada diseñada para analistas de negocios podría generar resultados rentables con casi calidad. métodos más intensivos en código implica un poco más de ciencia de datos impulsada por humanos.
Si no has leído ese artículo, deberías volver atrás y al menos frote. Si está listo, repasemos lo que haríamos con nuestros datos de ataque cardíaco en condiciones de aprendizaje automático «normales» (es decir, más intensivos en código), luego deséchelo todo y presione el botón «fácil».
Como discutimos anteriormente, trabajamos con un conjunto de datos de salud cardíaca de estudios en la Clínica Cleveland y el Instituto de Cardiología Húngaro en Budapest (así como otros sitios cuyos datos rechazamos por razones cualitativas). Todos esos datos están disponibles. repositorio hemos creado en GitHub, pero su forma original es parte de él base de datos mantenido para proyectos de aprendizaje automático por la Universidad de California-Irvine. Usamos dos versiones del conjunto de datos: un conjunto de datos más pequeño y completo que consta de 303 registros de pacientes de la Clínica Cleveland, y un conjunto de datos más grande (597 pacientes) que incluye datos del Instituto Húngaro pero le faltan ambos tipos de datos. colección más pequeña.
Los dos campos que faltan en los datos húngaros parecen una consecuencia potencial, pero los datos de la Clínica Cleveland en sí mismos pueden ser un conjunto demasiado pequeño para algunas aplicaciones de ML, por lo que intentaremos cubrir nuestras bases con ambos.
El programa
Con múltiples conjuntos de datos disponibles para entrenamiento y pruebas, era hora de comenzar a trabajar. Si tuviéramos que hacerlo de la forma en que lo suelen hacer los científicos de datos (y de la forma en que lo intentamos el año pasado), haríamos lo siguiente:
- Divida los datos en un conjunto de entrenamiento y un conjunto de prueba
- Use datos de entrenamiento con un tipo de algoritmo existente para construir el modelo
- Valide el modelo con un conjunto de prueba para verificar su precisión
Podríamos hacer esto codificándolo en un cuaderno Jupyter y ajustando el modelo hasta que alcancemos una precisión aceptable (como hicimos el año pasado, en un bucle perpetuo). Pero en cambio, primero probaremos dos enfoques diferentes.
- Un enfoque «sin código» utilizando Sagemaker Canvas de AWS; Canvas toma los datos como un todo, los divide automáticamente en entrenamiento y prueba, y crea un algoritmo predictivo.
- Otro enfoque de «código bajo/sin código» usando Sagemaker Studio Jumpstart y AutoML: evalúa los datos y prueba varios tipos de algoritmos diferentes para determinar cuál es el mejor
Después de hacer eso, usaremos uno de los enfoques de ML probados en batalla que los científicos de datos ya han probado con este conjunto de datos, algunos de los cuales afirman tener una precisión de más del 90 por ciento.
El resultado final de estos enfoques debería ser un algoritmo que podamos usar para realizar una consulta predictiva basada en los puntos de datos. Pero el resultado real será una mirada a las ventajas y desventajas de cada enfoque en términos de tiempo de finalización, precisión y costo del tiempo de cálculo. (En nuestra prueba reciente, AutoML por sí solo prácticamente arruinó todo nuestro presupuesto de crédito de cómputo de AWS).
Beer ninja. Internet maven. Music buff. Wannabe web evangelist. Analista. Introvertido