Una breve introducción al aprendizaje automático

Si alguna vez has comprado en línea y el momento de las promociones parece coincidir con tu intención de comprar, o hay ofertas tentadoras para añadir algunos artículos extra a tu cesta, entonces probablemente hayas experimentado los resultados del Machine Learning (ML) de primera mano.

Pero no todo tiene que ver con ganar dinero. El ML se ha utilizado en una amplia variedad de campos, desde la sanidad para ayudar en el diagnóstico permitiendo una intervención más temprana, hasta para comprender la biodiversidad, la extinción y la distribución de especies en los ecosistemas.

Sin embargo, los resultados del Machine Learning son tan buenos como el modelo creado por humanos, incluyendo aspectos como los datos disponibles, cómo se interpretan y los bucles de retroalimentación establecidos.

También puede conllevar altos costes y consideraciones éticas; donde el machine learning ayuda a automatizar tareas, puede provocar la pérdida de empleos.

Incluso si no se emplea directamente, la amplia aplicación del ML en diversos campos lo convierte en un tema rico para explorar desde una perspectiva multidisciplinar. Términos como regresión, clustering y tareas posteriores pueden sentirse como barreras al principio, por lo que esta serie comienza con los conceptos básicos, dejando la complejidad para más adelante.

¿En qué se diferencia el Machine Learning de la programación tradicional?

La programación tradicional generalmente se basa en una solución diseñada por el programador para resolver un problema. El Machine Learning, por otro lado, puede basarse en datos para aprender una solución.

¿Cómo aprende la máquina?

Para empezar, el ML a menudo se basa en conjuntos de datos que se utilizan como datos de entrenamiento. En términos simples, se utilizan para etiquetar los datos e identificar las características que ayudan a describirlos.

Existen varios métodos de aprendizaje que determinan cómo se utilizan los datos y cómo se generarán las etiquetas y las características.

¿Qué es el etiquetado de datos?

El etiquetado es una forma de dar contexto a los datos para que la máquina pueda aprender.

Añadir una o más etiquetas significativas permite a un modelo categorizar los datos y comprender su relación con las características que los describen.

¿Qué son las características?

Las características representan datos que describen atributos o cualidades que la máquina utilizará para ayudar a determinar qué etiqueta debe aplicárseles.

Los datos pueden ser discretos o continuos, proporcionando información categórica o numérica.

Métodos de aprendizaje

Existen tres tipos de aprendizaje que puede emplear una máquina:

  • Supervisado
  • No supervisado
  • Por refuerzo

¿Qué es el aprendizaje supervisado?

El enfoque de aprendizaje supervisado se basa en proporcionar a la máquina material de entrenamiento en forma de conjuntos de datos etiquetados, que sirven como ejemplos para que el algoritmo detecte patrones e identifique la relación entre los datos de entrada y las salidas esperadas.

¿Qué es el aprendizaje no supervisado?

El aprendizaje no supervisado se basa en datos que no han sido etiquetados, por lo que el algoritmo no tiene conocimiento ni contexto sobre la salida y, por tanto, se espera que llegue a sus propias conclusiones.

Algunos de los métodos clave del aprendizaje no supervisado son el clustering, la reducción de dimensionalidad y la asociación de reglas.

El aprendizaje no supervisado es útil para identificar patrones en los datos que quizás no se habían reconocido anteriormente.

Además, puede utilizarse para crear clústeres; grupos de datos agrupados en función de su similitud.

¿Qué es el aprendizaje por refuerzo?

El aprendizaje por refuerzo es diferente en que utiliza un agente inteligente para interactuar con su entorno. El agente puede realizar acciones por algunas de las cuales recibirá una recompensa.

Mediante prueba y error, el agente aprende a optimizar su comportamiento para maximizar la recompensa que recibe de la manera más eficiente que pueda encontrar.

¿Qué es un pipeline de Machine Learning?

Un pipeline de Machine Learning describe los pasos necesarios para preparar un modelo de machine learning para su despliegue.

Comienza recopilando datos y preparándolos para el modelo con el fin de crear un conjunto de datos de entrenamiento, un conjunto de datos de prueba y un conjunto de datos de validación. Esto incluye la higiene de datos, como la eliminación de errores y la garantía de que no hay lagunas, así como la generación de características y etiquetas.

Una vez preparados los datos, es necesario identificar el tipo de modelo requerido para el problema que se intenta resolver.

Una vez decidido el modelo necesario, se prepara el algoritmo y se alimenta con datos del conjunto de entrenamiento para que pueda analizar la relación entre las características y las etiquetas.

En cuanto los resultados del conjunto de entrenamiento se consideran precisos, se emplea el conjunto de prueba para garantizar que la precisión es repetible.

En la práctica, pueden probarse numerosos modelos frente a una variedad de requisitos. La precisión es importante, pero la eficiencia en términos de potencia computacional puede resultar en una solución más rentable a largo plazo.

Una vez completadas las pruebas, el modelo puede desplegarse donde comienza a hacer predicciones utilizando datos del mundo real. Idealmente, los resultados se monitorizan con el tiempo para garantizar que funciona según lo esperado, y se realizan revisiones según sea necesario.

Por qué el Machine Learning

Es propio de la naturaleza humana reconocer patrones, crear contexto y hacer predicciones, algo que, en un mundo que se vuelve más complejo día a día, es cada vez más difícil.

El machine learning es un intento de replicar ese proceso de forma mecánica. Ciertamente puede procesar grandes cantidades de datos e identificar patrones que los humanos no pueden, sin embargo, también puede exacerbar cualquier sesgo humano presente en el modelo o en los datos.

Entenderlo puede decirte mucho sobre la toma de decisiones, el error humano y las herramientas que utilizamos, e incluso sobre la importancia de la gobernanza de la IA a medida que los resultados del ML empiezan a tener un impacto en el mundo real.