Unha breve introdución á aprendizaxe automática

Se algunha vez compraches en liña e o momento das promocións parece coincidir coa túa intención de comprar, ou hai ofertas tentadoras para engadir algúns artigos extra á túa cesta, entón probablemente experimentaches os resultados do Machine Learning (ML) de primeira man.

Pero non todo ten que ver con gañar diñeiro. O ML utilizouse nunha ampla variedade de campos, dende a sanidade para axudar no diagnóstico permitindo unha intervención máis temperá, ata para comprender a biodiversidade, a extinción e a distribución de especies nos ecosistemas.

Non obstante, os resultados do Machine Learning son tan bos como o modelo creado por humanos, incluíndo aspectos como os datos dispoñibles, como se interpretan e os bucles de retroalimentación establecidos.

Tamén pode conlevar altos custos e consideracións éticas; onde o machine learning axuda a automatizar tarefas, pode provocar a perda de empregos.

Mesmo se non se emprega directamente, a ampla aplicación do ML en diversos campos convérteo nun tema rico para explorar dende unha perspectiva multidisciplinar. Termos como regresión, clustering e tarefas posteriores poden sentirse como barreiras ao principio, polo que esta serie comeza cos conceptos básicos, deixando a complexidade para máis adiante.

En que se diferencia o Machine Learning da programación tradicional?
Como aprende a máquina?
Que é un pipeline de Machine Learning?
Por que o Machine Learning

En que se diferencia o Machine Learning da programación tradicional?

A programación tradicional xeralmente baséase nunha solución deseñada polo programador para resolver un problema. O Machine Learning, pola contra, pode basearse en datos para aprender unha solución.

Como aprende a máquina?

Para comezar, o ML adoita basearse en conxuntos de datos que se utilizan como datos de adestramento. En termos simples, utilízanse para etiquetar os datos e identificar as características que axudan a describilos.

Existen varios métodos de aprendizaxe que determinan como se utilizan os datos e como se xerarán as etiquetas e as características.

Que é o etiquetado de datos?

O etiquetado é unha forma de dar contexto aos datos para que a máquina poida aprender.

Engadir unha ou máis etiquetas significativas permite a un modelo categorizar os datos e comprender a súa relación coas características que os describen.

Que son as características?

As características representan datos que describen atributos ou calidades que a máquina utilizará para axudar a determinar que etiqueta debe aplicárselles.

Os datos poden ser discretos ou continuos, proporcionando información categórica ou numérica.

Métodos de aprendizaxe

Existen tres tipos de aprendizaxe que pode empregar unha máquina:

Supervisado
Non supervisado
Por reforzo

Que é a aprendizaxe supervisada?

O enfoque de aprendizaxe supervisada baséase en proporcionar á máquina material de adestramento en forma de conxuntos de datos etiquetados, que serven como exemplos para que o algoritmo detecte patróns e identifique a relación entre os datos de entrada e as saídas esperadas.

Que é a aprendizaxe non supervisada?

A aprendizaxe non supervisada baséase en datos que non foron etiquetados, polo que o algoritmo non ten coñecemento nin contexto sobre a saída e, polo tanto, espérase que chegue ás súas propias conclusións.

Algúns dos métodos clave da aprendizaxe non supervisada son o clustering, a redución de dimensionalidade e a asociación de regras.

A aprendizaxe non supervisada é útil para identificar patróns nos datos que quizais non se recoñeceran anteriormente.

Ademais, pode utilizarse para crear clústeres; grupos de datos agrupados en función da súa similitude.

Que é a aprendizaxe por reforzo?

A aprendizaxe por reforzo é diferente en que utiliza un axente intelixente para interactuar co seu entorno. O axente pode realizar accións por algunhas das cales recibirá unha recompensa.

Mediante proba e erro, o axente aprende a optimizar o seu comportamento para maximizar a recompensa que recibe da maneira máis eficiente que poida atopar.

Que é un pipeline de Machine Learning?

Un pipeline de Machine Learning describe os pasos necesarios para preparar un modelo de machine learning para o seu despregamento.

Comeza recollendo datos e preparándoos para o modelo co fin de crear un conxunto de datos de adestramento, un conxunto de datos de proba e un conxunto de datos de validación. Isto inclúe a hixiene de datos, como a eliminación de erros e a garantía de que non hai lagoas, así como a xeración de características e etiquetas.

Unha vez preparados os datos, é necesario identificar o tipo de modelo requirido para o problema que se intenta resolver.

Unha vez decidido o modelo necesario, prepárase o algoritmo e aliméntase con datos do conxunto de adestramento para que poida analizar a relación entre as características e as etiquetas.

En canto os resultados do conxunto de adestramento se consideran precisos, emprégase o conxunto de proba para garantir que a precisión é repetible.

Na práctica, poden probarse numerosos modelos fronte a unha variedade de requisitos. A precisión é importante, pero a eficiencia en termos de potencia computacional pode resultar nunha solución máis rendible a longo prazo.

Unha vez completadas as probas, o modelo pode despregarse onde comeza a facer predicións utilizando datos do mundo real. Idealmente, os resultados monitorízanse co tempo para garantir que funciona segundo o esperado, e realízanse revisións segundo sexa necesario.

Por que o Machine Learning

É propio da natureza humana recoñecer patróns, crear contexto e facer predicións, algo que, nun mundo que se volve máis complexo día a día, é cada vez máis difícil.

O machine learning é un intento de replicar ese proceso de forma mecánica. Certamente pode procesar grandes cantidades de datos e identificar patróns que os humanos non poden, con todo, tamén pode exacerbar calquera sesgo humano presente no modelo ou nos datos.

Entendelo pode dicirche moito sobre a toma de decisións, o erro humano e as ferramentas que utilizamos, e mesmo sobre a importancia da gobernanza da IA a medida que os resultados do ML comezan a ter un impacto no mundo real.