Els arbres de decisió són algoritmes potents de classificació i regressió, que també ens proporcionen una gran quantitat d'informació sobre el nostre conjunt de dades. Els arbres de decisió s'entrenen amb dades etiquetades, on les etiquetes que volem predir poden ser classes (per a la classificació) o valors (per a la regressió). Els arbres de decisió segueixen un procés intuïtiu per fer prediccions, que s'assembla molt al raonament humà.
Fem una ullada a aquest arbre de decisió que ajuda a identificar planetes del sistema solar:
Encara que aquest arbre no l'ha creat una màquina, hi ha moltes similituds entre això i un arbre de decisions d'aprenentatge automàtic. Tant l'arbre de dalt com els algorismes d'aprenentatge automàtic utilitzen decisions binàries (les que tenen un resultat cert o fals) per dividir les dades fins arribar al resultat final. Una diferència clau és que els algorismes d'aprenentatge automàtic s'apliquen a conjunts de dades molt més grans que en aquest exemple, amb la màquina elaborant les divisions més eficients de les dades per poder fer una predicció en el mínim de passos possible.
L'algorisme és un diagrama de flux en forma d'arbre amb una estructura jeràrquica. El punt de partida és l'arrel, que són tots els atributs de totes les dades que l'algorisme avaluarà. A l'exemple anterior, aquestes serien les dades planetàries dels planetes, com ara la composició, el nombre de llunes, la massa i la gravetat.
Durant el pas d'entrenament, l'algoritme d'aprenentatge automàtic determinarà la millor manera de dividir les dades. Aquesta divisió correspondrà a una pregunta amb un resultat binari cert/fals. A partir d'aquest punt de divisió inicial, les dades es ramifiquen en dues direccions, amb un altre node de decisió en cadascuna d'elles, el model dividirà encara més les dades restants mitjançant una altra pregunta binària.
Durant l'entrenament, la màquina continuarà fraccionant les dades (conegut com a partició recursiva) fins arribar a la fulla/node terminal. Un node fulla/terminal és el punt on les dades no es divideixen més i es pot fer una predicció.
El principal repte de l'algorisme d'aprenentatge automàtic durant la fase d'entrenament és identificar l'atribut que divideix de manera més efectiva les dades a l'arrel i a cada node de decisió fins que l'algorisme arriba a una fulla. Els dos mètodes més populars es coneixen com a guany d'informació i impuresa de Gini. Tots dos aconsegueixen resultats similars, però en aquest curs ens centrarem en el guany d'informació. AQUÍ podeu llegir més sobre la impuresa de Gini.
L'objectiu de l'algorisme de guany d'informació és reduir la quantitat d'informació necessària per prendre una decisió. El guany d'informació és una mesura de l'efectivitat amb què s'han dividit les dades a cada node de decisió. A cada node de decisió, l'objectiu és obtenir el màxim d'informació possible. Cada divisió donarà lloc a l'obtenció d'alguna informació: com més gran sigui el guany d'informació, més a prop estarà el model de poder fer una predicció.
Imagineu que volem un algorisme d'aprenentatge automàtic per classificar un cos celeste del nostre sistema solar com a lluna o planeta. Si la divisió que es fa fracciona les dades utilitzant el valor de la gravetat, el guany d'informació seria baix. Això es deu al fet que després de la divisió encara teniu una divisió força aleatòria de planetes i llunes en cadascun dels dos nodes i l'algorisme no està gaire més a prop de poder fer una predicció. Si la divisió fracciona les dades segons si té o no un nucli sòlid, el guany d'informació seria més gran. Això es deu al fet que, tot i que alguns planetes són gegants gasosos, totes les llunes tenen un nucli sòlid i, per tant, després de la divisió, un node només contindria planetes i l'altre node consistirà en una barreja de planetes i llunes amb la gran majoria de llunes.
Un desavantatge d'un arbre de decisió és el risc de sobreajustament. Si hi ha un camí de decisió per a cada mostra de les vostres dades d'entrenament, el model estarà sobreajustat i és molt poc probable que sigui precís quan s'utilitzin les dades de prova. Una manera de prevenir aquest problema és utilitzant la poda. Les tècniques de poda inclouen:
Establir un nombre màxim de nodes fulla que es poden generar.
Seleccionar un nombre mínim de mostres necessàries per produir un nou node o fulla.
Establir una profunditat màxima per a l'arbre (nombre de vegades que es permet dividir les dades).
En podar, heu de trobar un equilibri entre la subadaptació i l'excés de dades per intentar trobar el punt dolç.
Els arbres de decisió tenen moltes aplicacions útils a la vida real. Una característica especial dels arbres de decisió és que, a part de predir, ens donen molta informació sobre les nostres dades, perquè les organitzen en una estructura jeràrquica. Moltes vegades, aquesta informació té tant o fins i tot més valor com la capacitat de fer prediccions. En aquesta secció, veiem alguns exemples d'arbres de decisió utilitzats a la vida real en els camps següents:
Els arbres de decisió s'utilitzen àmpliament en medicina, no només per fer prediccions sinó també per identificar característiques que són determinants en la predicció. Us podeu imaginar que en medicina, una caixa negra que digui "el pacient està malalt" o "el pacient està sa" no és prou bona. Tanmateix, un arbre de decisions inclou una gran quantitat d'informació sobre per què es va fer la predicció. El pacient podria estar malalt en funció dels seus símptomes, antecedents mèdics familiars, hàbits o molts altres factors.
En els sistemes de recomanació, els arbres de decisió també són útils. Un dels concursos més famosos dels sistemes de recomanació, el premi Netflix, es va guanyar amb l'ajuda dels arbres de decisió. L'any 2006, Netflix va organitzar un concurs que consistia en construir el millor sistema de recomanació possible per predir les valoracions dels usuaris de les seves pel·lícules. El 2009, van atorgar 1.000.000 de dòlars al guanyador, que va millorar l'algoritme de Netflix en més d'un 10%. La manera en què ho van fer va ser utilitzant arbres de decisió augmentats pel gradient per combinar més de 500 models diferents. Altres motors de recomanació utilitzen arbres de decisió per estudiar la implicació dels seus usuaris i esbrinar les característiques demogràfiques per determinar millor la implicació.