La regressió fa referència a problemes on la sortida desitjada és un nombre d'un rang continu . Aquest tipus de resultats poden ser qualsevol valor dins d'un rang, com la temperatura, a diferència dels valors més discrets produïts en la classificació on el resultat s'escollirà entre un conjunt definit d'opcions.
La regressió utilitza dades del passat per intentar definir la relació entre les dades disponibles (les entrades) i el valor que esteu intentant predir. La regressió més senzilla utilitzarà només una variable d'entrada, però podeu tenir diverses entrades.
La sortida s'anomena variable dependent i les entrades s'anomenen variables independents.
AirBnB és un servei que permet als propietaris anunciar lloguers per estades curtes.
Imagineu-vos que treballeu per a AirBnB i us arriba un nou propietari amb un apartament a Nova York. Vol un consell sobre quin preu (per nit) hauria de posar.
Els lloguers d'AirBnB a Nova York solen atraure turistes, de manera que decidiu que utilitzareu la distància fins a una de les destinacions més populars, l'Empire State Building, per analitzar els lloguers actuals i estimar un preu per al nou client.
A continuació podeu veure una mostra aleatòria de lloguers d'AirBnB a Nova York, el seu preu i la distància a l'Empire State Building.
Aquest problema és perfecte per a la regressió. La variable dependent és el preu del lloguer: això és el que voleu predir. La variable independent és la distància a l'Empire State Building.
La regressió també fa referència a l'algorisme utilitzat per resoldre aquest tipus de problemes. El tipus de regressió més senzill és la regressió lineal. Aquests algorismes analitzaran les dades i traçaran una línia de millor ajust que expressi millor la relació entre les dues variables.
La línia us dirà dues coses importants: el pes de l'entrada i la predicció per quan la variable independent sigui 0. El pes de la vostra entrada mostra quant afecta la sortida i en quina direcció: pot ser positiva o negativa. Si només teniu una entrada, el pes de l'entrada dóna el pendent de la línia que millor s'ajusta. Una bona analogia per als pesos és el recompte d'elements en un rebut.
El recompte de cada article és l'entrada i el preu serà el pes. Per obtenir el preu total, multipliqueu el recompte (entrada) de cada article pel preu (pes). El pes també s'anomena coeficient. El pes d'una entrada pot donar informació útil: com més gran sigui el pes, més fort serà el vincle entre aquesta entrada i la sortida.
L'algoritme de regressió també calcularà una intercepció y: aquest és el valor que prediria el model si la vostra entrada fos 0.
Tot plegat us dóna l'equació d'una línia, que normalment s'escriu com: y = mx + c
Si utilitzeu la regressió a les dades anteriors, es produiria la línia següent:
Produeix els següents resultats:
Aquests valors revelen que una propietat que es troba a 0 milles de distància de l'Empire State Building s'ha de llogar $182.36 i per cada milla que us desplaceu de l'edifici, el lloguer disminueix $14.61.
No hi ha manera d'aconseguir una línia per passar per totes les dades que teniu. Per a cada punt, la distància a la línia (amunt o avall) s'anomena error. L'objectiu de l'algorisme de regressió és fer que la suma de tots els errors del gràfic sigui el més baix possible ajustant el pes per trobar el pes òptim.
També podeu utilitzar la regressió en problemes amb múltiples variables independents, i aquí és on ML és realment útil.
Quan teniu més d'una variable d'entrada, l'algorisme calcularà els pesos de cadascuna d'elles. L'aprenentatge automàtic s'utilitza per "aprendre" ajustant els pesos per reduir l'error tant com sigui possible, per arribar als pesos òptims.
A l'exemple anterior, podeu decidir que la ubicació no és suficient per predir un preu amb precisió. També podeu considerar el nombre d'habitacions o la durada màxima d'un lloguer per ajudar-vos a fer millors prediccions.
Tot l'anterior suposa que hi ha una relació lineal entre les vostres entrades i les vostres sortides. Això vol dir que afegir la mateixa quantitat a una entrada sempre donarà lloc al mateix augment de la sortida.
En alguns casos, és possible que la relació no sigui lineal, de manera que en comptes d'això utilitzeu una corba polinomial. Els polinomis són un altre tipus d'equació, que normalment utilitzen una potència de x(x^n ).
Aquest tipus s'anomena regressió polinòmica, mostra una relació no lineal on afegir algun valor a la vostra entrada no sempre provoca el mateix augment de la sortida.
L'impacte de l'aprenentatge automàtic es mesura no només per la potència dels seus algorismes, sinó també per l'amplitud d'aplicacions útils que té. En aquesta secció, veiem algunes aplicacions de la regressió lineal a la vida real. En cadascun dels exemples, esbossem el problema, aprenem algunes característiques per resoldre'l i després deixem que la regressió lineal faci la seva màgia.
Recomanacions de vídeo i música: Una de les maneres que s'utilitzen per generar recomanacions de vídeo i música és predir la quantitat de temps que un usuari veurà un vídeo o escoltarà una cançó. Per a això, podem crear un model de regressió lineal on les etiquetes de les dades són la quantitat de minuts que cada usuari veu cada cançó. Les característiques poden ser dades demogràfiques de l'usuari, com ara la seva edat, ubicació i ocupació, però també poden ser de comportament, com altres vídeos o cançons en què hagin fet clic o amb qui hagin interactuat.
Recomanacions de producte: Les botigues i els llocs web de comerç electrònic també utilitzen la regressió lineal per predir les seves vendes. Una manera de fer-ho és predir quant gastarà un client a la botiga. Ho podem fer amb regressió lineal. L'etiqueta a predir pot ser la quantitat que l'usuari va gastar, i les característiques poden ser demogràfiques i de comportament, de manera similar a les recomanacions de vídeo i música.
Atenció sanitària: La regressió té nombroses aplicacions en l'assistència sanitària. Segons quin problema volem resoldre, predir l'etiqueta adequada és la clau. Aquí teniu un parell d'exemples: Predicció de l'esperança de vida d'un pacient, en funció de les seves condicions de salut actuals, Predicció de la durada d'una estada hospitalària, a partir dels símptomes actuals.