Els models predictius s'utilitzen a totes les indústries per analitzar i fer prediccions sobre les dades. Des d'esports fins a productes de bellesa fins a l'ús d'aplicacions, els models predictius proporcionen a les persones i les empreses dades per prendre decisions informades.
Al llarg d'aquest curs, heu après a programar models d'aprenentatge supervisat i no supervisat. En aquest projecte final, crearàs el teu propi model! Al llarg d'aquest projecte, treballareu amb activitats per completar els passos següents:
Trieu un conjunt de dades.
Determina quin algorisme s'adapta millor. En funció del conjunt de dades que trieu, haureu d'esbrinar quin algorisme utilitzar. Això requerirà que conegueu les vostres dades i els vostres objectius! Hi ha una correlació lineal entre les variables? Esteu buscant un valor numèric o una etiqueta/categoria? Coneixes les etiquetes o necessites el model per crear-les?
Programa el teu model. Un cop hagis triat el teu tipus de model, és hora de crear-lo! En aquest pas, escriureu un programa que s'ajusti al model escollit a les dades. El vostre programa i sortida seran específics del model que trieu.
Analitza i presenta les teves troballes. Una part important de la creació de models predictius és poder comunicar els resultats. En aquest pas final del projecte, presentareu les vostres troballes mitjançant diapositives o una infografia. El vostre producte ha d'incloure els components següents:
a) El raonament per a l'algorisme que heu triat
b) Una explicació i anàlisi de la sortida del vostre model: Quins resultats dona el vostre model? Què volen dir?
c) Una predicció basada en el vostre model
d) Un resum de la precisió del vostre model
e) Implicacions del món real
Podeu triar el vostre propi dataset, però sovint no és una tasca senzilla obtenir bones dades i probablement les haureu de netejar i preparar abans de poder-les utilitzar. Per facilitar-vos la feina s'han escollit 4 conjunts de dades de temes diversos que us poden ser útils. Aquests datasets són:
Prevenció de la insuficiència cardíaca:
La insuficiència cardíaca és una causa freqüent de mort a tot el món. Molts casos d'insuficiència cardíaca estan relacionats amb factors coneguts com el tabaquisme, la salut dels ronyons i una dieta poc saludable. La detecció precoç de les persones d'alt risc és essencial per reduir el nombre de morts per insuficiència cardíaca.
Aquest conjunt de dades es pot utilitzar per predir la mortalitat per insuficiència cardíaca.
Font: Davide Chicco, Giuseppe Jurman: "L'aprenentatge automàtic pot predir la supervivència dels pacients amb insuficiència cardíaca només a partir de la creatinina sèrica i la fracció d'ejecció". Informàtica mèdica de BMC i presa de decisions 20, 16 (2020)
Aquest conjunt de dades prové d'una enquesta mundial de Gallup. A mostres representatives de països d'arreu del món se'ls va fer una pregunta coneguda com l'escala de Cantril. Aquesta pregunta demana a l'usuari que puntuï la seva vida en una escala de 0 a 10, sent 0 la pitjor vida possible i 10 la millor vida possible. El conjunt de dades inclou 6 factors que estimen fins a quin punt cada factor contribueix a la puntuació del país. Els factors inclouen: CGP (producció econòmica), suport social, esperança de vida, llibertat, absència de corrupció i generositat.
Font: Informe mundial de la felicitat 2019
Aquest conjunt de dades conté dades sobre les fulles de 40 espècies vegetals diferents. Cada fulla inclou 14 valors de les seves característiques de forma i textura.
Font: Avaluació de les característiques per a la discriminació de fulles. Pedro F.B. Silva, Andre R.S. Marcal, Rubim M. Almeida da Silva (2013). Springer Lecture Notes in Computer Science, Vol. 7950, 197-204.
L'eficiència energètica és una prioritat per als països a l'hora de reduir costos i eliminar els residus. Entendre d'on prové l'energia d'un país és útil per determinar on centrar els esforços futurs per augmentar l'eficiència energètica.
Aquest conjunt de dades descriu les fonts d'electricitat de 48 països d'Àsia i el Pacífic. Per a cada país, el conjunt de dades inclou el percentatge de combustible fòssil, energia hidràulica i electricitat solar. Com que el percentatge d'energia solar per a la gran majoria dels països és inferior a l'1%, la nostra anàlisi se centrarà en el combustible fòssil versus l'energia hidroelèctrica.
Font: Banc Asiàtic de Desenvolupament (ADB), Indicadors clau per a Àsia i el Pacífic 2020