15 mielenkiintoista koneoppimisen projekti-ideaa aloittelijoille [2021]

Sisällysluettelo

Koneoppimisen projekti-ideat
Tässä on muutamia siistejä koneoppimisprojekti-ideoita aloittelijoille
Pörssikurssien ennustaja
SportsPredictor
Develop A Sentiment Analyzer
Enhance Healthcare
Prepare ML Algorithms – From Scratch!
Kehitä neuroverkko, joka osaa lukea käsialaa
Elokuvalippujen hinnoittelujärjestelmä
Iris Flowers Classification ML Project
BigMart Sales Prediction ML Project
Recommendation Engines with MovieLens Dataset
Viinin laadun ennustaminen Wine Quality Datasetin avulla
MNIST Handwritten Digit Classification
Ihmisen toiminnan tunnistaminen älypuhelimen tietokannan avulla
14. Object Detection with Deep Learning
Väärennettyjen uutisten havaitseminen
Enron-sähköpostiprojekti
Parkinson-projekti
Flickr 30K -projekti
Mall customers project
Kinetics-projekti
Suositusjärjestelmäprojekti
Bostonin asuntoprojekti
Cityscapes-projekti
Youtube 8M -projekti
Urbaani ääni 8K
IMDB-Wiki-projektissa
Librispeech-projekti
German traffic sign recognition benchmark (GTSRB) project
Reaalimaailman teollisuushankkeet
Magenta
BluEx
Motion Studios
LithionPower
Johtopäätös
Miten helppoa näiden projektien toteuttaminen on?
Voinko tehdä nämä projektit ML-harjoittelussa?
Miksi meidän on rakennettava koneoppimisprojekteja?
Lead the AI Driven Technological Revolution

Koneoppimisen projekti-ideat

Kun tekoäly (AI) jatkaa nopeaa edistymistään vuonna 2021, koneoppimisen (Machine Learning, ML) hallitseminen on yhä tärkeämpää kaikille tämän alan toimijoille. Tämä johtuu siitä, että sekä tekoäly että ML täydentävät toisiaan. Jos siis olet aloittelija, parasta, mitä voit tehdä, on työskennellä joidenkin koneoppimisprojektien parissa.

Me täällä upGradissa uskomme käytännönläheiseen lähestymistapaan, sillä pelkkä teoreettinen tieto ei auta reaaliaikaisessa työympäristössä. Tässä artikkelissa tutustumme joihinkin mielenkiintoisiin koneoppimisprojekteihin, joiden parissa aloittelijat voivat työskennellä ja testata koneoppimisen osaamistaan. Tästä artikkelista löydät 15 parasta koneoppimisprojekti-ideaa, joiden avulla aloittelijat voivat hankkia käytännön kokemusta.

Mutta ensin käsitellään asiaankuuluvampaa kysymystä, joka varmaan vaanii mielessäsi: miksi rakentaa koneoppimisprojekteja?

Kun on kyse urasta ohjelmistokehityksen alalla, aloittelevien kehittäjien on pakko työskennellä omien projektiensa parissa. Reaalimaailman projektien kehittäminen on paras tapa hioa taitojasi ja materialisoida teoreettiset tietosi käytännön kokemukseksi. Mitä enemmän kokeilet erilaisia Machine Learning -projekteja, sitä enemmän tietoa saat.

Vaikka oppikirjat ja oppimateriaalit antavat sinulle kaiken tarvittavan tiedon Machine Learningista, et voi koskaan todella hallita ML:ää, ellet sijoita aikaasi todellisiin käytännön kokeiluihin eli Machine Learning -projekteihin. Kun alat työskennellä koneoppimisen projekti-ideoiden parissa, voit paitsi testata vahvuuksiasi ja heikkouksiasi, myös saada näkyvyyttä, josta voi olla valtavasti hyötyä urasi edistämisessä. Tästä opetusohjelmasta löydät 15 mielenkiintoista koneoppimisen projekti-ideaa aloittelijoille, jotta voit saada käytännön kokemusta koneoppimisesta.

Tässä on siis muutamia koneoppimisprojekteja, joiden parissa aloittelijat voivat työskennellä:

Tässä on muutamia siistejä koneoppimisprojekti-ideoita aloittelijoille

Katso videomme koneoppimisprojekti-ideoista ja -aiheista…

Tämä lista koneoppimisprojekti-ideoista opiskelijoille sopii aloittelijoille ja niille, jotka ovat vasta aloittamassa koneoppimisen tai datatieteen parissa yleisesti. Näillä koneoppimisen projekti-ideoilla pääset alkuun kaikilla käytännön asioilla, joita tarvitset menestyäksesi urallasi koneoppimisen ammattilaisena. Näiden koneoppimisprojektien painopiste on aloittelijoille tarkoitetuissa koneoppimisalgoritmeissa, eli algoritmeissa, jotka eivät vaadi sinulta syvällistä ymmärrystä koneoppimisesta, ja siksi ne sopivat erinomaisesti opiskelijoille ja aloittelijoille.

Jos etsit koneoppimisprojekti-ideoita loppuvuodelle, tämän luettelon pitäisi saada sinut liikkeelle. Hyppäämme siis pitemmittä puheitta suoraan joihinkin Machine Learning -projekti-ideoihin, jotka vahvistavat pohjaasi ja joiden avulla voit kiivetä tikapuita ylöspäin.

Pörssikurssien ennustaja

Yksi parhaista ideoista aloittaa kokeilut sinulle käytännönläheiset Machine Learning -projektit opiskelijoille on työskennellä Stock Prices Predictorilla. Liiketoimintaorganisaatiot ja yritykset etsivät nykyään ohjelmistoja, jotka voivat seurata ja analysoida yrityksen suorituskykyä ja ennustaa eri osakkeiden tulevia hintoja. Ja koska osakemarkkinoista on saatavilla niin paljon tietoa, se on täynnä mahdollisuuksia finanssialaan taipuvaisille datatieteilijöille.

Mutta ennen kuin aloitat, sinulla on oltava reilusti tietoa seuraavilta aloilta:

Ennustava analyysi: Erilaisten tekoälytekniikoiden hyödyntäminen erilaisissa dataprosesseissa, kuten tiedonlouhinnassa, tiedon tutkimisessa jne. mahdollisten lopputulosten käyttäytymisen ”ennustamiseksi”.
Regressioanalyysi: Regressioanalyysi on eräänlainen ennustetekniikka, joka perustuu riippuvaisen (kohde) ja riippumattoman muuttujan/riippumattomien muuttujien (ennustaja) väliseen vuorovaikutukseen.
Toiminta-analyysi: Tässä menetelmässä analysoidaan kaikki kahden edellä mainitun tekniikan suorittamat toimet, minkä jälkeen tulos syötetään koneoppimismuistiin.
Tilastollinen mallintaminen: Siinä rakennetaan matemaattinen kuvaus reaalimaailman prosessista ja selvitetään mahdolliset epävarmuustekijät kyseisessä prosessissa.

Mitä on koneoppiminen ja miksi sillä on merkitystä

SportsPredictor

Michael Lewisin teoksessa Moneyball Oakland Athletics -joukkue muutti baseballin kasvot sisällyttämällä analyyttisen pelaajakartoitustekniikan pelisuunnitelmaansa. Ja aivan kuten he, sinäkin voit mullistaa urheilun reaalimaailmassa! Tämä on erinomainen koneoppimisprojekti aloittelijoille.

Koska urheilumaailmassa ei ole puutetta datasta, voit hyödyntää tätä dataa rakentaaksesi hauskoja ja luovia koneoppimisprojekteja, kuten korkeakoulu-urheilutilastojen käyttäminen ennustaaksesi, kenellä pelaajalla olisi paras ura missäkin tietyssä urheilulajissa (kykyjenetsintä). Voit myös tehostaa joukkueenhallintaa analysoimalla joukkueen pelaajien vahvuuksia ja heikkouksia ja luokittelemalla heidät niiden mukaisesti.

Kun käytettävissä on niin paljon urheilutilastoja ja -tietoja, tämä on erinomainen areena hioa datan tutkimisen ja visualisoinnin taitojasi. Kaikille, joilla on tuntumaa Pythoniin, Scikit-Learn on ihanteellinen valinta, koska se sisältää joukon hyödyllisiä työkaluja regressioanalyyseihin, luokituksiin, datan sisäänsyöttöön ja niin edelleen. Koneoppimisprojektien mainitseminen viimeisen vuoden aikana voi auttaa ansioluetteloasi näyttämään paljon mielenkiintoisemmalta kuin muut.

6 Times Artificial Intelligence Startled The World

Develop A Sentiment Analyzer

Tämä on yksi mielenkiintoisista koneoppimisen projekti-ideoista. Vaikka useimmat meistä käyttävät sosiaalisen median alustoja välittääkseen henkilökohtaisia tunteitamme ja mielipiteitämme koko maailman nähtäväksi, yksi suurimmista haasteista on ymmärtää sosiaalisen median postausten taustalla olevia ”tunteita”.

Ja tämä on täydellinen idea seuraavaa koneoppimisprojektiasi varten!

Sosiaalisessa mediassa kukoistaa valtavasti käyttäjien tuottamaa sisältöä. Luomalla ML-järjestelmä, joka pystyisi analysoimaan tekstien tai postauksen taustalla olevaa sentimenttiä, organisaatioiden olisi paljon helpompi ymmärtää kuluttajien käyttäytymistä. Tämä puolestaan antaisi niille mahdollisuuden parantaa asiakaspalveluaan, mikä antaisi mahdollisuuden optimaaliseen kuluttajatyytyväisyyteen.

Voit yrittää louhia dataa Twitteristä tai Redditistä, jotta pääset alkuun tunneanalyysin koneoppimisprojektissasi. Tämä saattaa olla yksi niistä harvoista syväoppimisprojektien tapauksista, jotka voivat auttaa sinua myös muilla osa-alueilla.

Enhance Healthcare

AI- ja ML-sovellukset ovat jo alkaneet tunkeutua terveydenhuoltoalalle, ja ne ovat myös nopeasti muuttamassa maailmanlaajuisen terveydenhuollon kasvoja. Terveydenhuollon puettavat laitteet, etäseuranta, etälääketiede, robottikirurgia jne. ovat kaikki mahdollisia tekoälyn käyttämien koneoppimisalgoritmien ansiosta. Ne eivät ainoastaan auta HCP:tä (Health Care Providers, terveydenhuollon tarjoajat) tarjoamaan nopeampia ja parempia terveydenhuoltopalveluja, vaan myös vähentävät merkittävästi lääkäreiden riippuvuutta ja työtaakkaa.

Miksi et siis käyttäisi taitojasi kehittääksesi vaikuttavan terveydenhuoltoon perustuvan koneoppimisprojektin? Koneoppimisalgoritmeja sisältävän projektin hoitaminen aloittelijoille voi olla hyödyllistä urasi rakentamisessa hyvällä alulla.

Hoitoalalla on käytössään valtavia määriä dataa. Tätä dataa hyödyntämällä voit luoda:

Diagnostiikkahoitojärjestelmiä, jotka voivat automaattisesti skannata kuvia, röntgenkuvia jne. ja antaa tarkan diagnoosin mahdollisista sairauksista.
Ennaltaehkäiseviä hoitosovelluksia, jotka voivat ennustaa epidemioiden, kuten flunssan, malarian jne. mahdollisuuksia, sekä kansallisella että yhteisötasolla.

Nämä 6 koneoppimistekniikkaa parantavat terveydenhuoltoa

Prepare ML Algorithms – From Scratch!

Tämä on yksi erinomaisista koneoppimisen projekti-ideoista aloittelijoille. ML-algoritmien kirjoittaminen tyhjästä tarjoaa kahdenlaisia etuja:

Yksi, ML-algoritmien kirjoittaminen on paras tapa ymmärtää niiden mekaniikan yksityiskohtia.
Kaksi, opit, miten matemaattiset ohjeet muutetaan toimivaksi koodiksi. Tästä taidosta on hyötyä tulevalla urallasi koneoppimisen parissa.

Voit aloittaa valitsemalla algoritmin, joka on suoraviivainen eikä liian monimutkainen. Jokaisen algoritmin – yksinkertaisimmankin – tekemisen takana on useita huolellisesti laskettuja päätöksiä. Kun olet saavuttanut tietynasteisen mestaruuden yksinkertaisten ML-algoritmien rakentamisessa, yritä viritellä ja laajentaa niiden toiminnallisuutta. Voit esimerkiksi ottaa vaniljaisen logistisen regressioalgoritmin ja lisätä siihen regularisointiparametreja muuttaaksesi sen lasso-/ridge-regressioalgoritmiksi. Koneoppimisprojektien mainitseminen voi auttaa ansioluetteloasi näyttämään paljon mielenkiintoisemmalta kuin muut.

Kehitä neuroverkko, joka osaa lukea käsialaa

Yksi parhaista ideoista aloittaa kokeilut aloitat käytännönläheiset Java-projektit opiskelijoille on työskentely neuroverkon parissa. Syväoppiminen ja neuroverkot ovat kaksi tekoälyn ajankohtaista muotisanaa. Ne ovat antaneet meille teknologisia ihmeitä, kuten kuljettajattomia autoja, kuvantunnistusta ja niin edelleen.
Nyt on siis aika tutustua neuroverkkojen areenaan. Aloita neuroverkkokoneoppimisprojektisi MNIST Handwritten Digit Classification Challenge -haasteella. Siinä on erittäin käyttäjäystävällinen käyttöliittymä, joka on ihanteellinen aloittelijoille.

Koneoppivat insinöörit: Myytit vs. realiteetit

Elokuvalippujen hinnoittelujärjestelmä

OTT-alustojen, kuten Netflixin ja Amazon Primen, laajentuessa ihmiset haluavat katsoa sisältöä oman mukavuutensa mukaan. Tekijät, kuten hinnoittelu, sisällön laatu & markkinointi, ovat vaikuttaneet näiden alustojen menestykseen.

Täyspitkän elokuvan valmistuskustannukset ovat nousseet eksponentiaalisesti viime aikoina. Vain 10 % tehdyistä elokuvista tuottaa voittoa. Television & OTT-alustojen kova kilpailu yhdessä korkeiden lippukustannusten kanssa on vaikeuttanut entisestään elokuvien tienaamista. Teatterilipun hinnan nousu (yhdessä popcorn-kustannusten kanssa) jättää elokuvateatterisalin tyhjäksi.

Kehittynyt lippujen hinnoittelujärjestelmä voi varmasti auttaa elokuvien tekijöitä ja katsojia. Lipun hinta voi olla korkeampi lipun kysynnän kasvaessa ja päinvastoin. Mitä aikaisemmin katsoja varaa lipun, sitä pienemmät ovat kustannukset, kun kyseessä on elokuva, jolla on suuri kysyntä. Järjestelmän pitäisi älykkäästi laskea hinnoittelu riippuen katsojien kiinnostuksesta, sosiaalisista signaaleista ja tarjonta-kysyntätekijöistä.

Iris Flowers Classification ML Project

Yksi parhaista ideoista aloittaa kokeilu sinulle käytännön koneoppimisprojekteja opiskelijoille on työskentely Iris Flowers luokittelu ML projektissa. Iris-kukkien tietokokonaisuus on yksi parhaista tietokokonaisuuksista luokittelutehtäviin. Koska iiriksen kukkia on erilaisia lajeja, ne voidaan erottaa toisistaan verholehtien ja terälehtien pituuden perusteella. Tämän ML-projektin tarkoituksena on luokitella kukat kolmeen lajiin – Virginica, Setosa tai Versicolor.

Tätä ML-projektia kutsutaan yleensä koneoppimisen ”Hello Worldiksi”. Iris-kukkien tietokokonaisuus sisältää numeerisia attribuutteja, ja se sopii erinomaisesti aloittelijoille oppimaan valvotuista ML-algoritmeista, lähinnä siitä, miten dataa ladataan ja käsitellään. Koska kyseessä on pieni tietokokonaisuus, se mahtuu helposti muistiin ilman erityisiä muunnoksia tai skaalausominaisuuksia. Ja tämä on täydellinen idea seuraavaan koneoppimisprojektiisi!

Voit ladata iirisdatasetin täältä.

BigMart Sales Prediction ML Project

Tämä on erinomainen ML-projekti-idea aloittelijoille. Tämä ML-projekti on paras tapa oppia, miten valvomattomat ML-algoritmit toimivat. BigMart-myyntitietokanta koostuu täsmälleen vuoden 2013 myyntitiedoista 1559 tuotteesta kymmenestä myyntipisteestä eri kaupungeissa.

Tarkoitus on kehittää BigMart-myyntitietoaineiston avulla regressiomalli, jolla voidaan ennustaa kunkin 1559 tuotteen myyntiä tulevana vuonna kymmenessä eri BigMart-myymälässä. BigMart-myyntitietokanta sisältää erityisiä attribuutteja kullekin tuotteelle ja myymälälle, mikä auttaa ymmärtämään eri tuotteiden ja myymälöiden ominaisuuksia, jotka vaikuttavat BigMartin kokonaismyyntiin tuotemerkkinä.

Recommendation Engines with MovieLens Dataset

Suositusmoottoreista on tullut erittäin suosittuja verkko-ostos- ja suoratoistosivustoilla. Esimerkiksi Netflixin ja Hulun kaltaisilla verkkosisällön suoratoistoalustoilla on suosittelumoottoreita, jotka räätälöivät sisältöä asiakkaiden yksilöllisten mieltymysten ja selaushistorian mukaan. Räätälöimällä sisältöä eri asiakkaiden katselutarpeiden ja mieltymysten mukaan nämä sivustot ovat pystyneet lisäämään suoratoistopalvelujensa kysyntää.

Aloittelijana voit kokeilla suosittelujärjestelmän rakentamista käyttämällä yhtä suosituimmista verkossa saatavilla olevista tietokokonaisuuksista – MovieLens-tietokokonaisuutta. Tämä tietokokonaisuus sisältää yli ”25 miljoonaa luokitusta ja miljoona tag-sovellusta, joita 162 000 käyttäjää on soveltanut 62 000 elokuvaan”. Voit aloittaa tämän projektin rakentamalla elokuvanimikkeiden world-cloud-visualisoinnin, jotta voit tehdä MovieLensin elokuvasuosituskoneen.

Voit tutustua MovieLens-tietokantaan täältä.

Viinin laadun ennustaminen Wine Quality Datasetin avulla

On tunnettu tosiasia, että ikä tekee viinistä paremman – mitä vanhempi viini on, sitä paremmalta se maistuu. Ikä ei kuitenkaan ole ainoa asia, joka määrittää viinin maun. Lukuisat tekijät määrittävät viinin laatusertifikaatin, mukaan lukien fysiokemialliset testit, kuten alkoholin määrä, kiinteä happamuus, haihtuva happamuus, tiheys ja pH-taso, muutamia mainitakseni.

Tässä ML-projektissa sinun on kehitettävä ML-malli, jolla voidaan tutkia viinin kemiallisia ominaisuuksia sen laadun ennustamiseksi. Tässä projektissa käyttämäsi viinin laatua koskeva tietokokonaisuus koostuu noin 4898 havainnosta, jotka sisältävät 11 riippumatonta muuttujaa ja yhden riippuvan muuttujan. Koneoppimisprojektien mainitseminen loppuvuoden aikana voi auttaa ansioluetteloasi näyttämään paljon mielenkiintoisemmalta kuin muut.

MNIST Handwritten Digit Classification

Tämä on yksi mielenkiintoisista koneoppimisprojekteista. Syväoppiminen ja neuroverkot ovat löytäneet käyttökohteita monissa reaalimaailman sovelluksissa, kuten kuvantunnistuksessa, automaattisessa tekstinmuodostuksessa, kuljettajattomissa autoissa ja paljon muuta. Ennen kuin syvennyt näihin monimutkaisiin syväoppimisen alueisiin, kannattaa kuitenkin aloittaa yksinkertaisesta tietokokonaisuudesta, kuten MNIST-tietokokonaisuudesta. Miksi et siis käyttäisi taitojasi kehittäessäsi vaikuttavaa koneoppimisprojektia, joka perustuu MNIST:iin?

MNIST:n numeroluokitusprojekti on suunniteltu kouluttamaan koneita tunnistamaan käsinkirjoitettuja numeroita. Koska aloittelijoiden on yleensä haastavaa työskennellä kuvadatan kanssa tasaisen relaatiodatan sijaan, MNIST-tietokanta sopii parhaiten aloittelijoille. Tässä projektissa käytät MNIST-tietoaineistoa ML-mallin kouluttamiseen käyttämällä konvolutiivisia neuroverkkoja (CNN). Vaikka MNIST-tietokanta mahtuu saumattomasti tietokoneen muistiin (se on hyvin pieni), käsinkirjoitettujen numeroiden tunnistustehtävä on melko haastava.

MNIST-tietokantaan pääset käsiksi täältä.

Ihmisen toiminnan tunnistaminen älypuhelimen tietokannan avulla

Tämä on yksi trendikkäistä koneoppimisen projekti-ideoista. Älypuhelindatakokonaisuus sisältää 30 ihmisen kuntoaktiviteettitietoja ja tietoja. Nämä tiedot kerättiin inertiasensoreilla varustetulla älypuhelimella.

Tämän ML-projektin tavoitteena on rakentaa luokittelumalli, joka pystyy tunnistamaan ihmisen kuntoilutoiminnot suurella tarkkuudella. Työskennellessäsi tämän ML-projektin parissa opit luokittelun perusteet ja myös sen, miten moniluokitusongelmia ratkaistaan.

14. Object Detection with Deep Learning

Tämä on yksi mielenkiintoisista koneoppimisprojekteista. Kun kyse on kuvien luokittelusta, syvät neuroverkot (Deep Neural Networks, DNN) pitäisi olla valintasi. DNN:iä käytetään jo monissa reaalimaailman kuvaluokitussovelluksissa, mutta tämän ML-projektin tarkoituksena on nostaa sitä vielä paremmaksi.

Tässä ML-projektissa ratkaiset objektien havaitsemisen ongelman hyödyntämällä DNN:iä. Sinun on kehitettävä malli, joka pystyy sekä luokittelemaan objekteja että paikallistamaan tarkasti eri luokkiin kuuluvat objektit. Käsittelet tässä objektin havaitsemisen tehtävää regressio-ongelmana objektien bounding box -maskeille. Määrittelet myös moniulotteisen päättelymenettelyn, jolla voidaan tuottaa korkearesoluutioisia objektihavaintoja mahdollisimman pienin kustannuksin.

Väärennettyjen uutisten havaitseminen

Tämä on yksi erinomaisista koneoppimisprojekti-ideoista aloittelijoille, varsinkin kun väärennetyt uutiset leviävät nyt kulovalkean tavoin. Valeuutisilla on taito levitä kuin kulovalkea. Ja kun sosiaalinen media hallitsee elämäämme juuri nyt, on entistäkin tärkeämpää erottaa valeuutiset todellisista uutistapahtumista. Tässä koneoppiminen voi auttaa. Facebook käyttää jo tekoälyä suodattaakseen väärennettyjä ja roskapostitettuja tarinoita käyttäjien syötteistä.

Tässä ML-hankkeessa pyritään hyödyntämään NLP (Natural Language Processing) -tekniikoita väärennettyjen uutisten ja harhaanjohtavien tarinoiden havaitsemiseksi, jotka tulevat ei-uskottavista lähteistä. Voit myös käyttää klassista tekstiluokittelua suunnitellaksesi mallin, joka pystyy erottamaan aidot ja väärennetyt uutiset toisistaan. Jälkimmäisessä menetelmässä voit kerätä tietokokonaisuuksia sekä oikeista että väärennetyistä uutisista ja luoda ML-mallin, jossa käytetään Naive Bayes -luokittelijaa luokittelemaan uutinen väärennetyksi tai oikeaksi siinä käytettyjen sanojen ja lausekkeiden perusteella.

Enron-sähköpostiprojekti

Enron-sähköpostitietokokonaisuus sisältää lähes 500k sähköpostia yli 150 käyttäjältä. Se on erittäin arvokas tietokokonaisuus luonnollisen kielen käsittelyä varten. Tässä projektissa rakennetaan ML-malli, joka käyttää k-means-klusterointialgoritmia petollisten toimien havaitsemiseen. Malli jakaa havainnot k-määrään klustereita tietokannan samankaltaisten mallien mukaan.

Parkinson-projekti

Parkinson-tietokanta sisältää 195 biolääketieteellistä tietuetta ihmisistä, joilla on 23 erilaista ominaisuutta. Tämän projektin ideana on suunnitella ML-malli, joka pystyy erottamaan terveet ihmiset Parkinsonin tautia sairastavista. Malli käyttää päätöspuihin perustuvaa XGboost-algoritmia (extreme gradient boosting) erottelun tekemiseen.

Flickr 30K -projekti

Flickr 30K -tietokanta koostuu yli 30 000 kuvasta, joista jokaisella on ainutlaatuinen kuvateksti. Käytät tätä tietokokonaisuutta rakentaaksesi kuvatekstigeneraattorin. Tarkoituksena on rakentaa CNN-malli, joka pystyy tehokkaasti analysoimaan ja poimimaan kuvasta piirteitä ja luomaan sopivan kuvatekstin, joka kuvaa kuvaa englanniksi.

Mall customers project

Kuten nimestä voi päätellä, ostoskeskuksen asiakastietokanta sisältää ostoskeskuksessa käyneiden ihmisten tietueet, kuten sukupuolen, iän, asiakastunnisteen, vuotuiset tulot, kulutuksen pisteet jne. Rakennat mallin, joka käyttää näitä tietoja segmentoidakseen asiakkaat eri ryhmiin heidän käyttäytymismalliensa perusteella. Tällainen asiakassegmentointi on erittäin hyödyllinen markkinointitaktiikka, jota tuotemerkit ja markkinoijat käyttävät myynnin ja tulojen lisäämiseksi ja samalla asiakastyytyväisyyden lisäämiseksi.

Kinetics-projekti

Tässä projektissa käytät laajaa tietokokonaisuutta, joka sisältää kolme erillistä tietokokonaisuutta – Kinetics 400, Kinetics 600 ja Kinetics 700 – jotka sisältävät yli 6,5 miljoonan korkealaatuisen videon URL-linkit. Tavoitteenasi on luoda malli, joka pystyy havaitsemaan ja tunnistamaan ihmisen toimia tutkimalla sarjaa erilaisia havaintoja.

Suositusjärjestelmäprojekti

Tämä on rikas tietokokoelma, joka sisältää monenlaisia tietokokonaisuuksia, jotka on kerätty suosituilta verkkosivustoilta, kuten Goodreadsin kirja-arvosteluista, Amazonin tuotearvosteluista, sosiaalisesta mediasta jne. Tavoitteenasi on rakentaa suosittelumoottori (kuten Amazonin ja Netflixin käyttämät), joka voi tuottaa henkilökohtaisia suosituksia tuotteille, elokuville, musiikille jne. asiakkaiden mieltymysten, tarpeiden ja verkkokäyttäytymisen perusteella.

Bostonin asuntoprojekti

Bostonin asuntotietoaineisto koostuu Bostonin eri talojen yksityiskohdista, jotka perustuvat sellaisiin tekijöihin kuin veroprosentti, rikollisuusaste, huoneiden määrä talossa jne. Se on erinomainen tietokokonaisuus eri talojen hintojen ennustamiseen Bostonissa. Tässä projektissa rakennat mallin, jolla voidaan ennustaa uuden talon hinta lineaarisen regression avulla. Lineaarinen regressio soveltuu parhaiten tähän projektiin, koska sitä käytetään silloin, kun datalla on lineaarinen suhde tulo- ja lähtöarvojen välillä ja kun tuloarvo on tuntematon.

Cityscapes-projekti

Tämä avoimen lähdekoodin tietokokonaisuus sisältää korkealaatuisia pikselitason annotaatioita videosekvensseistä, jotka on kerätty kaduilta 50:stä eri kaupungista. Se on valtavan hyödyllinen semanttisessa analyysissä. Voit käyttää tätä tietokokonaisuutta syvien neuroverkkojen kouluttamiseen kaupunkien kaupunkimaiseman analysoimiseksi ja ymmärtämiseksi. Hankkeessa suunnitellaan malli, joka pystyy suorittamaan kuvan segmentointia ja tunnistamaan erilaisia kohteita (autoja, busseja, kuorma-autoja, puita, teitä, ihmisiä jne.) katuvideosekvensseistä.

Youtube 8M -projekti

Youtube 8M on valtava tietokokonaisuus, jossa on 6,1 miljoonaa Youtube-videotunnusta, 350 000 tuntia videota, 2,6 miljardia audio/visuaalista piirrettä, 3862 luokkaa ja keskimäärin kolme tarraa jokaiselle videolle. Sitä käytetään laajalti videoiden luokitteluhankkeissa. Tässä projektissa rakennat videoluokitusjärjestelmän, joka pystyy kuvaamaan videon tarkasti. Se ottaa huomioon sarjan erilaisia syötteitä ja luokittelee videot erillisiin luokkiin.

Urbaani ääni 8K

Urbaani ääni 8K -tietokokonaisuutta käytetään äänen luokitteluun. Se sisältää monipuolisen kokoelman 8732 kaupunkiääntä, jotka kuuluvat eri luokkiin, kuten sireenit, katumusiikki, koiran haukkuminen, lintujen visertely, ihmisten puhuminen jne. Suunnittelet äänenluokittelumallin, joka pystyy automaattisesti havaitsemaan, mikä urbaani ääni soi

IMDB-Wiki-projektissa

Tämä leimattu tietokokonaisuus on luultavasti yksi laajimmista IMDB:stä ja Wikipediasta kerätyistä kasvokuvien kokoelmista. Siinä on yli 5 miljoonaa iällä ja sukupuolella leimattua kasvokuvaa. leimatulla sukupuolella ja iällä. Luodaan malli, joka pystyy tunnistamaan kasvot ja ennustamaan niiden iän ja sukupuolen tarkasti. Voit tehdä erilaisia ikäsegmenttejä ja -alueita, kuten 0-10, 10-20, 30-40 ja niin edelleen.

Librispeech-projekti

Librispeech-dataset on massiivinen kokoelma englanninkielisiä puheita, jotka on johdettu LibriVox-projektista. Se sisältää englanniksi luettuja puheita eri aksenteilla yli 1000 tunnin ajalta ja on täydellinen työkalu puheentunnistukseen. Tässä projektissa keskitytään luomaan malli, joka pystyy automaattisesti kääntämään äänen tekstiksi. Rakennat puheentunnistusjärjestelmän, joka tunnistaa englanninkielisen puheen ja kääntää sen tekstimuotoon.

German traffic sign recognition benchmark (GTSRB) project

Tämä tietokokonaisuus sisältää yli 50 000 kuvaa liikennemerkeistä, jotka on segmentoitu 43 luokkaan ja jotka sisältävät tietoa kunkin liikennemerkin rajatusta kehyksestä. Se on ihanteellinen moniluokkaiseen luokitteluun, johon tässä keskitytään. Rakennat syväoppimiskehystä käyttävän mallin, joka pystyy tunnistamaan liikennemerkkien rajatun laatikon ja luokittelemaan liikennemerkkejä. Projekti voi olla erittäin hyödyllinen autonomisille ajoneuvoille, sillä se tunnistaa liikennemerkit ja auttaa kuljettajia tekemään tarvittavat toimenpiteet.

29. Urheiluotteluvideon tekstin tiivistäminen

Tämä projekti on juuri sitä, miltä se kuulostaa – tarkan ja tiiviin tiivistelmän saaminen urheiluvideosta. Se on hyödyllinen työkalu urheilusivustoille, jotka tiedottavat lukijoille ottelun kohokohdista. Koska neuroverkot soveltuvat parhaiten tekstin tiivistämiseen, rakennat tämän mallin käyttämällä syväoppimisverkkoja, kuten 3D-CNN:iä, RNN:iä ja LSTM:iä. Pirstot urheiluvideon ensin useisiin osiin käyttämällä sopivia ML-algoritmeja ja käytät sitten SVM(Support vector machines), neuroverkkojen ja k-means-algoritmin yhdistelmää.

30. Liikekokouksen yhteenvetogeneraattori

Yhteenvetoon kuuluu merkityksellisimpien ja arvokkaimpien tietopalojen poimiminen keskusteluista, ääni-/videotiedostoista jne. lyhyesti ja ytimekkäästi. Se tehdään yleensä kaappaamalla ominaispiirteet tilastollisista, kielellisistä ja tunnepiirteistä kyseisen keskustelun dialogirakenteella. Tässä projektissa käytät syväoppimis- ja luonnollisen kielen prosessointitekniikoita tarkkojen tiivistelmien luomiseen liiketapaamisista säilyttäen samalla koko keskustelun kontekstin.

31. Sentimenttianalyysi masennusta varten

Depressio on maailmanlaajuisesti merkittävä terveysongelma. Joka vuosi miljoonat ihmiset tekevät itsemurhan masennuksen ja huonon mielenterveyden vuoksi. Yleensä mielenterveysongelmiin liittyvä leimautuminen ja hoidon viivästyminen ovat kaksi tärkeintä syytä tähän. Tässä hankkeessa hyödynnät eri sosiaalisen median alustoilta kerättyjä tietoja ja analysoit sosiaalisen median viesteissä esiintyviä kielellisiä merkkejä yksilöiden mielenterveyden ymmärtämiseksi. Tarkoituksena on luoda syväoppimismalli, joka voi tarjota arvokasta ja tarkkaa tietoa yksilön mielenterveydestä paljon aikaisemmin kuin perinteiset menetelmät.

32. Käsinkirjoitetun yhtälön ratkaisija

Käsinkirjoitettujen matemaattisten lausekkeiden tunnistaminen on keskeinen tutkimusalue tietokonenäön tutkimuksessa. Rakennat mallin ja harjoittelet sen ratkaisemaan käsinkirjoitettuja matemaattisia yhtälöitä käyttämällä konvolutiivisia neuroverkkoja. Mallissa hyödynnetään myös kuvankäsittelytekniikoita. Tässä hankkeessa mallia koulutetaan oikeilla tiedoilla, jotta se pystyy lukemaan käsinkirjoitettuja numeroita, symboleja jne. ja antamaan oikeita tuloksia eritasoisille matemaattisille yhtälöille.

33. Kasvontunnistus tunnelman havaitsemiseksi ja kappaleiden suosittelemiseksi

On tunnettu tosiasia, että ihmiset kuuntelevat musiikkia senhetkisen mielialansa ja tunteidensa perusteella. Miksi ei siis luotaisi sovellusta, joka pystyy tunnistamaan henkilön mielialan hänen ilmeistään ja suosittelemaan kappaleita sen mukaisesti? Tätä varten käytät tietokonenäön elementtejä ja tekniikoita. Tavoitteena on luoda malli, joka pystyy tehokkaasti hyödyntämään tietokonenäköä, jotta tietokoneet voivat saada korkean tason ymmärrystä kuvista ja videoista.

34. Musiikkigeneraattori

Musiikkisävellys ei ole mitään muuta kuin eri taajuustasojen melodinen yhdistelmä. Tässä projektissa suunnittelet automaattisen musiikkigeneraattorin, joka voi säveltää lyhyitä musiikkikappaleita minimaalisella ihmisen puuttumisella. Käytät tämän musiikkigeneraattorin rakentamiseen syväoppimisalgoritmeja ja LTSM-verkkoja.

35. Sairauksien ennustejärjestelmä

Tämä ML-projekti on suunniteltu sairauksien ennustamiseen. Luot tämän mallin käyttämällä R:ää ja R Studiota sekä Breast Cancer Wisconsin (Diagnostic) Datasetia. Tämä tietokokonaisuus sisältää kaksi ennusteluokkaa – hyvänlaatuisen ja pahanlaatuisen rintamassan. Tämän projektin työstäminen edellyttää perustietämystä satunnaismetsistä ja XGBoostista.

36. Asumiskelpoisen eksoplaneetan löytäminen

Viime vuosikymmenen aikana olemme onnistuneet tunnistamaan monia kiertäviä ja eksoplaneettoja. Koska mahdollisten eksoplaneettojen manuaalinen tulkinta on melko haastavaa ja aikaa vievää (unohtamatta, että siihen liittyy myös inhimillisiä virheitä), on parasta käyttää syväoppimista eksoplaneettojen tunnistamiseen. Tässä hankkeessa pyritään selvittämään, onko ympärillämme asumiskelpoisia eksoplaneettoja CNN:n ja kohinaisten aikasarjadatan avulla. Tällä menetelmällä voidaan tunnistaa elinkelpoisia eksoplaneettoja tarkemmin kuin pienimmän neliösumman menetelmällä.

37. Vanhojen & vaurioituneiden kuvakelojen kuvien uudistaminen

Vanhojen tai vaurioituneiden kuvakelojen uudistaminen on haastava tehtävä. Vanhojen valokuvien palauttaminen alkuperäiseen tilaan on lähes aina mahdotonta. Syväoppiminen voi kuitenkin ratkaista tämän ongelman. Rakennat syväoppimismallin, joka pystyy tunnistamaan kuvassa olevat viat (naarmut, reiät, taitteet, värjäytymät jne.) ja käyttämään Inpainting-algoritmeja kuvan palauttamiseen. Voit jopa värittää vanhoja B&W-kuvia.

Reaalimaailman teollisuushankkeet

Magenta

Tässä tutkimushankkeessa keskitytään tutkimaan koneoppimisen sovelluksia taiteen ja musiikin luomisprosessissa. Kehität ainutlaatuisia vahvistusoppimisen ja syväoppimisen algoritmeja, joilla voidaan luoda kuvia, lauluja, musiikkia ja paljon muuta. Se on täydellinen projekti taiteesta ja musiikista innostuneille luoville mielille.

BluEx

BluEx on yksi Intian johtavista logistiikkayrityksistä, joka on kehittänyt melkoisen fanijoukon oikea-aikaisten ja tehokkaiden toimitustensa ansiosta. Kuten kaikilla logistiikkatoimittajilla, BluExilla on kuitenkin edessään yksi erityinen haaste, joka maksaa sekä aikaa että rahaa – sen kuljettajat eivät kulje usein optimaalisia toimitusreittejä, mikä aiheuttaa viivästyksiä ja johtaa korkeampiin polttoainekustannuksiin. Luodaan vahvistusoppimista hyödyntävä ML-malli, joka pystyy löytämään tehokkaimman reitin tietylle toimituspaikalle. Tämä voi säästää jopa 15 % BluExin polttoainekustannuksista.

Motion Studios

Motion Studios ylpeilee olevansa Euroopan suurin radiotuotantotalo, jonka liikevaihto ylittää miljardi dollaria. Siitä lähtien, kun mediayhtiö käynnisti tosi-tv-ohjelmansa RJ Star, he ovat saaneet ilmiömäistä vastakaikua, ja he ovat tulvineet äänileikkeitä. Koska kyseessä on tosi-tv-ohjelma, ehdokkaiden valintaan on rajallinen aikaikkuna. Rakennat mallin, joka pystyy erottamaan mies- ja naisäänet toisistaan ja luokittelemaan äänileikkeet nopeamman suodatuksen helpottamiseksi. Tämä nopeuttaa valintaa ja helpottaa ohjelman johtajien tehtävää.

LithionPower

Lithionpower rakentaa akkuja sähköautoihin. Yleensä kuljettajat vuokraavat yrityksen akkuja päiväksi ja vaihtavat ne ladattuun akkuun. Akun kesto riippuu tekijöistä kuten ajettu matka/päivä, ylinopeudet jne. LithionPower käyttää vaihtelevaa hinnoittelumallia, joka perustuu kuljettajan ajohistoriaan. Tämän hankkeen tavoitteena on rakentaa klusterimalli, joka ryhmittelee kuljettajat heidän ajohistoriansa mukaan ja kannustaa kuljettajia näiden klusterien perusteella. Vaikka tämä lisää voittoja 15-20 prosenttia, se myös veloittaa enemmän kuljettajilta, joilla on huono ajohistoria.

Johtopäätös

Tässä on kattava luettelo koneoppimisen projekti-ideoista. Koneoppiminen on vielä alkuvaiheessa kaikkialla maailmassa. On paljon projekteja, joita pitää tehdä, ja paljon parannettavaa. Älykkäillä mielillä ja terävillä ideoilla liiketoimintaa tukevista järjestelmistä tulee parempia, nopeampia ja kannattavampia. Jos haluat kunnostautua koneoppimisessa, sinun on kerättävä käytännön kokemusta tällaisista koneoppimisprojekteista.

Vain työskentelemällä ML-työkalujen ja ML-algoritmien kanssa voit ymmärtää, miten ML-infrastruktuurit toimivat todellisuudessa. Mene nyt eteenpäin ja testaa kaikki tieto, jonka olet kerännyt koneoppimisprojektien ideat -oppaamme avulla, rakentaaksesi ikiomia koneoppimisprojekteja!

Miten helppoa näiden projektien toteuttaminen on?

Nämä projektit ovat hyvin perusluonteisia, ja joku, jolla on hyvä tietämys koneoppimisesta, voi helposti onnistua poimimaan ja viimeistelemään minkä tahansa näistä projekteista.

Voinko tehdä nämä projektit ML-harjoittelussa?

Kyllä, kuten mainittu, nämä projekti-ideat ovat periaatteessa opiskelijoille tai aloittelijoille. On suuri mahdollisuus, että saat työskennellä minkä tahansa näistä projekti-ideoista harjoittelusi aikana.

Miksi meidän on rakennettava koneoppimisprojekteja?

Kun on kyse urasta ohjelmistokehityksessä, on aloittelevien kehittäjien välttämätöntä työskennellä omien projektiensa parissa. Reaalimaailman projektien kehittäminen on paras tapa hioa taitojaan ja materialisoida teoreettiset tiedot käytännön kokemukseksi.

Lead the AI Driven Technological Revolution

PG Diploma in Machine Learning and Artificial Intelligence

Learn More