Oktatási cél: A tárgy célja az adattudomány alapfogalmainak és folyamatainak gyakorlati megközelítésű megismertetése. A hallgatók a gyakorlati életből vett valós alkalmazási példákon keresztül az ismereteket megtapasztalva, egyre mélyebbre haladva precíz elméleti és egyúttal praktikus gyakorlati ismeretekhez jutnak. Az elméleti ismeretek gerincét a gépi tanulás algoritmusai adják, a gyakorlati feladatok pedig az elmélet gyakorlati megjelenítését szolgálják Python nyelv használatán keresztül.
Tematika: Előadás: Történet, példák, esettanulmányok, az adattudományba sorolható területek. Statisztika alapok. CRISP DM és a 6 fázisa. Adattisztítás. Felügyelt, felügyelet nélküli és megerősített tanulás. Túltanulás, alultanulás. Modellek validálása, tanulási/validációs/tesztelési halmaz, keresztvalidáció, Bias-Variance, Precision-Recall, F1-score ROC görbe, AUC. Legkisebb négyzetek módszere. Lineáris Regresszió. Logisztikus regresszió. SVM. Neurális hálók. Döntési fák. Véletlen erdők. Boosting. Nem ellenőrzött tanulás. Klaszterezés. K-means klaszterezés. Megerősített tanulás. Nagyobb esettanulmányok, kitekintés. Gyakorlat: Az adatmanipulálás, prediktív analízis, megjelenítés lépései valódi adatokkal elsősorban Python-csomagok (pandas, scikit-learn, matplotlib, ggplot) használatával.