Prijavi se za kurs Uvod u R za Data Science!
Nauči besplatno osnove baratanja podacima i rad sa osnovnim statističkim modelima u programskom jeziku R sa nama!
Zadovoljstvo nam je da vas obavestimo da Data Science zajednica Srbije u saradnji sa Startitom organizuje besplatan kurs – Uvod u programski jezik R za Data Science. Poznavanje ovog programskog jezika predstavlja jednu od najvažnijih pretpostavki za rad u savremenoj Data Science, izazovnoj profesiji koja okuplja istraživače i praktičare u zajednicu za koju se globalno projektuje ogroman broj novih radnih mesta u godinama pred nama. Za učešće se možete prijaviti ovde, gde ćete, osim forme za prijavu, pronaći kratki opis kursa, kao i nekoliko kratkih uslova za učešće. Uvodni kurs počinje 28. aprila 2016, odvijaće se u dvočasovnim sesijama u prostorijama Startita svakog četvrtka, imaće deset sesija, a o prvom sastanku će polaznici biti obavešteni odmah posle završetka selekcije.
Osnovni preduslov za pohađanje kursa Uvod u R za Data Science je da imate iskustvo prethodnog programiranja u ma kom programskom jeziku koji nije isključivo deskriptivne prirode (primeri: PASCAL, C, C++, FORTRAN, BASIC, Java, JavaScript, Python… više ili manje bilo šta preko HTML i CSS). Preduslov nije da vaše iskustvo bude profesionalno niti elaborirano na bilo koji drugi način: u suštini, ako ste već upoznati sa strukturama podataka u nekim proceduralnim i/ili objektno orijentisanim programskim jezicima, elementima kontrole toka, funkcijama i sl – slobodno možete da se bacite na učenje programskog jezika R sa nama! Saznajte više ovde gde ćete naći i kratak upitnik koji će vam pomoći da odlučite da li bi vam ovaj kurs bio interesantan.
Kurs će držati Branko Kovač, Data Analyst u CUBE Risk Management Solutions i jedan od osnivača Data Science zajednice, i Dr Goran S. Milovanović, Data Scientist, DiploFoundation. Polaznici će sa Brankom proći važne osnove programiranja u R-u, dok će sa Goranom raditi na primeni osnovnih statističkih modela u R kroz studije slučaja sa konkretnim projektnim zadacima, što bliže pitanjima neposredne primene.
Za učešće se možete prijaviti ovde, gde ćete, osim forme za prijavu, pronaći kratki opis kursa, kao i nekoliko kratkih uslova za učešće. Uvodni kurs počinje 28. aprila 2016, odvijaće se u dvočasovnim sesijama u prostorijama Startita svakog četvrtka, imaće deset sesija, a o prvom sastanku će polaznici biti obavešteni odmah posle završetka selekcije.
Pridružite nam se da zavrtimo R zajednicu kod nas zajedno!
Pregled kursa
- Uvod u programski jezik R: strukture podataka i osnove kontrole toka.
Ilustrativni pregled programskog jezika R na primerima. Upoznavanje sa radom u RStudio razvojnom okruženju. Šta sve to R može i kako ga naterati da izvede najjednostavnije trikove koje ćemo vući u Data Science? Šta je to CRAN repozitorijum R paketa, šta su uopšte R paketi i kako se instaliraju.
- Vektori, matrice, i liste u R.
R je vektorski programski jezik, što znači da u R programiranju treba maksimalno da iskoristimo mogućnost lake i brze manipulacije vektorima i matricama. S druge strane, mnogo rada u R je bazirano na upotrebi lista. Naučićemo osnove baratanja sa ovim strukturama podataka.
- Data frame tip, faktori, i objekti u R.
Data frame nije najjednostavniji tip podataka u R, ali za veći broj R paketa za analizu i vizuelizacije on predstavlja polaznu strukturu na koju se primenjuju bitne funkcije. Slično, faktori u R su ponekad čvrsto vezani za logiku određenih statističkih analiza i vizuelizacija. Konačno, R je objektno-orijentisan programski jezik: dakle, naučićemo više i o objektima.
- Staviti sve to u pogon: strukture podataka + kontrola toka. Funkcije u R.
Sada već programiramo u R, učimo kako se formiraju i pozivaju funkcije, struktuiramo naš kod i spremamo se na rad u različitim R paketima. Kontrola toka je sigurno u našim rukama, lako baratamo svim osnovnim tipovima podataka kojima R raspolaže.
- Struktuiranje podataka: manipulacija stringovima u R.
Jedna od stvari po kojima se savremena Data Science razlikuje od prethodnog rada u različitim oblastima analitike podataka je to što smo danas često primorani da se bavimo struktuiranjem nestruktuiranih ili polustruktuiranih informacija, najčešće prikupljenih sa interneta. To mahom znači puno, puno manipulacije stringovima. Uvod u upotrebu R kapaciteta i paketa za rad sa stringovima. Priča za sebe: regularni izrazi u R.
- Korelacije i jednostavna linearna regresija u R
Na osnovu vrednosti jedne varijable, pod određenim uslovima koji moraju biti zadovoljeni, u stanju smo da predviđamo vrednost neke druge varijable. Na osnovu nečije težine, makar i neprecizno, možemo da predvidimo koliko je ta osoba visoka, ili koji broj cipela nosi. U tržišnim istraživanjima, neko može da nam naruči da na osnovu nekog raspoloživog znanja o kupcima određenog proizvoda predvidimo kako će se on prodavati. Učimo osnovni model ovakve vrste prediktivnog rada u R, model jednostavne linearne regresije.
- Multipla regresija u R
Na osnovu poznavanja vrednosti više varijabli, pod određenim uslovima koji moraju biti zadovoljeni, u stanju smo da predviđamo vrednost neke varijable koja nije među njima. Učimo model multipla regresione analize u kome ćemo već upoznati većinu problema sa kojima se suočavamo u prediktivnom poslu u Data Science. Kako da pokušamo da predvidimo ponašanje nekoga ili nečega na osnovu prikupljenog velikog broja varijabli tj. osobina te osobe ili tog fenomena? Multipla regresija je verovatno najjednostavniji odgovor na ovo veoma komplikovano pitanje.
- Proširenje linearnog modela u zadatku klasifikacije: binomijalna i multinomijalna logistička regresija u R
Na osnovu poznavanja toga u koju od dve kategorije neka stvar spada, pokušavamo da kažemo što više možemo o tome zbog kojih njenih osobina – kojih može biti i veliki broj – se ona nalazi baš tamo. Pošto se rešimo problema binomijalne logističke regresije u R, sažetog u prvoj rečenici, prelazimo na složeniji problem multinomijalne logističke regresije: na osnovu znanja o tome iz koje od više raspoloživih kategorija dolazi neka stvar, pokušavamo da zaključimo zbog kojih njenih osobina se ona našla baš tamo? Interesantno, jednom kada znamo koje osobine vode u koju kategoriju stvari, mi možemo da rešimo klasifikacije prethodno neklasifikovanih objekata, što je jedan od najčešćih poslova koje će Data Scientist imati.
- Redukcija dimenzionalnosti: multidimenzionalno skaliranje u R
Postoji veliki, veliki broj osobina kojima ste opisali određeni skup objekata. Neko traži od vas da napravite pregled te vaše analize i da rezultate prikažete vizuelno što jasnije. Avaj, vi ste problem opisali preko 100 karakteristika, a ljudski vizuelni sistem trpi dve do tri dimenzije: šta sad? Redukcija dimenzionalnosti je posao sa kojim se u Data Science srećemo skoro svaki dan: kako svesti obilje karakteristika stvari na manji broj karakterstika, a izgubiti pri tom što je manje moguće korisnih informacija? Razmatramo tek jedno moguće rešenje primenom multidimenzionalnog skaliranja u programskom jeziku R.
- Neparametrijski statistički modeli u R
Popularnost neparametrijskih statističkih metoda već duže od deceniju dobija na zamahu, zahvaljući pre svega tome što se odlikuju pretpostavkama mnogo “jeftinijim” od uobičajenih. Završavamo sa pregledom osnovnih neparametrijskih metoda u R: kada ih i zašto koristimo, i kako?