Business Intelligence & Analytics
srijeda, 19. listopad 2016., 09:00
Dvorana C
45'
Podaci, s jedne strane struktuirani, a sa druge nestruktuirani, čija količina se neprestano povećava, općenito za tvrtke predstavljaju sve veći napor i trošak u smislu skladištenja i održavanja istih. Obično se duže čuvaju samo poradi zakonskih propisa ili tek iz nužnosti rijetkog i povremenog dohvata samo malih komadića pohranjenih informacija. Stoga sistem i DB administratori zahtjevaju da se stariji podaci pohranjuju na sporije medije te da se modeli reduciraju na najmanju moguću mjeru.No, sa druge strane ta velika količina podataka je u biti iznimna vrijednost za tvrtke iz kojih se dubinskim analizama mogu izlučiti vrlo vrijedni novi zaključci do kojih se iznimno rijetko može doći „zdravorazumski“. Uzorci, veze i korelacije među pojavama neočekivano se iznalaze analizom vremenskih slijedova, te prostornih i društvenih grupiranja.Međutim, najveći problemi sa kojim se pritom trenutno suočavaju podatkovni analitičari i znanstvenici nisu samo postavljanje statističkih modela, odabir adekvatnih analitčkih alata te ispravno izdvajanje „pravih“ naspram lažnih korelacija na temelju velikog broja varijabli, već baza na osnovu koje se sve to radi, a to su upravo sami podaci. Nestruktuirane, „prljave“ i nedostajuće podatke treba struktuirati, pročistiti i oblikovati da bi se uopće krenulo s analizom, a to po riječima samih analitičara, oduzima i preko 80% vremena. Pri tom, problem nedostajućih podataka se obično riješava nekom metodom ekstrapolacija ili pogađanja na osnovu iskustva što unosi dodatnu nesigurnost u točnost analiza. Također, obzirom da takve analize za velik broj slučajeva obično odvedu u neočekivane smjerove i završe u slijepim ulicama, analizu je potrebno višekratno ponavljati, pri čemu je ponovno nužno početne sirove podatke preoblikovati, agregirati i doraditi na drugačiji način kako bi se zadovoljile nove početne (pret)postavke. Budući da se radi o ogromnim količinama podataka, to je vremenski i performansno vrlo zahtjevno i često radi rokova rezultira slabijom kvalitetom isporučenih rezultata.Premda naslov sugerira da će se predavanje prvenstveno baviti prilagodbama struktura podataka u sustavu Kapsch Fraud Management System 4.1, ideja je i da se postave neka općenita pravila pri kreiranju novih modela i unapređenju postojećih kako bi se maksimalno olakšale složene analize.
Konferenciju organizira Hrvatska udruga Oracle korisnika. Više o udruzi možete saznati na Hroug.hr.