Metodologija koja će se koristiti u projektu uključuje ove skupine metoda:

  1. metode strojnog učenja za klasteriranje, predviđanje, klasifikaciju i prepoznavanje uzoraka,
  2. financijske metode procjene financijske isplativosti i dugoročnih financijskih učinaka, i
  3. metode simulacijskog modeliranja i izrade dijagrama tijeka poslovnih procesa.

Navedene skupine metoda bit će testirane na zgradama u javnom sektoru, zbog činjenice da su podaci za te zgrade raspoloživi u državnim institucijama, dok je poboljšanje energetske učinkovitosti javnog sektora izuzetno značajno za smanjenje rashodovne strane državnog budžeta.
U projektu će se koristiti metode strojnog učenja koje postaju sve značajnije u znanosti zbog njihovih prednosti u odnosu na standardne statističke metode. One su također aktualne i zbog razvoja obrade podataka u oblaku i Big Data koncepta koji kao najvažnije generatore znanja u budućnosti ističe metode podatkovne analitike, posebno prediktivne analitike u koju i pripadaju metode strojnog učenja (Kelleher, 2015; Zekić-Sušac, Has, 2016).

Projekt će u prvom stadiju modeliranja uključiti metode klasteriranja (grupiranja) podataka s ključnim posrednim ciljem odabira mogućih atributa podataka i definiranja vektora podataka kako bi se kasnije detektirale karakteristične skupine zgrada prema njihovim energetskim svojstvima i ponašanju u potrošnji energije. Metode umjetnih neuronskih mreža, stabala odlučivanja, potpornih vektora, asocijacijska pravila i druge metode strojnog učenja koristit će se u drugoj fazi modeliranja za ostvarivanje ključnih posrednih ciljeva identificiranja važnih prediktora energetske učinkovitosti, troškova, potrošnje i razdoblja povrata ulaganja. Osim ekstrahiranja glavnih prediktora, provest će se i analiza osjetljivosti kako bi se ispitala snaga utjecaja svake ulazne varijable na izlaznu (na energetsku učinkovitost, troškove, potrošnju i razdoblje povrata). Također će se istražiti uzorci u ponašanju kod potrošnje energije zgrada u javnom sektoru s pomoću metoda za analizu uzoraka (eng. pattern analysis) (Akinlar, 2013; Scitovski, 2014). Istražit će se koje grupe zgrada u javnom sektoru slijede slične uzorke u potrošnji energije, i kako ti uzorci ponašanja utječu na financijske učinke potrošnje.

Metode strojnog učenja su metode koje na skupu podataka mogu pronaći veze između varijabli s pomoću različitih algoritama koji nastoje pronaći sličnosti među podacima (eng. similarity-based learning) ili minimizirati grešku učenja (eng. error-based learning) ili pronaći vjerojatnosti nekih događaja (eng. probability-based learning) (Kelleher, 2015). Prema Raschka (2016) algoritmi strojnog učenja uključuju:

  • nadgledano učenje,
  • nenadgledano učenje i
  • učenje s pojačanjem (eng. Reinforcement learning).

Najčešće korištene metode strojnog učenja su:

  • klasteriranje (grupiranje) podataka (Theodoridis, 2009; Bagirov, 2011; Morales-Esteban i dr., 2014; Kumar, 2015; Ordin, 2015),
  • umjetne neuronske mreže,
  • stabla odlučivanja,
  • asocijacijska pravila,
  • metoda potpornih vektora,
  • genetički algoritmi,
  • Naivni Bayesov klasifikator,
  • metoda najbližeg susjeda i druge.

Od metoda za klasteriranje podataka u projektu će se koristiti grupiranje u k klastera prema više obilježja, pri čemu će se klasteri odabrati pomoću principa najmanjih kvadrata i najmanjih apsolutnih odstupanja. Odabir najprikladnijeg broja klastera vršit će se pomoću indikatora vrijednosti funkcije cilja, Calinski–Harabasz indeksa i Davies–Bouldin indeksa. Pretpostavka je da će vektori imati visoku dimenziju n (high dimensional data problem) i će takvih vektora biti m, pri čemu će m biti velik broj (large high dimensional data problem) (Kumar, 2015). Stvarni podaci će se najprije normalizirati, za traženje optimalne particije elipsoidalnih klastera koristit će se Adaptive Mahalanobis Clustering (Morales-Esteban i dr., 2014), dok će se za traženje banana klastera koristiti neka od inačica Density-Based Spatial Clustering of Applications with Noise (DBSCAN) (Ester, 1996; Karami, 2014).

Umjetne neuronske mreže mogu se opisati kao programi ili uređaji koji mogu pronaći veze između varijabli na temelju povijesnih podataka, kako bi proizvele izlaznu vrijednost za nove ulazne podatke. Iako su prvi put kao koncept predložene 1950-tih, njihova učestala uporaba u istraživanjima započela je kada je Paul Werbos osmislio backpropagation algoritam 1982. godine (Masters, 1995). U ovom projektu bit će korišteno nekoliko tipova i algoritama neuronskih mreža, uključujući mrežu višeslojni perceptron i mrežu s radijalno zasnovanom funkcijom, sa algoritmima backpropagation, conjugate gradient, Broyden-Fletcher-Gordfarb-Shanno i drugima (Zekić-Sušac et al., 2010). Metoda potpornih vektora je metoda strojnog učenja razvijena na temelju algoritma Generalized Portrait predloženog 1960-tih u Rusiji, te na VC (Vapnik-Chervonenkis) teoriji (Smola and Schoelkopf, 2004). Ova metoda je primarno namijenjena za probleme klasifikacije, iako postoji modificirana inačica nazvana Support Vector Regression prilagođena za regresijske probleme predviđanja. Prva uspješna primjena ove metode bila je na probleme optičkog prepoznavanja znakova, a od tada se koristi u brojnim područjima (Papadimitriou, 2016).

Stabla odlučivanja ili klasifikacijska stabla do sada su se koristila u okviru rudarenja podataka s ciljem izgradnje binarnog stabla koji se dobiva prijelomom ulaznog vektora u svakom čvoru prema nekoj funkciji za svaku ulaznu varijablu. Dva najpoznatija algoritma su discriminant-based univariate splits, i classification and regression trees (CART or C&RT) (Lee, 2010). Metoda najbližeg susjeda (eng. k-nearest neighbour) koristi se za klasificiranje ulaznih vektora u neku od kategorija na temelju izabranog broja njegovih najbližih susjeda. Za dani input, metoda procjenjuje izlaz pronalazeći k slučajeva koji su najbliži po udaljenosti u odnosu na taj input. Najčešća mjera udaljenosti koja se koristi kod ove metode je Euklidova udaljenost, dok se koriste još i Euklidova kvadratna udaljenost, City-block i Chebycheva udaljenost (Bishop, 2006).

Kako bi se ostvario cilj izrade modela za procjene financijske isplativosti i dugoročnih financijskih učinaka, koristit će se klasične metode neto sadašnje vrijednosti (NPV) i interne stope prinosa (IRR), te modeli američke Environmental Protection Agency iz programa Energy Star, konkretnije modeli kalkuliranja novčanog tijeka, evaluacije dogradnje zgrada te financijske kvantifikacije povećanja energetske efikasnosti. Osim toga, istražit će se dodatne metode procjene krivulja dugoročnih financijskih učinaka.

U cilju modeliranja lanca opskrbe prirodnog plina, koristit će se metode Business Process Modelling Language, Value Stream Mapping, metoda kauzalnih mapa i/ili metoda Ishikava dijagrama za mapiranje procesa opskrbnog lanca. Jedna od poznatijih metodologija za mapiranje koja bi se koristila je prema modelu Barosso et al. (2011). Počinje se od kreiranja vizualnog i opisnog prikaza glavnih dimenzija opskrbnog lanca: članovi (entiteti) opskrbnog lanca, odnosi/veze između članova opskrbnog lanca, materijalni tokovi, informacijski tokovi, upravljačke politike i vremena dostave (lead time). Dakle, mapiranjem trenutnog stanja opskrbnog lanca prikazuju se temeljni procesi koje treba uzeti u obzir pri traženju unapređenja elastičnosti (otpornosti) opskrbnog lanca na poremećaje (interne i eksterne). Slijedi identificiranje potencijalnih poremećaja koji se javljaju u opksrbnom lancu, a koji su glavna prepreka njegovoj daljnjoj optimizaciji. Nakon toga se odabiru i u opskrbni lanac uvrštavaju strategije za ublažavanje problema u opskrbnom lancu nastalih zbog identificiranih poremećaja. Ove strategije bi se prvenstveno temeljile na koordiniranom i kolaborativnom prognoziranju potražnje temeljenom na metodama podatkovne analitike i modelima razvijenim u prošlim fazama istraživanja. Zatim slijedi novo mapiranje uvažavajući posljedice svake predložene strategije za poboljšanje performansi lanca, te izvještaj za sve scenarije mapiranja opskrbnog lanca. Također će se na temelju aktualnih podataka kao i podataka iz simulacijskih modela metodom dinamičkog programiranja pokušati ustanoviti i objasniti energetske neravnoteže u izabranom opskrbnom lancu (Villada, Olaya, 2013; Zhang, 2016).
Statističkim testovima usporedbe točnosti modela (t-test, McNemar i drugi) omogućit će se izbor pogodnije metode za modeliranje pojedinih skupina građevinskih objekata, a također će biti predložena integracija nekoliko metoda u svrhu povećanja procjene učinkovitosti i smanjenja troškova.

Aktualnost metoda: Opisane metode koje će se koristiti u projektu aktualne su u znanstvenim časopisima, njihova uloga i utjecaj na najnovije spoznaje u raznim područjima postaju sve značajniji za otkrivanje skrivenih veza među podacima, tj. za rudarenje podataka (eng. data mining). Rudarenje podataka sve više dobiva na značaju u posljednje vrijeme razvitka Big Data koncepta, gdje je učenje iz podataka ključno za razvoj novih znanja (Raschka, 2016) u okviru inteligentne podatkovne analitike. Navedene metode omogućit će ostvarivanje ciljeva projekta i definiranje prijedloga metodološkog okvira za učinkovito upravljanje energijom u javnom sektoru.

Alati: Za provođenje opisane metodologije u projektu će se koristiti statistički softverski paketi (R, Statistica), matematički i simulacijski alati (Matematica, MathLab, Arena Simulation), te alati za BigData analitiku (IBM Watson, Tableu). Ovi alati omogućavaju kreiranje i ugradnju i novih algoritama, kao i testiranje njihovih poboljšanja u usporedbi s postojećim algoritmima. Nakon što se modeli izgrade u ovim alatima, postoji tehnička mogućnost njihove ugradnje u informacijski sustav određene institucije.