大數據挖掘
● 數據挖掘的概念
數據挖掘是釆用數據庫技術、機器學習、人工智能、模式識別、統計學、信息學、高性能計算技術、數據可視化等多個領域的科學方法,從大量數據中挖掘出隱含的、先前未知的、對決策有潛在價值的關系、模式和趨勢,并用這些知識和規則建立用于決策支持的模型,為商業智能系統服務的各業務領域提供預測性決策支持的方法、工具和過程。數據挖掘可以幫助人們從大量數據中發現潛在未知的特定模式規律,并用一種直觀容易理解的方式展示出來,從而為諸多領域提供可靠的知識、信息。
● 數據挖掘的過程
數據挖掘過程需要人機交互、反復調整、逐步實現,才能發現高質量的知識,其步驟如下:
①定義問題:劃定研究問題的范圍,給出研究使用的模型的度量和設定研究目的;
②準備數據:為研究的對象目標數據進行整理,并清除冗余數據;
③數據清洗:清除數據中的噪聲數據及與分析任務無關的數據;
④數據集成:去除各數據源的差異性,將多種數據源組合在一起;
⑤數據抽?。簭臄祿熘谐槿∨c分析任務相關的數據;
⑥數據轉換:為數據挖掘工作做準備,把數據變換和統一成適合挖掘的形式;
⑦數據挖掘:使用各種智能方法挖掘出有用的知識規律;
⑧模式評估:設定評估標準,驗證模型的可用性和性能,評估挖掘出的模式或知識;
⑨知識表示:以直觀易懂的方式,向用戶展示挖掘結果。
● 公共建筑能耗的影響因子
影響公共建筑能耗的固定因子為建筑面積、層數、外形、結構、材料等,可變因子為室外環境溫度、濕度、風速、人員密度、使用強度、使用習慣、舒適度水平、管理水平、設備使用時間、設備操作參數等。公共建筑能耗的數據挖掘,就是把這些因子作為自變量,探究這些因子對能耗的影響規律。
對公共建筑能源物聯網采集的大數據進行數據挖掘,采用Kettle數據倉庫構建工具對大數據進行數據抽取、清洗、轉換、裝載,形成適合特定挖掘目標的數據倉庫,采用的數據挖掘工具為SPSS Modeler軟件、WEKA軟件、SAS軟件、R軟件、MATLAB軟件等,采用的分析技術為關聯規則、分類預測、聚類分析、孤立點分析、決策樹、BP神經網絡、樸素貝葉斯分析、時間序列分析等技術。
● 不同公共建筑不同工況的能耗預測
對每幢公共建筑建立專屬于該建筑的能耗模型,解決不同建筑的個性因素在統一模型中對能耗預測結果的影響無法預知的問題。只要給出專屬于某個公共建筑的個性能耗模型中自變量的預期值,即可預測天氣等公共因子對該建筑能耗的影響,由此區分天氣對不同建筑的影響程度。
● 建立公共建筑的能耗標桿
由公共建筑能耗的影響因子建立的能耗模型在進行能耗預測之后,所得到的相對平穩客觀的預測值可以為建筑“應該”耗費多少能量做一個參考。如果由某個建筑的能耗預測函數算得的預期能耗比該段時間能耗測量的真實值高,則說明在一定程度上,該棟建筑做到了能耗的節約,因為實際的能耗不但沒有高于預期,還比預期少。反之,則說明按照正常的使用水平,能耗不應該高于預期水平太多,即該建筑在這段時間內,節能工作做得不夠好。
● 指導項目優化運行
采用數據挖掘技術分析項目運行數據后,能夠給出節能優化操作建議。例如,對于公共建筑的白天供熱,若用風冷熱泵機組在晚上谷電時間段生產熱水并蓄熱,熱水溫度的選擇是節能的關鍵之一,溫度過高將降低冷熱泵機組效率,溫度過低不能充分發揮谷電蓄熱的作用,通過關聯谷電蓄熱能耗與溫度的大數據,即可搜索出不同工況下的最優蓄熱溫度。能耗數據的應用不僅可診斷建筑物內的用能問題,而且還可利用能耗數據的對比來確定設備是否處在正常的運行狀態,通過關聯規則發現用戶在日常生活中的不節能行為并加以糾正。
● 指導項目局部優化改造
對公共建筑空調主機系統能耗的高位運行進行定量分析后,可提出相應的系統局部優化改造、調整操作參數等節能措施,如按實際需要選擇揚程、流量較小的水泵,這些局部改造措施僅需少量投資就能有一定的節能量提升。