大數(shù)據(jù)處理流程包含數(shù)據(jù)預(yù)處理货徙、統(tǒng)計分析左权、數(shù)據(jù)挖掘和數(shù)據(jù)質(zhì)量管理等系列環(huán)節(jié)。如下圖所示:
其中痴颊,數(shù)據(jù)預(yù)處理是對數(shù)據(jù)集進行抽樣赏迟、轉(zhuǎn)換、合并蠢棱、刪除锌杀、解析等數(shù)據(jù)預(yù)處理工作甩栈,主要是對數(shù)據(jù)格式、缺失值糕再、異常值量没、記錄、字段等進行處理突想,以便得到符合后續(xù)業(yè)務(wù)應(yīng)用殴蹄、數(shù)據(jù)統(tǒng)計和挖掘所需的高質(zhì)量數(shù)據(jù)。數(shù)據(jù)統(tǒng)計和數(shù)據(jù)挖掘是通過大數(shù)據(jù)挖掘和機器學(xué)習(xí)模型對海量數(shù)據(jù)進行挖掘和學(xué)習(xí)猾担,從而得到潛在的數(shù)據(jù)知識和規(guī)律袭灯。同時,作為數(shù)據(jù)質(zhì)量相關(guān)的工作標(biāo)準(zhǔn)和規(guī)范的管理绑嘹,也貫穿了整個數(shù)據(jù)處理的過程稽荧。
(1)數(shù)據(jù)預(yù)處理為保證入庫數(shù)據(jù)質(zhì)量和數(shù)據(jù)規(guī)范性,提高存儲和數(shù)據(jù)訪問效率工腋,為后續(xù)的統(tǒng)計分析功能提供數(shù)據(jù)基礎(chǔ)姨丈,我們將數(shù)據(jù)預(yù)處理過程分解成數(shù)據(jù)質(zhì)量校驗、清洗轉(zhuǎn)換擅腰、質(zhì)量提升三個步驟构挤,采用專家知識庫及核心算法庫,利用時間序列惕鼓、數(shù)據(jù)融合、內(nèi)存計算等技術(shù)唐础,建立數(shù)據(jù)處理模型箱歧,對海量數(shù)據(jù)進行數(shù)據(jù)清洗,生成具有一定關(guān)系和邏輯的高質(zhì)量數(shù)據(jù)一膨。
(2)數(shù)據(jù)統(tǒng)計分析呀邢。對設(shè)備運行的各種指標(biāo)進行統(tǒng)計分析,包括發(fā)電指標(biāo)統(tǒng)計豹绪、光資源指標(biāo)統(tǒng)計价淌、組件關(guān)鍵運行指標(biāo)統(tǒng)計、逆變器關(guān)鍵運行指標(biāo)統(tǒng)計瞒津、系統(tǒng)效率指標(biāo)統(tǒng)計等蝉衣,提供分類匯總、同比環(huán)比巷蚪、偏差分析病毡、排名分析等統(tǒng)計維度。主要側(cè)重點是對不同維度的數(shù)據(jù)分布情況屁柏、時間變化趨勢規(guī)律啦膜、多維度數(shù)據(jù)橫向比較等進行數(shù)據(jù)統(tǒng)計計算有送。
(3)數(shù)據(jù)挖掘。通過時間序列僧家、聚類分析雀摘、關(guān)聯(lián)算法等算法,借助支持向量機等深度學(xué)習(xí)模型八拱,挖掘歷史運行數(shù)據(jù)中的隱藏規(guī)律阵赠,為用戶提供決策支持。
(4)數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)工作的指導(dǎo)和規(guī)范文件乘粒,主要用于數(shù)據(jù)的開發(fā)豌注、管理、維護灯萍、處理和應(yīng)用的參照轧铁。根據(jù)流程將數(shù)據(jù)工作標(biāo)準(zhǔn)分為數(shù)據(jù)開發(fā)標(biāo)準(zhǔn)、數(shù)據(jù)處理標(biāo)準(zhǔn)旦棉、數(shù)據(jù)存儲標(biāo)準(zhǔn)齿风、數(shù)據(jù)建模標(biāo)準(zhǔn)和數(shù)據(jù)應(yīng)用標(biāo)準(zhǔn)。