隨著信息技術(shù)飛速發(fā)展,信息系統(tǒng)得到廣泛和深入的應(yīng)用,信息化建設(shè)加速發(fā)展,國家以及各行業(yè)、企業(yè)步入大數(shù)據(jù)時(shí)代。而數(shù)據(jù)作為信息化建設(shè)的核心,支撐業(yè)務(wù)的正常運(yùn)作,重要性愈加凸顯,對企業(yè)業(yè)務(wù)影響力越來越大的同時(shí),所面臨的的安全威脅和挑戰(zhàn)也越來越多。
數(shù)據(jù)安全能力建設(shè)已成為國家以及各行業(yè)、企業(yè)的工作重點(diǎn)。其中,數(shù)據(jù)采集作為數(shù)據(jù)生命周期安全管理的第一階段,對實(shí)現(xiàn)數(shù)據(jù)安全管理起到重要作用。
數(shù)據(jù)采集作為數(shù)據(jù)安全建設(shè)的第一步,需將分布在各業(yè)務(wù)系統(tǒng)中的用戶行為數(shù)據(jù)、業(yè)務(wù)支撐數(shù)據(jù)、安全事件等數(shù)據(jù)信息進(jìn)行采集、存儲(chǔ),為后續(xù)的數(shù)據(jù)審計(jì)、分析、挖掘以及安全運(yùn)營等提供數(shù)據(jù)支撐。因此,構(gòu)建以大數(shù)據(jù)技術(shù)為基礎(chǔ)的數(shù)據(jù)采集系統(tǒng)勢在必行,成為各企業(yè)的共同選擇。
明朝萬達(dá)自主研發(fā)的數(shù)據(jù)采集分析系統(tǒng)通過采集探針、采集代理在信息系統(tǒng)上集中采集分析系統(tǒng)運(yùn)行的日志、狀態(tài)、安全事件、業(yè)務(wù)系統(tǒng)數(shù)據(jù)、用戶操作行為等各類信息,經(jīng)過提取、轉(zhuǎn)換、清洗、比對、豐富、去重等規(guī)范化處理后,以統(tǒng)一格式的日志形式進(jìn)行集中存儲(chǔ)和管理。
數(shù)據(jù)采集資源層為服務(wù)器設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫以及企業(yè)內(nèi)部各類應(yīng)用服務(wù)。采集層通過探針以及代理技術(shù)對數(shù)據(jù)進(jìn)行采集,并通過相應(yīng)的協(xié)議解析技術(shù)對數(shù)據(jù)進(jìn)行初步加工,并將數(shù)據(jù)轉(zhuǎn)移日志緩沖區(qū)域進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理。通過ETL等操作,對數(shù)據(jù)進(jìn)行清洗、加工、補(bǔ)齊,最終形成標(biāo)準(zhǔn)、完整及人工可理解、解讀的數(shù)據(jù)。
數(shù)據(jù)采集資源層為服務(wù)器設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫以及企業(yè)內(nèi)部各類應(yīng)用服務(wù)。采集層通過探針以及代理技術(shù)對數(shù)據(jù)進(jìn)行采集,并通過相應(yīng)的協(xié)議解析技術(shù)對數(shù)據(jù)進(jìn)行初步加工,并將數(shù)據(jù)轉(zhuǎn)移日志緩沖區(qū)域進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理。通過ETL等操作,對數(shù)據(jù)進(jìn)行清洗、加工、補(bǔ)齊,最終形成標(biāo)準(zhǔn)、完整及人工可理解、解讀的數(shù)據(jù)。
1、數(shù)據(jù)源支持應(yīng)用系統(tǒng)、網(wǎng)絡(luò)、協(xié)議、數(shù)據(jù)庫(結(jié)構(gòu)化以及非結(jié)構(gòu)化類型數(shù)據(jù)庫)、腳本、文件等,并支持從數(shù)據(jù)隊(duì)列等大數(shù)據(jù)組件中進(jìn)行數(shù)據(jù)采集。
2、采集探針以及采集代理連接對應(yīng)的數(shù)據(jù)源,依據(jù)數(shù)據(jù)源種類不同下發(fā)對應(yīng)的采集策略,例如文件通配符、JDBC、協(xié)議采集等。采集探針支持多平臺(tái),且支持不同CPU架構(gòu)上運(yùn)行,并且控制采集探針運(yùn)行期間的資源占用。同時(shí)系統(tǒng)支持對采集探針的狀態(tài)進(jìn)行監(jiān)控管理,可感知采集速率、采集總數(shù)及發(fā)送總數(shù)。
3、采集的數(shù)據(jù)進(jìn)入數(shù)據(jù)緩沖區(qū),對數(shù)據(jù)進(jìn)行預(yù)處理,同時(shí)減少海量日志對系統(tǒng)的沖擊。數(shù)據(jù)解析規(guī)則支持樣本解析,并結(jié)合元數(shù)據(jù)管理以及數(shù)據(jù)校驗(yàn)規(guī)則對數(shù)據(jù)進(jìn)行過濾、清洗、封裝、轉(zhuǎn)換、映射以及轉(zhuǎn)義。針對數(shù)據(jù)含義不完整的場景,可選對數(shù)據(jù)通過數(shù)據(jù)埋點(diǎn)、基礎(chǔ)信息補(bǔ)全、關(guān)聯(lián)字段等進(jìn)行補(bǔ)全,為后續(xù)的業(yè)務(wù)處理提供支撐。
4、經(jīng)過完整處理后的數(shù)據(jù)進(jìn)入數(shù)據(jù)存儲(chǔ)層的日志倉庫。
大數(shù)據(jù)業(yè)務(wù)展開依賴海量數(shù)據(jù)的存儲(chǔ)能力,因此數(shù)據(jù)存儲(chǔ)層應(yīng)具備如下能力:
· 專業(yè)級數(shù)據(jù)索引引擎:海量數(shù)據(jù)的快速檢索,用于支持各類分析引擎。
· 分布式數(shù)據(jù)存儲(chǔ):高并發(fā),高可用,易擴(kuò)展。
數(shù)據(jù)存儲(chǔ)層滿足以上能力后為服務(wù)層以及引用層提供數(shù)據(jù)支持,滿足后續(xù)的檢索、審計(jì)、分析等業(yè)務(wù)場景。
隨著企業(yè)信息化發(fā)展,對信息系統(tǒng)的服務(wù)質(zhì)量有較高的要求,尤其在企業(yè)內(nèi)部業(yè)務(wù)系統(tǒng)逐漸增加,系統(tǒng)間的復(fù)雜程度也隨之增加。面對每天產(chǎn)生的海量數(shù)據(jù),企業(yè)需要建設(shè)完備的數(shù)據(jù)采集、處理系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)的可視化,并滿足合規(guī)審計(jì)要求。
通過數(shù)據(jù)采集分析系統(tǒng),管理員可監(jiān)測企業(yè)內(nèi)部系統(tǒng)的運(yùn)行情況,及時(shí)發(fā)現(xiàn)系統(tǒng)異常事件,通過事后分析和豐富的報(bào)表系統(tǒng),可以方便、高效地對信息系統(tǒng)進(jìn)行有針對性的安全審計(jì)。遇到特殊安全事件和系統(tǒng)故障,數(shù)據(jù)采集分析系統(tǒng)可以幫助管理員進(jìn)行故障快速定位,并提供客觀依據(jù)進(jìn)行追查和恢復(fù)。