時間:2022-03-15 03:46:51
導(dǎo)言:作為寫作愛好者,不可錯過為您精心挑選的10篇企業(yè)數(shù)據(jù)存儲方案,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。
1 引言
在電力行業(yè),堅強智能電網(wǎng)的迅速發(fā)展使信息通信技術(shù)正以前所未有的廣度、深度與電網(wǎng)生產(chǎn)、企業(yè)管理快速融合,信息通信系統(tǒng)已經(jīng)成為智能電網(wǎng)的“中樞神經(jīng)”,支撐新一代電網(wǎng)生產(chǎn)和管理發(fā)展。目前,電網(wǎng)公司已初步建成了國內(nèi)領(lǐng)先、國際一流的信息集成平臺。隨著各地集中式數(shù)據(jù)中心的陸續(xù)投運,一級部署業(yè)務(wù)應(yīng)用范圍的拓展,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中心的上線運行,電網(wǎng)業(yè)務(wù)數(shù)據(jù)從總量和種類上都已初具規(guī)模。隨著后續(xù)智能電表的逐步普及,電網(wǎng)業(yè)務(wù)數(shù)據(jù)將從時效性層面進一步豐富和拓展。電網(wǎng)業(yè)務(wù)數(shù)據(jù)將跨入海量數(shù)據(jù)時代,如何處理這些海量數(shù)據(jù)已成為電力企業(yè)信息管理首要解決的問題。而在海量數(shù)據(jù)的處理中,如何有效地保存和恢復(fù)數(shù)據(jù)就成了這些問題當中的首要問題。
2 海量數(shù)據(jù)特征
海量數(shù)據(jù)按照數(shù)據(jù)結(jié)構(gòu)來進行劃分,可以劃分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩大類。
(1)結(jié)構(gòu)化數(shù)據(jù):簡單來說就是數(shù)據(jù)庫, 即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的數(shù)據(jù)。結(jié)合到典型場景中更容易理解,比如企業(yè)ERP、財務(wù)系統(tǒng);醫(yī)療HIS數(shù)據(jù)庫;教育一卡通;政府行政審批;其他核心數(shù)據(jù)庫等
(2)非結(jié)構(gòu)化數(shù)據(jù):相對于結(jié)構(gòu)化數(shù)據(jù)而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。 非結(jié)構(gòu)化數(shù)據(jù)庫是指其字段長度可變,并且每個字段的記錄又可以由可重復(fù)或不可重復(fù)的子字段構(gòu)成的數(shù)據(jù)庫,用它不僅可以處理結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字、符號等信息)而且更適合處理非結(jié)構(gòu)化數(shù)據(jù)(全文文本、圖象、聲音、影視、超媒體等信息)
按照數(shù)據(jù)的時效性而言,海量數(shù)據(jù)又可劃分為實時數(shù)據(jù)和離線數(shù)據(jù)兩類。
實時數(shù)據(jù):實時數(shù)據(jù)一般用于金融、移動和互聯(lián)網(wǎng)B2C等產(chǎn)品,往往要求在數(shù)秒內(nèi)返回上億行數(shù)據(jù)的分析,從而達到不影響用戶體驗的目的。要滿足這樣的需求,可以采用精心設(shè)計的傳統(tǒng)關(guān)系型數(shù)據(jù)庫組成并行處理集群,或者采用一些內(nèi)存計算平臺,或者采用HDD的架構(gòu),這些無疑都需要比較高的軟硬件成本。目前比較新的海量數(shù)據(jù)實時分析工具有EMC的Greenplum、SAP的HANA等。
離線數(shù)據(jù):對于大多數(shù)反饋時間要求不是那么嚴苛的應(yīng)用,比如離線統(tǒng)計分析、機器學習、搜索引擎的反向索引計算、推薦引擎的計算等,應(yīng)采用離線分析的方式,通過數(shù)據(jù)采集工具將日志數(shù)據(jù)導(dǎo)入專用的分析平臺。但面對海量數(shù)據(jù),傳統(tǒng)的ETL工具往往徹底失效,主要原因是數(shù)據(jù)格式轉(zhuǎn)換的開銷太大,在性能上無法滿足海量數(shù)據(jù)的采集需求。互聯(lián)網(wǎng)企業(yè)的海量數(shù)據(jù)采集工具,有Facebook開源的Scribe、LinkedIn開源的Kafka、淘寶開源的Timetunnel、Hadoop的Chukwa等,均可以滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求,并將這些數(shù)據(jù)上載到Hadoop中央系統(tǒng)上。
3 企業(yè)海量數(shù)據(jù)存儲現(xiàn)狀
3.1 海量數(shù)據(jù)導(dǎo)致存儲成本、維護管理成本不斷增加
大型企業(yè)都面臨著業(yè)務(wù)和IT投入的壓力,與以往相比,系統(tǒng)的性能/價格比更加受關(guān)注。GIGA研究表明,ROI(投資回報率)越來越受到重視。海量數(shù)據(jù)使得企業(yè)因為保存大量在線數(shù)據(jù)以及數(shù)據(jù)膨脹而需要在存儲硬件上大量投資,雖然存儲設(shè)備的成本在下降,但存儲的總體成本卻在不斷增加,并且正在成為最大的一筆IT開支之一。另一方面,海量數(shù)據(jù)使DBA陷入持續(xù)的數(shù)據(jù)庫管理維護工作當中。
3.2 海量數(shù)據(jù)缺乏快速備份與災(zāi)難恢復(fù)機制
傳統(tǒng)的數(shù)據(jù)庫備份技術(shù),如通常采用的磁帶備份方式,不能運用于海量數(shù)據(jù),因為磁帶備份將使備份時間增加,需要幾小時-幾天,不僅影響了生產(chǎn),而且增加了備份的難度,使得備份/恢復(fù)變得緩慢而且不可靠,幾乎無法在固定的時間窗口完成備份工作。另外,第三方備份軟件隱含的成本代價如成本開銷、復(fù)雜度、昂貴的實施等也是企業(yè)需要考慮的。因此海量數(shù)據(jù)安全顯得異常重要,只有通過引入有效的備份、方便高效的備份恢復(fù)技術(shù),才能滿足海量數(shù)據(jù)安全的需要。
4 存儲解決方案概述
在海量數(shù)據(jù)存儲中我們主要考慮的是大數(shù)據(jù)的存儲,雖然現(xiàn)行的商業(yè)平臺也能滿足非結(jié)構(gòu)化數(shù)據(jù)的存儲,但問題主要出在系統(tǒng)可擴展性和建設(shè)費用上。對于龐大的非結(jié)構(gòu)化數(shù)據(jù)存儲產(chǎn)生的I/O瓶頸問題和昂貴的服務(wù)器價格不得不使我們另謀出路。
Hadoop的分布式文件系統(tǒng)HDFS出現(xiàn)恰好解決了商業(yè)平臺中的I/O瓶頸和服務(wù)器價格昂貴問題。Hadoop的優(yōu)勢體現(xiàn)在以下幾個方面:
(1)Hadoop依賴于低端服務(wù)器甚至是普通計算機,相對于商業(yè)平臺的高昂成本,它的成本要低得多,幾乎可以說任何人都可以使用它,哪怕是信息化成本預(yù)算較少的小微企業(yè);
(2)HDFS與Map/Reduce緊密集成是Hadoop分布式計算的存儲基石。它有自己明確的設(shè)計目標那就是支持大的數(shù)據(jù)文件大至T級,并且這些文件以順序讀取為主,以文件存/讀的高吞吐量為目標。在使用HDFS分布式文件系統(tǒng)存儲非結(jié)構(gòu)化文件后,將提高我們系統(tǒng)的存儲文件速度;
(3)HDFS的數(shù)據(jù)恢復(fù)能力也保證了系統(tǒng)的安全可靠性,可靠性體現(xiàn)在它假設(shè)計算元素和存儲會失敗,因此它維護多個工作數(shù)據(jù)副本,確保能夠針對失敗的節(jié)點重新分布處理。
(4)同時支持存儲節(jié)點的熱插拔和可以在普通PC機上存儲非結(jié)構(gòu)化文件,這不但提高了系統(tǒng)的擴展靈活性,還大大降低了企業(yè)在硬件方面的投入
5 應(yīng)用架構(gòu)
在本存儲解決方案中,我們選擇了Hadoop作為數(shù)據(jù)文件存儲機制,Hadoop中的HDFS存儲數(shù)據(jù)可以選擇普通的PC機器作為數(shù)據(jù)節(jié)點,這大大的降低了存儲數(shù)據(jù)所需要昂貴存儲設(shè)備價格,并且在數(shù)據(jù)存儲過程中,HDFS擁有很好的數(shù)據(jù)容災(zāi)機制。
6 HDFS
Hadoop的存儲主要使用HDFS來進行管理,HDFS是一個分布式文件存儲系統(tǒng)。HDFS起源于Apache Nutch Web 搜索引擎項目。
對于HDFS分布式文件系統(tǒng)中的塊進行抽象會帶來很多好處:
(1)文件的大小可以大于網(wǎng)絡(luò)中任意一個磁盤的容量,文件的所有塊不需要存儲在同一個磁盤上,因此他們可以利用集群上的任意一個磁盤進行存儲。
(2)使用塊抽象而非整個文件作為存儲單元,大大的簡化了存儲系統(tǒng)的設(shè)計。簡化是所有系統(tǒng)的目標,但對于故障種類繁多的分布式系統(tǒng)來說尤為重要。
(3)塊非常適合用于數(shù)據(jù)備份,進而提高數(shù)據(jù)容錯能力和可用性。
6.1 HDFS架構(gòu)
6.2 HDFS文件存儲方式使用大塊的原因
HDFS的塊比磁盤大,其目的是為了最小化尋址的開銷。如果塊設(shè)置的足夠大,從磁盤傳輸數(shù)據(jù)的時間可以明顯的大于定位這個塊開始位置所需的時間。這樣,傳輸一個由多個塊組成的文件的時間取決于磁盤的傳輸速率,由此可見適當?shù)脑O(shè)置磁盤塊空間大小可以加快數(shù)據(jù)讀寫效率。
6.3 HDFS的集群管理模式
HDFS集群有兩類節(jié)點,并以管理者――工作者模式運行,即一個namenode(管理者)和多個datanode(工作者)。管理者管理文件系統(tǒng)的命名空間,它維護著文件系統(tǒng)樹及整棵樹內(nèi)所有的文件和目錄。這些信息以兩個文件形式永久保存在本地磁盤上:命名空間鏡像和編輯文件日志。工作者也記錄著每個文件中各個塊所有在的數(shù)據(jù)節(jié)點信息,但它不永久保存塊的位置信息,因為這些信息會在系統(tǒng)啟動時由數(shù)據(jù)節(jié)點重建。
6.4 HDFS文件寫入方式
客戶端通過調(diào)用HDFS類DistributedFileSystem對象調(diào)用create()函數(shù)來創(chuàng)建文件,在此時文件系統(tǒng)的命名空間中創(chuàng)建了一個新文件,但該文件還沒有相應(yīng)的數(shù)據(jù)塊。管理者(namenode)執(zhí)行各種不同的檢查確保當前創(chuàng)建的文件不存在,并且客戶端有創(chuàng)建該文件的權(quán)限,如果檢查通過則創(chuàng)建新文件記錄;否則,文件創(chuàng)建失敗并拋出異常。在客戶端寫入數(shù)據(jù)時,數(shù)據(jù)被分成一個個的數(shù)據(jù)包,并寫入內(nèi)部隊列,HDFS的DataStreamer處理數(shù)據(jù)隊列,它的責任是根據(jù)工作者(datanode)的隊列列表要求管理者(namenode)分配適合的新塊來存儲數(shù)據(jù)備份。如下圖
7 實現(xiàn)功能
海量數(shù)據(jù)存儲部分主要包含了三部分的功能:數(shù)據(jù)采集、數(shù)據(jù)存儲與備份、數(shù)據(jù)分析,如圖所示:
7.1 數(shù)據(jù)采集
海量數(shù)據(jù)存儲采用開放上傳接口的方式進行被動數(shù)據(jù)采集,各業(yè)務(wù)平臺通過向上傳接口傳遞業(yè)務(wù)平臺標識、文件信息標識和文件信息的二進制流的方式將文件打包傳送到非結(jié)構(gòu)化數(shù)據(jù)管理平臺,非結(jié)構(gòu)化數(shù)據(jù)管理平臺通過業(yè)務(wù)平臺標識對傳輸過來的文件進行分類解碼存儲。
7.2 數(shù)據(jù)存儲與備份
海量數(shù)據(jù)管理在接收到各業(yè)務(wù)平臺發(fā)送過來的文件后,根據(jù)業(yè)務(wù)平臺標識在HBASE中生成文件信息數(shù)據(jù),同時將文件存儲至HBase中。
7.3 數(shù)據(jù)分析
基于已存儲的數(shù)據(jù),可以分析各業(yè)務(wù)平臺的數(shù)據(jù)量,數(shù)據(jù)高峰的周期,從而適時調(diào)整數(shù)據(jù)存儲策略,為不同的業(yè)務(wù)應(yīng)用制定不同的存儲計劃,充分體現(xiàn)系統(tǒng)存儲的靈活性,提升海量數(shù)據(jù)的存儲效率。
大數(shù)據(jù)的核心價值是如何把數(shù)據(jù)變成商業(yè)價值。
大數(shù)據(jù)存儲,可以認為是存儲廠商基于現(xiàn)有大數(shù)據(jù)應(yīng)用的特點進行優(yōu)化的解決方案。
記者不久前去香港出差,剛下飛機就收到招商銀行發(fā)來的一條短信,內(nèi)容是告之香港有哪些商場在舉辦促銷活動。不知道這是巧合,還是招商銀行利用大數(shù)據(jù)的新成果,但是可以肯定,利用大數(shù)據(jù)分析可以為客戶提供定制化的服務(wù),實現(xiàn)精準營銷。大數(shù)據(jù)正在改變企業(yè)業(yè)務(wù)模式,也讓人們的生活變得更加便利和豐富多彩。
存儲必須整合
大數(shù)據(jù)存儲是一類單獨的產(chǎn)品嗎?賽迪顧問高級分析師陳靚并不這么認為:“把大數(shù)據(jù)軟件與存儲進行整合,就稱為大數(shù)據(jù)存儲,未免有些牽強。如果非要說出大數(shù)據(jù)存儲的特征,那么我認為它至少應(yīng)該能讓大數(shù)據(jù)的‘4V’發(fā)揮出應(yīng)有的效果,滿足大數(shù)據(jù)對性能和擴展性的要求。”
“與其說大數(shù)據(jù)存儲是一類產(chǎn)品,不如說它是下一代的存儲架構(gòu)。這種架構(gòu)可以將傳統(tǒng)的DAS、SAN和NAS有效地整合起來,以滿足上層計算平臺的要求。”Forrester Research首席咨詢分析師戴昆表示,“大數(shù)據(jù)存儲本身的性能與傳統(tǒng)企業(yè)級存儲并沒有顯著差異,它主要依賴于上層計算平臺的分布式并行處理能力,但其擴展性一定要強。”
“在中國市場上,大數(shù)據(jù)應(yīng)用還沒有真正落地,許多用戶談的還是BI(商業(yè)智能)。而從國外的實踐看,BI只是大數(shù)據(jù)的一部分,屬于大數(shù)據(jù)的起步階段,真正的大數(shù)據(jù)應(yīng)用是近實時或?qū)崟r的數(shù)據(jù)分析。”中橋調(diào)研咨詢首席分析師王叢告訴記者,“計算、存儲、網(wǎng)絡(luò)等都與大數(shù)據(jù)的價值有關(guān)。大數(shù)據(jù)存儲并不是一類單獨的產(chǎn)品,它也可以通過類似公有云或私有云的方式提供給用戶。應(yīng)用和數(shù)據(jù)量的增加,對數(shù)據(jù)的存取提出了更高要求。因此,并行存儲能力的增強對大數(shù)據(jù)存儲來說非常重要。”
EMC Isilon存儲事業(yè)部總經(jīng)理楊蘭江表示,大數(shù)據(jù)存儲有很多實現(xiàn)方式,不過它應(yīng)具備以下特性:海量數(shù)據(jù)存儲能力、全局命名空間、支持標準接口、讀寫性能優(yōu)異、易于管理維護、基于開放架構(gòu)、多級數(shù)據(jù)冗余、多級存儲備份等。
“存儲產(chǎn)品并不像網(wǎng)絡(luò)產(chǎn)品那樣有嚴格的界線,因此很難將大數(shù)據(jù)存儲單獨劃分出來。其實,大數(shù)據(jù)存儲并不是只有分布式存儲這一種方式,傳統(tǒng)的存儲也可以成為大數(shù)據(jù)存儲解決方案的一部分。”華為存儲產(chǎn)品線市場總監(jiān)經(jīng)寧解釋說,“華為將大數(shù)據(jù)存儲當成相對獨立的一類產(chǎn)品,主要是從產(chǎn)品的主定位角度考慮的。華為有針對企業(yè)級應(yīng)用的高端存儲,也有針對中小型用戶的通用存儲,當然還有專門為大數(shù)據(jù)優(yōu)化的分布式、可橫向擴展的大數(shù)據(jù)存儲。”
目前,業(yè)內(nèi)并沒有關(guān)于大數(shù)據(jù)存儲產(chǎn)品的通用定義,但是綜合考慮廠商的產(chǎn)品以及用戶的需求,可以簡單概括出大數(shù)據(jù)存儲的特征:首先,大數(shù)據(jù)存儲必須能夠支持全類型數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)統(tǒng)一數(shù)據(jù)支持;其次,在保證可靠性的基礎(chǔ)之上,大數(shù)據(jù)存儲必須具備線性擴展能力,同時還要具有很強的批處理和實時處理能力;最后,在系統(tǒng)達到一定規(guī)模后,大數(shù)據(jù)存儲平臺的易用性和可管理性也是不可或缺的。
在大數(shù)據(jù)處理過程中,用戶發(fā)現(xiàn)性能的瓶頸并不在計算層面,而在于海量數(shù)據(jù)的上傳和下載。因此,極高的數(shù)據(jù)加載速率是大數(shù)據(jù)存儲必須具備的特性。大數(shù)據(jù)解決方案通常包含數(shù)據(jù)存儲、計算及分析,存儲是大數(shù)據(jù)基礎(chǔ)架構(gòu)中的一部分。
凸顯高性能、可擴展
對中國用戶來說,大數(shù)據(jù)應(yīng)用落地的關(guān)鍵是如何更好地讓企業(yè)的IT決策者和架構(gòu)師理解業(yè)務(wù)需求,建立適合企業(yè)業(yè)務(wù)特點的數(shù)據(jù)應(yīng)用場景和數(shù)據(jù)管理架構(gòu),更好地利用企業(yè)現(xiàn)有的數(shù)據(jù)資產(chǎn),而非盲目地進行所謂的大數(shù)據(jù)投資。“用戶首先要考慮的是什么樣的大數(shù)據(jù)應(yīng)用才能為企業(yè)帶來合理產(chǎn)出,其次再考慮大數(shù)據(jù)平臺和存儲,切勿本末倒置。”戴昆表示。
賽迪顧問的研究發(fā)現(xiàn),中國使用大數(shù)據(jù)存儲比較多的行業(yè)是電信、互聯(lián)網(wǎng)、金融等,其他行業(yè)大多還在觀望及測試中。中國用戶對于大數(shù)據(jù)存儲的需求首先是可靠和穩(wěn)定,金融行業(yè)的用戶非常重視這一點;互聯(lián)網(wǎng)用戶則要求大數(shù)據(jù)存儲具有很高的I/O吞吐能力;電信行業(yè)的客戶更青睞高性價比的大數(shù)據(jù)存儲設(shè)備。
中國惠普有限公司企業(yè)集團存儲產(chǎn)品部存儲架構(gòu)師張楠表示,很多中國用戶會追求大容量和高性能,忽略了大數(shù)據(jù)存儲本身應(yīng)該具有的其他屬性,這讓用戶在實際應(yīng)用中很容易遇到一些障礙,比如無法將存儲與大數(shù)據(jù)平臺進行對接,無法在業(yè)務(wù)中充分發(fā)揮大數(shù)據(jù)存儲的價值等。究其原因,主要障礙在于有些大數(shù)據(jù)存儲產(chǎn)品沒有開放的接口協(xié)議, 沒有針對用戶的大數(shù)據(jù)應(yīng)用場景進行特別優(yōu)化, 沒有提供用戶容易接受的易用管理方式等。
存儲的高可擴展性、高可用性和并行處理能力是企業(yè)評估大數(shù)據(jù)存儲最重要的三個因素。高可擴展性可以確保企業(yè)的IT能夠隨著數(shù)據(jù)量的增長和性能需求的提高進行擴展;高可用性能夠保證大數(shù)據(jù)分析過程的平穩(wěn)和無間斷運行;高并行處理能力則能夠確保在大數(shù)據(jù)處理過程中同時進行更多數(shù)據(jù)的處理,高效地完成數(shù)據(jù)分析,同時縮短產(chǎn)品或技術(shù)的上市周期。低延遲、自動分層存儲以及對10GbE網(wǎng)絡(luò)的支持等也是用戶評估大數(shù)據(jù)存儲的重要考核因素。
“如何管理好大數(shù)據(jù)真的是一個大問題。從IT的角度看,我們還缺乏能夠展現(xiàn)數(shù)據(jù)價值的行之有效的手段。數(shù)據(jù)作為一種資產(chǎn),如何被長期、高效、經(jīng)濟地保存也是一個問題。”華為海量存儲產(chǎn)品線總經(jīng)理袁遠表示,“大數(shù)據(jù)提出了一個新的方法論——以數(shù)據(jù)為中心,而不是以應(yīng)用為中心。以數(shù)據(jù)為中心,就要考慮數(shù)據(jù)的來源,如何以更低的成本存儲和管理數(shù)據(jù),誰有權(quán)利獲得哪些數(shù)據(jù),對數(shù)據(jù)進行分析前必須進行模型化的抽象等。大數(shù)據(jù)需要新的工具、新的管理思路和方法,同時還要對技術(shù)架構(gòu)進行創(chuàng)新。”
歐洲核子研究中心(CERN)創(chuàng)建的OpenLAB旨在通過部署全球領(lǐng)先的IT系統(tǒng)和解決方案,將全球大型強子對撞機(LHC)行業(yè)的資源、研究成果匯集在一起。持續(xù)快速增長的海量科研數(shù)據(jù)對CERN的存儲系統(tǒng)在可擴展性、可靠性等方面提出了嚴峻挑戰(zhàn),這也促使CERN開始評估新的存儲技術(shù)。最終,CERN選擇了華為UDS云存儲系統(tǒng),并在三個月內(nèi)完成了安裝調(diào)測和基準性能的評估。測試結(jié)果顯示,UDS創(chuàng)新的軟硬件和系統(tǒng)非常適合海量數(shù)據(jù)存儲的業(yè)務(wù)要求,這讓CERN可以在未來輕松應(yīng)對EB級數(shù)據(jù)量的挑戰(zhàn)。
談到華為大數(shù)據(jù)存儲解決方案的特色,經(jīng)寧概括說:“我們能更好地把握大數(shù)據(jù)的本質(zhì)需求,并依靠自主研發(fā)能力,在IT架構(gòu)上實現(xiàn)創(chuàng)新,將計算與存儲進行有機結(jié)合。我們還基于自己的大數(shù)據(jù)存儲平臺,提供了多種類型的接口,便于與應(yīng)用銜接。”從產(chǎn)品研發(fā)的角度看,華為將重點放在了軟件方面,硬件則采用了開放的標準化的存儲服務(wù)器架構(gòu)。在2013年華為云計算大會上,華為與中央電視臺正式簽署合作協(xié)議,在大數(shù)據(jù)存儲領(lǐng)域建立戰(zhàn)略合作關(guān)系,為媒資行業(yè)提供領(lǐng)先的技術(shù)和應(yīng)用模式。雙方計劃聯(lián)合開發(fā)自適應(yīng)、深度節(jié)能的高密度、大容量的媒資存儲系統(tǒng)。
面對大數(shù)據(jù)的需求,存儲永遠不變的是對數(shù)據(jù)可靠性、性能、可擴展性和效率的追求,而有可能發(fā)生改變的是為了提高效率、節(jié)省消耗,存儲可以變得更加靈活,也可以考慮與計算進行融合等。不管存儲如何變化,用戶對高性價比的需求始終不變。
數(shù)據(jù)收集和存儲是大數(shù)據(jù)分析的第一個環(huán)節(jié)。在大數(shù)據(jù)時代,應(yīng)用數(shù)量、數(shù)據(jù)量和使用者數(shù)量的增長,對存儲IOPS以及OLTP和OLAP的要求越來越高,具體表現(xiàn)在現(xiàn)有的存儲已不能滿足業(yè)務(wù)關(guān)鍵型應(yīng)用的需求。中橋調(diào)研咨詢針對中國用戶的調(diào)研數(shù)據(jù)顯示,F(xiàn)C SAN仍是企業(yè)級用戶(42.1%)和中型企業(yè)(34.0%)的首選,遠高于其他存儲類型的占比。這是因為FC SAN對OLTP和OLAP的性能穩(wěn)定性優(yōu)于其他存儲技術(shù)。這一調(diào)查結(jié)果也顯示,目前中國用戶大多處于大數(shù)據(jù)分析的第一階段,其工作以存儲和IT架構(gòu)的整合和優(yōu)化為主。王叢分析說,隨著Hadoop和MapReduce的不斷普及,中國用戶將逐步進入近實時和實時分析階段,節(jié)點式存儲的占比會隨之增加。
打通行業(yè)價值鏈
華為的金字塔型“4V”理論具體來說,第一步,要建立一個高效的存儲架構(gòu)平臺,它既能處理大量的小文件,也能處理單體較大的文件。第二步,這個存儲平臺要具備極高的處理性能。第三步,這個存儲平臺要能處理多樣化的數(shù)據(jù),包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。只有通過前面三步打下的基礎(chǔ),企業(yè)用戶才能進入最后一步,在一個高效的專門為大數(shù)據(jù)構(gòu)建和優(yōu)化的平臺上進行數(shù)據(jù)分析和挖掘,并最終獲得所需的價值。
經(jīng)寧表示:“如果仔細甄別,大數(shù)據(jù)與海量數(shù)據(jù)還是有差別的,畢竟大數(shù)據(jù)不僅僅是指數(shù)據(jù)量大,還包括處理、分析和挖掘等過程。從表面上看,大數(shù)據(jù)的‘4V’特征是并列的關(guān)系,但實際上這些因素之間還是有層次性的。我們提出的大數(shù)據(jù)金字塔模型,可以更好展現(xiàn)大數(shù)據(jù)價值的實現(xiàn)過程。”
華為倡導(dǎo)構(gòu)建高效的大數(shù)據(jù)存儲平臺,而其中的高效又是如何來衡量的呢?高效的第一個衡量指標就是性能。性能是大數(shù)據(jù)存儲平臺的基石之一,沒有性能的保證,大數(shù)據(jù)系統(tǒng)無異于空中樓閣。其次,大數(shù)據(jù)強調(diào)的是簡化使用,提高效率。最后,高效的大數(shù)據(jù)存儲平臺應(yīng)該采用融合的技術(shù)架構(gòu)。以華為OceanStor 9000大數(shù)據(jù)存儲系統(tǒng)為例,它采用華為首創(chuàng)的全融合創(chuàng)新架構(gòu),可以實現(xiàn)存儲、分析和歸檔的融合,同時具有很強的橫向擴展能力,最大可擴展至288節(jié)點,單一文件系統(tǒng)可支持40PB容量。分析功能是指OceanStor 9000中內(nèi)置了分布式數(shù)據(jù)庫,能完成數(shù)據(jù)的快速檢索和查詢,以支持上層應(yīng)用。
華為一直堅持“被集成”的策略,這在大數(shù)據(jù)領(lǐng)域同樣適用。華為的大數(shù)據(jù)存儲平臺可以提供開放的接口,方便與BI軟件和應(yīng)用軟件連接,進一步提高查詢效率。在OceanStor 9000這樣的融合平臺之上,用戶還可以根據(jù)業(yè)務(wù)的情況靈活添加相關(guān)的功能模塊。“在大數(shù)據(jù)方面,我們主要從垂直行業(yè)切入,與行業(yè)ISV緊密合作,為金融、電信運營商、媒體、智慧城市、石油勘探等領(lǐng)域的用戶提供端到端的大數(shù)據(jù)存儲解決方案。”經(jīng)寧說,“雖然我們已在大數(shù)據(jù)存儲市場上取得了豐碩的成果,但是我們更看好大數(shù)據(jù)存儲市場未來的潛力,因為其增長速度遠高于傳統(tǒng)存儲市場。”
產(chǎn)生這一變革需求的原因除了市場需求因素之外,陸續(xù)出現(xiàn)的一些困擾數(shù)據(jù)存儲行業(yè)發(fā)展的因素也是重要原因。在過去,由于用戶對存儲應(yīng)用需求的復(fù)雜性和個性化,具備整體解決方案能力的廠商占據(jù)了明顯的市場優(yōu)勢,打造整體解決方案能力也就成為存儲業(yè)界競爭的焦點。但在網(wǎng)絡(luò)信息化的新尋求之下,過去那些具備獨特優(yōu)勢的廠商很難在“存儲設(shè)備+網(wǎng)絡(luò)服務(wù)器+軟件+服務(wù)支持”的整體解決方案框架下提出整體解決方案。其中,高額的成本是最重要的原因。對于很多具有突出專業(yè)優(yōu)勢的企業(yè)來講,通過尋求合作降低成本似乎成為惟一的途徑。
中國存儲市場很長時期以來是電信、金融行業(yè)的重點服務(wù)對象,其采購量占據(jù)了2/3以上。但自2002年開始,更多的行業(yè)涉足存儲應(yīng)用,而且從應(yīng)用的范圍看,不僅僅限于傳統(tǒng)的備份和容災(zāi),在廣度和深度上有更多延伸,如廣電的媒體多級存儲,監(jiān)控的視頻圖像存儲,氣象、石油和航天的海量數(shù)據(jù)存儲等。而且,隨著各企業(yè)單位對業(yè)務(wù)數(shù)據(jù)保護意識的加強,中小數(shù)據(jù)規(guī)模的用戶,如政府、軍隊、教育、商業(yè)、制造業(yè)和中小企業(yè)等也開始加大了在存儲方面的投入。據(jù)CCID預(yù)測,從2004年開始,五年內(nèi)中國存儲市場會以10%一20%的年增長率遞增。2004~2008年中國外部磁盤存儲系統(tǒng)市場銷售量將以64,4%的年復(fù)合增長率快速增長。到2008年,外部磁盤存儲系統(tǒng)銷售額及銷售量分別達到103.3億元人民幣和82436.4TB,存儲軟件2007年的銷售額將接近25億元。
雖然市場的細分帶來了更多的機會,但同樣也使得競爭變得更加激烈。事實上,在數(shù)據(jù)存儲“存儲設(shè)備+網(wǎng)絡(luò)服務(wù)器+軟件+服務(wù)支持”這條產(chǎn)業(yè)鏈上,并不都是很容易切人的。
云存儲可以充分利用現(xiàn)有硬件的存儲能力,分布計算,提高存儲能力,云存儲分為公有云存儲和私有云存儲,對企業(yè)客戶來說,使用公有云存儲最大的顧慮是數(shù)據(jù)安全,但是私有云存儲就能很好的解決這個問題。
實體存儲是存儲行業(yè)的大趨勢,主要原因是非結(jié)構(gòu)化數(shù)據(jù)的飛速增長或傳統(tǒng)數(shù)據(jù)存儲的局限性。在選擇私有云儲存時要考慮云存儲的技術(shù)實現(xiàn),選擇基于實體存儲解決方案的產(chǎn)品。這里以企業(yè)云盤為例,介紹企業(yè)在文檔和數(shù)據(jù)存儲方面的管理。
在技術(shù)解決方案上,企業(yè)云盤一般分三層,最底層是硬件資源和云管理平臺,充分利用公司現(xiàn)有的存儲硬件。中間一層是云存儲核心部分,實現(xiàn)云存儲的數(shù)據(jù)管理,基于實體存儲的設(shè)計思路,突破操作系統(tǒng)對文件管理的局限性。商務(wù)邏輯為企業(yè)用戶定制,含企業(yè)特有的模塊和功能。最上面的一層是應(yīng)用層,榮之聯(lián)提供不同終端的軟件供用戶安裝,終端軟件和云存儲對接,做數(shù)據(jù)交換。對員工而言,終端軟件就是企業(yè)云盤。
那站在企業(yè)的角度來看,運用企業(yè)云盤這種私有云存儲能給企業(yè)帶來怎樣的好處了呢?
1.數(shù)據(jù)更加安全高效:私有云存儲是部署在公司的防火墻內(nèi),受公司的安全機制管制,還能輕松管理每個員工的讀寫權(quán)限。同時文件分享可以讓員工在無VPN的情況下讀寫文檔,公司內(nèi)部無需安裝文件服務(wù)器,而且企業(yè)云盤擁有去重的功能,對硬件資源的利用更充分,大大減少硬件資源的浪費。還能支持各移動終端進行移動辦公,無須擔心數(shù)據(jù)同步問題。
2.文檔分享、搜索更快捷:群組概念提供更靈活的分享途徑。員工可以創(chuàng)建項目組、興趣組、部門組、公司組。群組的概念讓文件分享更加有針對性。企業(yè)文檔被集中管理,員工可以在創(chuàng)建的不同層面上做搜索。
3.更優(yōu)的用戶體驗:企業(yè)云盤和用戶的電腦無縫集成。用戶無需改變使用習慣就可以充分享受云存儲的好處。備份,同步自動在后臺進行,優(yōu)化的算法也充分利用網(wǎng)絡(luò)帶寬。用戶也可自設(shè)上傳下載的速率。同時榮之聯(lián)創(chuàng)新的分布式部署極大降低對帶寬的要求。用戶的數(shù)據(jù)首先是存放到最近的服務(wù)器,讀寫更快捷。
4.審計和版本管理:云盤自帶審計和版本管理功能,可以輕松地恢復(fù)到以前的版本。
5.API 支持:企業(yè)云盤可以部署為云存儲。企業(yè)內(nèi)部的應(yīng)用可以直接調(diào)用云存儲的API來讀寫數(shù)據(jù)。是真正意義上的企業(yè)私有實體存儲(Object Storage) 。
現(xiàn)階段我國常見的XBRI數(shù)據(jù)存儲方式主要包括:文件系統(tǒng)存儲、關(guān)系數(shù)據(jù)庫存儲、原生數(shù)據(jù)庫存儲。目前運用最為廣泛的XBRL數(shù)據(jù)存儲方式是以關(guān)系數(shù)據(jù)庫存儲XBRL文檔,可以分為CLOB字段存入關(guān)系數(shù)據(jù)庫和拆分方式存入關(guān)系數(shù)據(jù)庫,其中以拆分方式存入關(guān)系數(shù)據(jù)庫最為常見。以拆分方式存入即將XBRL文檔分解映射到關(guān)系數(shù)據(jù)庫的多張關(guān)系型表中。采用該種方式保證了數(shù)據(jù)的安全性和完整性,且易于數(shù)據(jù)查詢、挖掘和數(shù)據(jù)的深加工,是目前廣泛應(yīng)用的XBRL數(shù)據(jù)存儲方案。但此種方式也存在弊端:一是難以映射復(fù)雜的XBRL實例文檔,且其維護極其復(fù)雜。二是對于XBRL文檔完整性的體現(xiàn)蕩然無存。三是這種分解的方式會耗費數(shù)據(jù)庫服務(wù)器的大量CPU和內(nèi)存資源。四是這種方式破壞XBRL文檔內(nèi)部的關(guān)聯(lián)關(guān)系,容易造成XBRL數(shù)據(jù)失真。盡管以關(guān)系數(shù)據(jù)庫存儲技術(shù)進行XBRL數(shù)據(jù)存儲的存儲方案,在目前市場上有著堅實的地位和強大的軟件支持,然而因信息管理技術(shù)不斷進步而涌現(xiàn)的諸多問題,將會是關(guān)系型數(shù)據(jù)庫所不能承受的生命之重。
二、新一代XBRL數(shù)據(jù)存儲方式――混合數(shù)據(jù)庫存儲
在關(guān)系型數(shù)據(jù)庫所主宰的堅固世界正在逼近變革的臨界點上,根據(jù)“螺旋式”上升的法則,混合型數(shù)據(jù)庫孕育而生。本文擬將基于混合數(shù)據(jù)庫,就一個商品銷售信息的存儲為例,從下述方面來探討混合數(shù)據(jù)庫存儲技術(shù)所具備的優(yōu)質(zhì)功能特性。(1)邏輯存儲。創(chuàng)建同時包含傳統(tǒng)SQL數(shù)據(jù)類型列和新的XBRL數(shù)據(jù)類型列的表。列表沒有制定XML數(shù)據(jù)的內(nèi)部結(jié)構(gòu),原因是XBRL文檔是自我描述的,混合型數(shù)據(jù)庫對XBRL數(shù)據(jù)存儲時,只需驗證其是否符合XBRL分類標準及規(guī)范。這種寬松的方式給用戶提供了很強的靈活性,更容易存儲包含不同屬性和內(nèi)部結(jié)構(gòu)的XBRL文檔集合,從而保證了XBRL數(shù)據(jù)的完整性與準確性。(2)物理存儲。以樹和節(jié)點作為模型來存儲和處理XBRL數(shù)據(jù),采用經(jīng)過解析的格式來反映原始XBRL文檔的層次結(jié)構(gòu),混合型數(shù)據(jù)庫將用模式類型信息對XML層次結(jié)構(gòu)中的所有節(jié)點進行標注,從而保證了XBRL數(shù)據(jù)的內(nèi)部網(wǎng)狀關(guān)聯(lián)以及XBRL數(shù)據(jù)的層次性、多維度性。(3)索引。采用的是SQL DDL語句創(chuàng)建XBRL索引。該索引方式顯著提高了數(shù)據(jù)庫查詢和應(yīng)用程序的性能,減少為返回查詢結(jié)果集而必須讀取的數(shù)據(jù)量,同時具有標示性,可以確保數(shù)據(jù)的準確性。(4)查詢語言。程序員可以使用SQL或XQuery搜索數(shù)據(jù),應(yīng)用程序可以自由地使用這兩種語言的語句,而且一個查詢語句可以結(jié)合使用SQL和XQuery。此外,混合型數(shù)據(jù)庫有兩個查詢語言分析器:一個用于XQuery,另一個用于SQL。這兩種語言編寫的查詢都能高效地重寫查詢操作符以及選擇低成本的數(shù)據(jù)訪問計劃。
混合數(shù)據(jù)庫的核心價值體現(xiàn)在,能將關(guān)系性數(shù)據(jù)庫引擎和XML數(shù)據(jù)庫引擎連接起來,采用“雙核”引擎機制,除了支持表數(shù)據(jù)模型之外,還支持XML文檔的層次化數(shù)據(jù)模型,使用戶能夠同時管理好兩部分的數(shù)據(jù)內(nèi)容。同時,使用SQL和XQuery來查詢和處理這兩種形式的數(shù)據(jù),既保留了關(guān)系型數(shù)據(jù)庫的優(yōu)勢,又融入了XML對復(fù)雜數(shù)據(jù)管理的層次性、靈活性。因此,可以得出結(jié)論,采用混合數(shù)據(jù)庫技術(shù)進行XBRL數(shù)據(jù)存儲,是一種最為理想的XBRL數(shù)據(jù)存儲方案,將成為企業(yè)XBRL財務(wù)信息集成管理體系運用的核心關(guān)鍵技術(shù)。
三、企業(yè)級XBRL財務(wù)信息管理體系架構(gòu)
該企業(yè)有2個廠區(qū),其間通過光纖直連,廠區(qū)間直線距離3km。東廠區(qū)機房提供核心網(wǎng)絡(luò)支撐,運行核心ERP系統(tǒng)和PLM全生命周期管理(設(shè)計圖紙管理)系統(tǒng),采用存儲陣列提供數(shù)據(jù)存儲,其他業(yè)務(wù)系統(tǒng)有CAPP等,采用服務(wù)器自帶的存儲空間存儲數(shù)據(jù);目前,西廠區(qū)機房運行視頻監(jiān)控、辦公自動化和黨建系統(tǒng)等非核心業(yè)務(wù)系統(tǒng),現(xiàn)有設(shè)備使用時間較久。
1.2需求分析
目前,該企業(yè)業(yè)務(wù)系統(tǒng)管理方式較為簡單,需要通過存儲備份技術(shù)提供整理的數(shù)據(jù)管理提升數(shù)據(jù)的可靠性、可用性,實現(xiàn)存儲資源的容量增加和性能擴展,同時,通過備份系統(tǒng)實現(xiàn)對現(xiàn)有存儲環(huán)境數(shù)據(jù)的備份管理,確保數(shù)據(jù)的安全和可恢復(fù)。具體目標包括以下5點:①滿足業(yè)務(wù)系統(tǒng)增長的數(shù)據(jù)存儲要求;②解決數(shù)據(jù)無法統(tǒng)一規(guī)劃、分配、管理和性能調(diào)優(yōu),且存儲性能相對較低的問題;③集中的統(tǒng)一存儲系統(tǒng),可使成本降至最低;④解決數(shù)據(jù)分散存儲問題,這樣會增加管理成本;⑤對個人電腦上的重要數(shù)據(jù)進行集中存儲管理。
1.3建設(shè)目標
通過整體建設(shè)考慮,主要建設(shè)目標可分為2步實現(xiàn):①數(shù)據(jù)存儲建設(shè)。建設(shè)基于存儲備份平臺的存儲系統(tǒng),將分散、獨立的各個平臺業(yè)務(wù)系統(tǒng)組成一個高速存儲的SAN網(wǎng)絡(luò),集中管理降低了存儲資源管理的復(fù)雜性。同時,為個人重要數(shù)據(jù)提供了集中數(shù)據(jù)存儲業(yè)務(wù),避免了因電腦損壞或因其他原因?qū)е碌臄?shù)據(jù)丟失。②備份系統(tǒng)建設(shè)。通過帶有重復(fù)數(shù)據(jù)刪除技術(shù)的虛擬帶庫結(jié)合備份軟件進行備份系統(tǒng)建設(shè),可確保ERP、PLM等核心業(yè)務(wù)數(shù)據(jù)的安全、可靠,同時,可長期保存該數(shù)據(jù),且數(shù)據(jù)可恢復(fù)。
2存儲備份系統(tǒng)的設(shè)計方案
2.1數(shù)據(jù)平臺基礎(chǔ)的架構(gòu)設(shè)計
根據(jù)數(shù)據(jù)存儲備份的需求分析進行數(shù)據(jù)存儲系統(tǒng)的架構(gòu)設(shè)計。從目前業(yè)務(wù)系統(tǒng)的實際情況和未來業(yè)務(wù)系統(tǒng)的建設(shè)規(guī)劃看,整個核心業(yè)務(wù)系統(tǒng)中數(shù)據(jù)訪問模式以數(shù)據(jù)塊訪問為主。基于此情況,存儲備份系統(tǒng)的基本架構(gòu)應(yīng)為SAN架構(gòu)。
2.1.1SAN架構(gòu)
存儲區(qū)域網(wǎng)絡(luò)(StorageAreaNetwork)是高性能的網(wǎng)絡(luò),其主要目的是使存儲設(shè)備與計算機系統(tǒng)連接并通信。在進行SAN架構(gòu)設(shè)計時,應(yīng)從以下幾方面考慮。
2.1.2性能
作為整個信息基礎(chǔ)架構(gòu)的核心基礎(chǔ)架構(gòu),SAN架構(gòu)應(yīng)能滿足多業(yè)務(wù)、大并發(fā)時的性能需求,因此,在設(shè)計SAN架構(gòu)時應(yīng)考慮具備高性能,同時,能支撐多業(yè)務(wù)并訪問的存儲系統(tǒng)。
2.1.3可靠性
可靠性是存儲系統(tǒng)的必須具備的條件,應(yīng)提供“99.999%”的可靠性,所有關(guān)鍵的部件都應(yīng)是冗余配置。從數(shù)據(jù)保護的角度看,不同的RAID保護機制應(yīng)可混合使用,以為不同的業(yè)務(wù)系統(tǒng)提供相應(yīng)的數(shù)據(jù)保護機制。SAN網(wǎng)絡(luò)系統(tǒng)至少應(yīng)配置2臺光纖交換機,以保證數(shù)據(jù)訪問鏈路是冗余的。
2.1.4可擴展性
好的信息基礎(chǔ)架構(gòu)必須能提供足夠的擴展能力,其中,包括性能的擴展、功能的擴展和規(guī)模的擴展等。NAS架構(gòu)是指網(wǎng)絡(luò)附加存儲(NetworkAttachedStorage),是連接到網(wǎng)絡(luò)并提供文件訪問服務(wù)的存儲系統(tǒng)。
2.2數(shù)據(jù)存儲方案和邏輯架構(gòu)
在該企業(yè)的業(yè)務(wù)系統(tǒng)中,考慮建立以SAN+NAS為核心的存儲系統(tǒng)。考慮未來可能會有新的業(yè)務(wù)系統(tǒng)增加到現(xiàn)有環(huán)境中,因此,需要構(gòu)建穩(wěn)定、靈活的存儲體系。系統(tǒng)具體包括以下6部分:①光纖交換機。作為核心鏈接節(jié)點存在,東、西區(qū)機房都要求有2臺冗余配置。②光纖。實現(xiàn)容災(zāi)端的連接,連接備份設(shè)備,光纖要求有2條冗余設(shè)計。③核心存儲陣列。作為集中存儲、管理的中心存在,滿足數(shù)據(jù)增長的需要。④其他存儲陣列。其性能較差、容量較小,作為二級存儲設(shè)備存儲存在。⑤備份服務(wù)器。安裝備份軟件,配置備份策略。⑥備份設(shè)備。支持消重技術(shù),保障數(shù)據(jù)的長期儲存。
2.2.1方案描述
SAN存儲空間通過2臺FCSAN交換機提供冗余互聯(lián)。SAN存儲空間供原有業(yè)務(wù)系統(tǒng)數(shù)據(jù)存儲,比如將EPR、PLM系統(tǒng)數(shù)據(jù)遷移到新購的存儲設(shè)備上,通過新存儲優(yōu)秀的性能,可提高原有業(yè)務(wù)系統(tǒng)的性能和存儲空間;NAS存儲空間主要用于個人PC數(shù)據(jù)資料的統(tǒng)一集中管理,確保數(shù)據(jù)不因個人電腦故障而丟失。
2.2.2磁盤規(guī)劃
在本次配置中,考慮根據(jù)需求選用SAS磁盤,配置40塊10000轉(zhuǎn)的600GBSAS磁盤提供數(shù)據(jù)存儲能力,這樣既能保證關(guān)鍵業(yè)務(wù)的快速響應(yīng),也能確保最優(yōu)的性價比。
2.3數(shù)據(jù)備份方案
硬件采用虛擬磁帶庫設(shè)備接入SAN網(wǎng)絡(luò)作為備份設(shè)備。此外,采用備份軟件可實現(xiàn)對所有備份主機系統(tǒng)的備份管理。以下針對不同的業(yè)務(wù)類型展開備份策略設(shè)計。
2.3.1數(shù)據(jù)庫類數(shù)據(jù)備份每周1次全備份,本周內(nèi)其他時間每天進行1次增量備份,備份數(shù)據(jù)保留6個月。
2.3.2應(yīng)用程序類數(shù)據(jù)備份每月進行1次全備份,備份數(shù)據(jù)保存3個月。
2.3.3配置文件類數(shù)據(jù)備份每月進行1次全備份,備份數(shù)據(jù)保存3個月。
當前,供電企業(yè)個人或部門的數(shù)據(jù),例如文本、圖片、歸檔數(shù)據(jù)、各種格式的文件等等,數(shù)據(jù)量呈現(xiàn)海量的增長,面臨如下問題:
1、個人存儲空間不足。供電企業(yè)個人PC設(shè)備,使用年限一般為5-7年,部分機型較老較舊,配置較低。主要的存儲設(shè)備為硬盤,空間在多年的存儲使用下已出現(xiàn)嚴重不足,普遍無法適應(yīng)新增數(shù)據(jù)存儲的需求。
2、數(shù)據(jù)交互共享難。當前,個人用戶之間,部門之間,需要及時共享的數(shù)據(jù)容量越來越大,通過傳統(tǒng)的使用U盤、移動硬盤、FTP來中轉(zhuǎn)拷貝數(shù)據(jù)的方式,已越來越不適應(yīng)當前的需要,存在著病毒感染、丟失等安全隱患。
針對以上兩種情況,本文通過架設(shè)私有云存儲服務(wù)器的方式來解決數(shù)據(jù)存儲和共享方面的問題,為供電企業(yè)數(shù)據(jù)存儲提供新的思路和解決方案。
一、項目實現(xiàn)功能
從應(yīng)用場景上,我們的方案包括如下主要內(nèi)容:1、文件存儲(為每個用戶提供10G以上的存儲空間);2、數(shù)據(jù)同步(通過云存儲提供的數(shù)據(jù)同步功能,實現(xiàn)員工數(shù)據(jù)的多終端同步);3、桌面數(shù)據(jù)備份(通過云存儲提供的數(shù)據(jù)備份功能,實現(xiàn)電腦中的數(shù)據(jù)的自動備份,支持文件級差異化備份機制);4、文檔內(nèi)容(通過云存儲提供的數(shù)據(jù)自動分發(fā)功能,可將企業(yè)內(nèi)部公告、通訊錄等文檔或電子表格快速地分發(fā)給指定的員工或部門,或通過外鏈地址(U RL)嵌入到郵件等);5、文檔快速匯總(通過云存儲提供的數(shù)據(jù)自動匯總功能,可以實現(xiàn)快速將員工本地文件自動匯總到云存儲的指定位置中);6、群組或部門工作區(qū)(可按需要建立群組或部門工作區(qū),用于團隊協(xié)作,協(xié)同辦公,并支持文件多版本及文件鎖機制,提升多人協(xié)同辦公的效率)。
二、項目實施方案
2.1系統(tǒng)架構(gòu)設(shè)計圖
如圖1。
2.2主要功能模塊
1、負載均衡模塊(LVS):負載均衡模塊建立在所有應(yīng)用結(jié)構(gòu)之上,它提供了一種有效透明的方法擴展網(wǎng)絡(luò)設(shè)備和服務(wù)器的帶寬、增加吞吐量、加強網(wǎng)絡(luò)數(shù)據(jù)處理能力、提高網(wǎng)絡(luò)的靈活性和可用性。
2、應(yīng)用服務(wù)模塊(APP Server):提供了一套完整的企業(yè)數(shù)據(jù)應(yīng)用、管理、監(jiān)控的應(yīng)用系統(tǒng)。私有云存儲作為企業(yè)數(shù)據(jù)應(yīng)用系統(tǒng),為企業(yè)員工提供個人數(shù)據(jù)存儲、分享服務(wù),保護數(shù)據(jù)安全;也可以按照企業(yè)組織架構(gòu)組建企業(yè)級、部門級、項目級的協(xié)同工作服務(wù),提高數(shù)據(jù)處理效率。此外,靈活的空間管理、集中的賬戶配置、實時的日志審計方便系統(tǒng)管理者實現(xiàn)全方位的管理和監(jiān)控。其中包括功能模塊如下。
應(yīng)用服務(wù)(Web Service):為整套系統(tǒng)前端應(yīng)用和web端訪問提供支持。
傳輸服務(wù)(TP Service):為用戶提供數(shù)據(jù)傳輸?shù)闹С帧?/p>
3、文件存儲模塊(Storage Server):是一套分布式文件存儲系統(tǒng),為應(yīng)用服務(wù)模塊提供底層數(shù)據(jù)存儲及管理服務(wù)。可以作為標準的存儲系統(tǒng)為企業(yè)應(yīng)用系統(tǒng)提供標準的數(shù)據(jù)存儲。
4、數(shù)據(jù)庫模塊(DB Server):其中包括功能模塊如下。
主數(shù)據(jù)庫:為應(yīng)用服務(wù)模塊提供結(jié)構(gòu)化數(shù)據(jù)服務(wù)。
從數(shù)據(jù)庫:為主數(shù)據(jù)庫提供備份服務(wù)。
2.3部署方式
在內(nèi)網(wǎng)服務(wù)器上安裝私有云存儲軟件,并配置存儲服務(wù)器與之互聯(lián)。保持私有云存儲系統(tǒng)的網(wǎng)絡(luò)連通,在IE中輸入默認的管理地址進行管理訪問。
希捷市場營銷副總裁Jeff Fochtman表示:“作為希捷7月份的10TB Guardian守護者系列存儲解決方案的最新產(chǎn)品,IronWolf Pro為企業(yè)提供了更高的可靠性和靈活性,用于其大規(guī)模和多用戶操作NAS環(huán)境的最繁重工作負載。同時,新的IronWolf Pro增加了希捷數(shù)據(jù)恢復(fù)服務(wù),企業(yè)可以更加安心地存儲數(shù)據(jù),充分保證數(shù)據(jù)安全。”
IronWolf硬盤針對各種NAS業(yè)務(wù)設(shè)計,IronWolf Pro配備優(yōu)化NAS應(yīng)用的AgileArray?,幫助企業(yè)提升共享和備份文件的性能,改進私有云環(huán)境。AgileArray通過雙面平衡技術(shù)和RV傳感器保持硬盤平衡,進一步優(yōu)化了RAID,提供先進的能耗管理,提升了整體性能。
中圖分類號:TP39文獻標識碼A文章編號1006-0278(2015)12-151-01
存儲即服務(wù)的概念不斷深入人心,云存儲作為云計算概念的發(fā)展和延伸得到了快速的發(fā)展。云存儲是一種全新的存儲服務(wù)模式,有效地整合了大規(guī)模的存儲資源并把存儲以服務(wù)的形式提供給用戶。云存儲實現(xiàn)了合理的數(shù)據(jù)存儲和高效的數(shù)據(jù)管理,有效地減輕了用戶對數(shù)據(jù)存儲和管理的負擔,同時也降低了用戶的開銷。隨著云存儲服務(wù)和研究的不斷深入,政府部門和企業(yè)數(shù)據(jù)外包服務(wù)等應(yīng)用成為云存儲應(yīng)用的重要部分。
隨著云存儲技術(shù)的快速發(fā)展,數(shù)據(jù)安全問題得到了產(chǎn)業(yè)界和學術(shù)界的廣泛關(guān)注。絕大部分用戶希望在不損害數(shù)據(jù)原有安全性的前提下使用云存儲服務(wù)。針對云存儲中數(shù)據(jù)保護需求,研究者開始采用密文訪問控制機制來保護數(shù)據(jù)在存儲和共享過程中的安全。然而,在云存儲中采用密文訪問控制機制會較為明顯地增加用戶使用開銷,降低用戶訪問云存儲的效率。特別是當數(shù)據(jù)共享規(guī)模大、用戶屬性較少、訪問權(quán)限變更頻繁、數(shù)據(jù)訪問集中時,采用密文訪問控制機制會明顯增加用戶訪問云存儲的延時。如何有效應(yīng)對密鑰分發(fā)復(fù)雜、權(quán)限撤銷開銷大、用戶資源受限等挑戰(zhàn),降低采用密文訪問控制機制的額外開銷,是云存儲數(shù)據(jù)安全保護研究中亟待解決的關(guān)鍵問題。
一、密文訪問控制的基本應(yīng)用場景
數(shù)據(jù)所有者主要負責數(shù)據(jù)加密和密文分發(fā)操作,數(shù)據(jù)一般采用對稱算法加密后托管到云端,然后通過安全信道或其他可靠手段將密鑰分發(fā)給授權(quán)的數(shù)據(jù)使用者。數(shù)據(jù)使用者從云存儲中取回數(shù)據(jù)后解密使用,采用不同密文訪問控制技術(shù)時的解密密鑰獲取過程不盡相同。云存儲服務(wù)提供商只需要提供相應(yīng)的數(shù)據(jù)存儲能力,響應(yīng)數(shù)據(jù)讀寫請求即可。系統(tǒng)管理員負責配置云存儲服務(wù),完成密文訪問控制機制初始化,管理維護系統(tǒng)用戶的身份證書。
二、簡單個人用戶密文訪問控制實現(xiàn)方案
用戶將數(shù)據(jù)加密后存放到云存儲中,使用時取回數(shù)據(jù)并解密。簡單個人用戶很少需要共享數(shù)據(jù),因此可以簡化密文訪問控制過程,降低用戶開銷,簡單個人用戶密文訪問控制實現(xiàn)方案的基本流程,如圖1所示。
三、總結(jié)
本文在深入分析云存儲中數(shù)據(jù)安全防護需求的基礎(chǔ)上,綜合現(xiàn)有密文訪問控制技術(shù)和新型密碼技術(shù),提出了云存儲中密文訪問控制模型的數(shù)學描述,并分析了影響模型性能的主要因素。然后分別針對簡單個人用戶、社區(qū)個人用戶和企業(yè)用戶,給出了模型的多種不同實現(xiàn)方案。其中,基本密文訪問控制方案能夠為簡單個人用戶的數(shù)據(jù)云端存儲和共享過程提供簡潔、有效的保護。基于本地的云存儲訪問效率優(yōu)化技術(shù)。企業(yè)用戶使用云存儲時具有數(shù)據(jù)量大、共享頻繁、訪問相對集中等特征,如果簡單地采用密文訪問控制機制來保護數(shù)據(jù)存儲和共享安全,則會降低云存儲的訪問效率。基于本地的云存儲訪問效率優(yōu)化技術(shù),能夠在企業(yè)已有計算、存儲資源上部署本地,然后通過本地來代替員工完成密文訪問控制相關(guān)操作、并緩存頻繁訪問的數(shù)據(jù),最終有效地降低采用密文訪問控制機制對企業(yè)用戶的影響。以上研究成果針對云存儲數(shù)據(jù)安全需求,在保證數(shù)據(jù)安全的前提下提升了密文訪問控制機制的效率,促進了密文訪問控制技術(shù)在云存儲數(shù)據(jù)安全保護中的進一步應(yīng)用,具有一定的理論意義和實際應(yīng)用價值。
參考文獻:
[1]李家治.云存儲中基于屬性的密文檢索與訪問控制[D].華東師范大學,2015.
9月8日,紫光西部數(shù)據(jù)有限公司(以下簡稱紫光西部數(shù)據(jù))成立典禮在南京舉行,這是中國大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新發(fā)展的又一重要里程碑。秉承“自主創(chuàng)新+國際合作”的發(fā)展理念,紫光西部數(shù)據(jù)致力于為各行業(yè)客戶提供基于全產(chǎn)業(yè)鏈的大數(shù)據(jù)服務(wù),成為中國大數(shù)據(jù)產(chǎn)業(yè)戰(zhàn)略合伙人,這是為逐步實現(xiàn)紫光集團大戰(zhàn)略而設(shè)定的一個“小目標”。紫光西部數(shù)據(jù)從現(xiàn)在開始起步。
構(gòu)建從“芯”到“云”的大生態(tài)
眾所周知,紫光集團是中國IT界的一艘新航母。在國家集成電路產(chǎn)業(yè)推進戰(zhàn)略的引導(dǎo)下,紫光集團以“自主創(chuàng)新+國際合作”雙輪驅(qū)動,確立了以集成電路產(chǎn)業(yè)為主導(dǎo),向泛IT、移動互聯(lián)、云計算與云服務(wù)等信息產(chǎn)業(yè)核心領(lǐng)域集中發(fā)展的戰(zhàn)略。
從2013年以來,紫光集團通過一系列的戰(zhàn)略并購,不斷完善自己的戰(zhàn)略布局,豐富產(chǎn)品線。紫光集團先后投資超過1500億元,收購了全球移動通信芯片公司展訊通信和銳迪科,控股H3C和惠普中國企業(yè)業(yè)務(wù),分別成立紫光展銳和新華三集團。清華系旗下最重要的IT產(chǎn)業(yè)平臺已具雛形,全面構(gòu)筑從“芯”到“云”的信息產(chǎn)業(yè)生態(tài)系統(tǒng)并非妄言。
IDC預(yù)測,到2020年,全球的數(shù)據(jù)總量將達到44ZB。數(shù)據(jù)規(guī)模的持續(xù)增加,用戶對數(shù)據(jù)處理的速度,以及系統(tǒng)的可用性、可擴展、靈活性等的要求不斷提升,這些都是大數(shù)據(jù)存儲迫切需要解決的問題,也是大數(shù)據(jù)存儲產(chǎn)業(yè)面臨的新機遇。
毫無疑問,大數(shù)據(jù)存儲業(yè)務(wù)是紫光集團這艘航母前進的主要動力之一,而紫光集團的戰(zhàn)略布局也早為大數(shù)據(jù)存儲業(yè)務(wù)的快速發(fā)展埋下伏筆。2016年7月,紫光集團收購武漢新芯多數(shù)股權(quán)后,長江存儲科技有限責任公司正式成立。紫光集團持有長江存儲科技有限公司超過50%的股份。紫光集團董事長趙偉國出任長江存儲公司董事長。這是紫光集團的大戰(zhàn)略從“芯”開始的一個具體體現(xiàn)。
在今年舉行的第二屆中國大數(shù)據(jù)產(chǎn)業(yè)峰會暨中國電子商務(wù)創(chuàng)新發(fā)展峰會上,趙偉國曾表示,從2016年開始,紫光集團計劃投資300億美元用于存儲器芯片制造,這大概是中國有史以來最大的存儲項目。大數(shù)據(jù)的發(fā)展需要海量存儲,而中國以前在這方面是空白,這便是紫光集團選擇的發(fā)力點。芯片是產(chǎn)生和存儲數(shù)據(jù)的基本單位,也是發(fā)展大數(shù)據(jù)存儲的基礎(chǔ)。只有在芯片上掌握主動,才能在發(fā)展大數(shù)據(jù)存儲時做到有的放矢。
在紫光集團著力打造的從“芯”到“云”的產(chǎn)業(yè)鏈中,“芯”是指芯片,那么“云”當然是指大數(shù)據(jù)、大互聯(lián)、大安全和云計算。紫光集團控股的新華三集團在云和大數(shù)據(jù)方面提供了完整的解決方案,包括服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備,以及云操作系統(tǒng)、大數(shù)據(jù)安全系統(tǒng)等,在除運營商以外的企業(yè)網(wǎng)絡(luò)領(lǐng)域,紫光排名第一,在全球僅次于思科。
在大數(shù)據(jù)存儲的產(chǎn)業(yè)鏈條上,有了武漢新芯的存儲芯片,又有了新華三的存儲解決方案,這中間是不是還少了一個能夠?qū)⑺鼈兇?lián)和徹底打通的環(huán)節(jié)?紫光西部數(shù)據(jù)應(yīng)運而生。
自主創(chuàng)新也少不了國際合作
紫光西部數(shù)據(jù)于2016年3月28日注冊成立,總部位于南京市秦淮高新技術(shù)園區(qū)內(nèi),市場和銷售總部則位于北京。紫光集團旗下紫光股份持股比例為51%,而西部數(shù)據(jù)持股比例為49%。
紫光西部數(shù)據(jù)首席執(zhí)行官繆剛表示,新公司的愿景可以概括為一句話:以數(shù)據(jù)成就未來,做中國大數(shù)據(jù)產(chǎn)業(yè)戰(zhàn)略合伙人。
具體來看,這一愿景又可以細分為以下四個層面:第一,扎根中國,放眼全球,新公司將以中國為起點,憑借全球領(lǐng)先的技術(shù)研發(fā)、設(shè)計生產(chǎn)、市場推廣等方面的優(yōu)勢,提供符合中國市場需求的全方位大數(shù)據(jù)解決方案,并在此基礎(chǔ)上,進軍全球市場;第二,自主創(chuàng)新,安全可控,通過自主研發(fā),實現(xiàn)自主、安全和可控,在保護數(shù)據(jù)可靠的基礎(chǔ)上,保障多種核心應(yīng)用的安全、穩(wěn)定運行;第三,行業(yè)優(yōu)化,扁平融合,針對具體的行業(yè)需求,開發(fā)符合行業(yè)特性的全方位數(shù)據(jù)服務(wù),通過實現(xiàn)應(yīng)用層扁平化,實現(xiàn)大數(shù)據(jù)整體發(fā)展;第四,開放合作,攜手共贏,全面打造開放創(chuàng)新的平臺,攜手各界合作伙伴,建立合作共贏的生態(tài)體系,合力推動大數(shù)據(jù)產(chǎn)業(yè)的創(chuàng)新發(fā)展。
為了實現(xiàn)上述宏偉目標,紫光西部數(shù)據(jù)需要在堅持自主創(chuàng)新的基礎(chǔ)上,以開放的胸懷,采取積極的合作策略,而西部數(shù)據(jù)無疑是一個理想的合作伙伴。
西部數(shù)據(jù)是全球領(lǐng)先的數(shù)據(jù)存儲解決方案提供商,在全球硬盤市場的占有率排名第一。與紫光集團類似,西部數(shù)據(jù)近幾年也通過一系列的收購不斷完善產(chǎn)品的布局。2012年,西部數(shù)據(jù)收購昱科環(huán)球存儲科技咨詢有限公司(HGST),目的在于為企業(yè)級市場的客戶提供高價值的存儲解決方案。2016年5月,西部數(shù)據(jù)又以190億美元的大手筆完成了對閃迪(SanDisk)公司的收購,快速轉(zhuǎn)型,成了閃存市場的佼佼者。
美國西部數(shù)據(jù)公司全球高級副總裁、數(shù)據(jù)中心系統(tǒng)事業(yè)部總經(jīng)理唐戴夫表示:“我們之所以選擇紫光集團作為合作對象,一方面是因為紫光集團具有本地研發(fā)、設(shè)計、生產(chǎn)、營銷的能力,可以提供針對本土用戶需求的定制化的解決方案;另一方面,紫光集團擁有寬泛的產(chǎn)品線和業(yè)務(wù),紫光旗下的新華三、紫光互聯(lián)等,都可以成為西部數(shù)據(jù)的合作伙伴,形成解決方案和業(yè)務(wù)上的互補。西部數(shù)據(jù)與紫光集團的全方位合作,讓我們感覺未來在技術(shù)和業(yè)務(wù)的創(chuàng)新大有可為。”
繆剛進一步介紹說:“合資公司將在核心存儲技術(shù)、企業(yè)級存儲解決方案,以及大數(shù)據(jù)全產(chǎn)業(yè)鏈服務(wù)等領(lǐng)域形成關(guān)鍵戰(zhàn)略合作,推動紫光集團從‘芯’到‘云’的信息產(chǎn)業(yè)生態(tài)系統(tǒng)的構(gòu)建,同時幫助西部數(shù)據(jù)實現(xiàn)業(yè)務(wù)拓展,為智慧城市、金融服務(wù)、媒體娛樂、天文氣象、電信、基因科學、醫(yī)療衛(wèi)生、新興互聯(lián)網(wǎng)等各行業(yè)客戶提供符合其需求的數(shù)據(jù)存儲和數(shù)據(jù)服務(wù)解決方案。”
打造系統(tǒng)級的存儲產(chǎn)品
紫光西部數(shù)據(jù)為何落戶南京?首先,紫光西部數(shù)據(jù)在南京現(xiàn)有一支70多人的研發(fā)團隊,未來還要進一步擴張,這也是讓紫光西部數(shù)據(jù)引以為豪的實現(xiàn)自主可控的基本保證。其次,紫光西部數(shù)據(jù)接下來要與南京當?shù)氐恼⑵笫聵I(yè)單位加強合作,紫光西部數(shù)據(jù)與南京市有關(guān)部門聯(lián)合成立的大數(shù)據(jù)研發(fā)中心正在醞釀之中。
正如繆剛所說,紫光西部數(shù)據(jù)要首先扎根中國,為中國用戶提供滿足其需求的定制化的大數(shù)據(jù)存儲解決方案。紫光西部數(shù)據(jù)9月8日舉行成立慶典之后將全面展開營銷活動,而最先推出的產(chǎn)品就是西部數(shù)據(jù)特有的動態(tài)歸檔(Active Archive)系統(tǒng)。這一動態(tài)歸檔系統(tǒng)是一個獨立自主的對象存儲系統(tǒng),可以方便地擴展存儲容量,最高可達數(shù)PB,且具有更高的可靠性和更好的成本效益,能夠同時滿足傳統(tǒng)應(yīng)用需求和新型應(yīng)用需求。
時至今日,西部數(shù)據(jù)已經(jīng)不再是那個擁有單一硬盤產(chǎn)品的廠商,其產(chǎn)品線涵蓋存儲介質(zhì)、存儲平臺、系統(tǒng)軟件和系統(tǒng)構(gòu)件,其中存儲系統(tǒng)成了最主要的抓手,動態(tài)歸檔系統(tǒng)就是代表,而這正是紫光集團與西部數(shù)據(jù)合作最重要的一類產(chǎn)品。