數據時代
在數據時代,數據和業(yè)務的保護、數據的管理成為企業(yè)發(fā)展所必需的基礎條件。據有效統(tǒng)計,當前,數據量增長、重要性呈指數級激增。據國外媒體報道,來自國際數據公司和數據存儲公司希捷的一份新報告顯示,隨著云計算、大數據、物聯網等技術產業(yè)的快速發(fā)展,數據流量增長速率正在不斷加快,到2025年,預計新增數據總量將從2018年的33ZB增加到175ZB。在過去幾年,全球的數據量以每年40%以上的速度增長,在未來這個速度會更快。龐大的數據量中非結構化數據占80%左右。通常我們認為大小在1MB以內的文件稱為小文件,百萬級數量及以上稱為海量小文件,由此量化定義海量小文件。
海量小文件的應用在生活中已越來越常見,社會化網絡、移動通信、網絡視頻音頻、電子商務、傳感器網絡、科學實驗等各種應用產生的數據,不僅存儲容量巨大,而且數據類型繁多、數據大小變化幅度大、流動快等顯著特點,往往能夠產生千萬級、億級甚至十億、百億級的海量小文件。
技術挑戰(zhàn)
數據即資產,龐大的數據資產對各企業(yè)的重要性不言而喻,需要對這些海量小文件提供保護方案來保證數據資產的安全性。但是傳統(tǒng)的文件備份是通過基于二叉樹遍歷的文件系統(tǒng)的遍歷后進行單通道的數據傳輸實現的。如果全部是幾K的文件,磁盤的遍歷時間遠遠大于實際的數據讀取時間。這給高效的實現海量小文件備份帶來了挑戰(zhàn)。
用戶故事
三甲醫(yī)院A每天有上萬的病人,每個病人每天產生的病例文件(包括病例、影像等文件)平均為1M,醫(yī)院平均每天的病人有1萬人,那一年的文件的大小是3.4TB、365萬數據左右。按醫(yī)院門診病例保存要求15年,那就有51TB、5475萬個數據。
該三甲醫(yī)院還要十幾個分院,而當前的數據中臺和大數據建設需要該醫(yī)院的總部將所有分院的數據進行匯聚和融合,初步評估數據中臺和大數據的底層數據是PB級別(1PB=1024TB)。
法院B有一個電子文件的項目,該法院有100TB左右的數據,想要建設該市所有法院的電子文件的統(tǒng)一管理平臺,粗略評估后總數據有3.6PB,并且有很多幾kb的小文件,如果按平均文件大小100KB來算,總共有396億左右的數據量。
我們再看一下網速,千兆網下網絡的峰值基本只有100+M/S,按照平均速度100M/s來進行數據傳輸,100TB的數據在千兆網下,需要12天才能傳完數據。
但是使用傳統(tǒng)的文件備份方式在文件數量達到千萬級時對業(yè)務系統(tǒng)的影響會很大,如果業(yè)務系統(tǒng)是運行很久的服務器,資源不充足的情況下甚至會導致業(yè)務系統(tǒng)卡頓;而文件大小低于100KB的海量小文件,在用傳統(tǒng)的文件備份方式進行備份時速度會迅速降低,之前測試1kb的千萬個小文件的備份速度只能以kb/s進行傳輸。
所以如何能夠面對海量小文件、海量小文件的時候能夠快速、低影響的進行備份就成了當前急需解決的技術問題。
浪擎解決方案
浪擎DAYS災備系統(tǒng)全面破解海量小文件備份難題,高效守護企業(yè)數據資產安全。
磁盤級備份
磁盤級備份是指采用磁盤塊的方式進行數據的備份,備份文件所在的磁盤或者分區(qū),并且恢復的時候可以自定義所需的文件進行恢復。通過磁盤級備份能夠解決海量小文件備份過程中頻繁的IO訪問對業(yè)務系統(tǒng)帶來的影響,是海量備份方案中對業(yè)務系統(tǒng)影響最小的方案之一。并且由于采用磁盤級的備份,無論文件數量有千萬還是百億,大小是1M還是1KB,對整體的備份速度都沒有影響,即千兆網下,磁盤級備份速度可以一直保持峰值(平均100M/S)進行傳輸。
并行多通道備份
當文件數量達到千萬級別時,以傳統(tǒng)的單通道式文件備份的形式來進行海量小文件備份,備份速度會越來越慢。針對這種情況,浪擎自主研發(fā)了并行多通道的方式進行備份,通過初始化遍歷所有的文件,然后將文件平均分配給多個通道進行數據傳輸,數據傳輸完后進行數據落盤的操作來實現并行多通道備份。并且即使采用最普通的8核CPU服務器進行海量小文件備份也能同時用16個通道進行海量小文件的數據傳輸。10萬以上的文件采用并行多通道的方式進行備份,備份時間是單通道的一半,并且文件數量越多,備份效率越高。
分布式多通道備份
當文件數量達到千萬級別并且文件的大小差異很大,從幾KB到幾十MB都有,這種大小差異很大的海量小文件備份時的難度更大,即使采用并行多通道的方式也會由于文件數據大小差異過大,導致不同通道傳輸的數據總量不同,部分通道會有閑置的情況,最終導致數據傳輸時間相對較長。
針對這種情況,浪擎在并行多通道備份的基礎上做了深度的優(yōu)化,提出分布式多通道備份方案,實現多通道備份的負載均衡,讓每個通道都能夠滿負荷進行數據傳輸,并行合并數據再結合實時的數據交互減少初始化的時間,達到整體的性能提高和最優(yōu)化的海量小文件備份方案。
多節(jié)點、多任務、多網卡傳輸
除了采用多種備份方式進行海量小文件的備份外,為了充分利用現有資源和提供備份的速率,浪擎還采用了多節(jié)點、多任務、多網卡的方式進行數據傳輸。多節(jié)點是通過將多個服務節(jié)點進行數據存儲,減少單節(jié)點的性能的局限性對備份數據傳輸的影響;多任務是并行多個任務來實現數據傳輸,充分利用時間資源;多網卡是充分利用單節(jié)點上的多個網卡資源采用多個網卡進行數據傳輸,讓并行任務整體的備份效率提高。
關于浪擎
浪擎科技以“最大化數據價值”為使命,致力于數據安全與智能領域的產品研發(fā)和技術服務,從而推動數字化轉型發(fā)展的大變革。2011年投身災備產品研發(fā),2015年進軍全國市場,浪擎科技現已在上海與成都建立了兩大研發(fā)中心,在北京、浙江、江蘇、江西、四川等20余省市部署了事業(yè)辦事處
數據安全產品線為重要業(yè)務和數據提供全生態(tài)、全棧式的備份保護,實現云上云下云間的數據安全與管理;數據智能產品線為用戶構建數據中臺提供全環(huán)境的、敏捷智能的數據匯聚融合與共享管理,助力數據驅動業(yè)務。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
日前,北京佳格天地科技有限公司與農業(yè)農村部大數據發(fā)展中心簽訂聯合實驗室協(xié)議。雙方將充分利用遙感、AI等技術,以及人才隊伍、技術產品等優(yōu)質資源,開展農業(yè)農村領域相關基礎模型、作物農情遙感監(jiān)測產品及農業(yè)氣象服務等方面的合作研究。
日前,2022世界數字農業(yè)大會舉行。大會以“種鑄強芯,數領未來”為主題,開設多場數字農業(yè)云端專題論壇,北京佳格天地科技有限公司受邀出席”農業(yè)農村大數據應用論壇“,同與會嘉賓分享了農業(yè)大數據的創(chuàng)新應用。
毫無疑問,隨著以Kubernetes為代表的云原生技術得到廣泛應用和普及,云原生數據量和重要性不斷提高,使得企業(yè)對云原生數據庫服務的需求日漸增長。
近期,由中國工業(yè)設計協(xié)會、中國技術交易所雙重指導,UXPA中國主辦的2022年第六屆GXA好體驗獎評選結果揭曉,元年科技憑借元年數據智能管理平臺榮獲“最佳企業(yè)賦能獎”,該獎項旨在挖掘當代杰出用戶體驗作品,表彰利用創(chuàng)新思維、堅持以用戶體驗為中心的企業(yè),填補了國內專業(yè)級別用戶體驗社會化獎項的空白。
近日,秦淮數據集團位于馬來西亞柔佛州的秦淮數據馬來柔佛超大規(guī)模數據中心(以下簡稱“MY06”)一期盛大開園。從規(guī)劃、設計到建造,秦淮數據集團中國、新加坡、馬來西亞三地團隊緊密合作,共同完成馬來西亞最大的國際超大規(guī)模數據中心交付
把脈中國數據智能化
2023年,幾乎可以被定義為中國互聯網公司的“大模型元年”。ChatGPT的全球爆紅,徹底點燃國內的大模型賽道,曾經的“創(chuàng)業(yè)英雄”、如今的商業(yè)領袖們親自下場,接連發(fā)布生成式人工智能產品與大模型布局。大模型火了,沉寂許久的互聯網行業(yè)又有了新的“戰(zhàn)事”。同時,大模型的快速發(fā)展也改變了云市場的現狀,企業(yè)對
近日,數字化市場研究咨詢機構愛分析發(fā)布了《2022愛分析·數據智能廠商全景報告》,愛分析從技術研發(fā)能力、服務客戶數量、收入規(guī)模等維度對廠商進行了全面專業(yè)的評估
2022年11月18日,首個國家級大數據產業(yè)創(chuàng)新賽事——2022第一屆中國大數據大賽圓滿落幕。工業(yè)和信息化部信息技術發(fā)展司數字經濟推進處處長張建倫,中國電子技術標準化研究院副院長孫文龍出席頒獎典禮并致辭
2022年11月17日,在廈門市工業(yè)和信息化局的指導下,以“數據確權”為主題的2022數據資產(廈門)論壇在廈門成功舉辦。本次論壇以“數據確權”為主題,由廈門市互聯網域名應用服務產業(yè)協(xié)會和構信網(公信.中國)聯合主辦
近日,國內知名數字化市場研究咨詢機構愛分析正式發(fā)布《2022愛分析·信創(chuàng)廠商全景報告》(以下簡稱“報告”)。報告綜合考慮企業(yè)關注度、行業(yè)落地進展等因素,遴選出在信創(chuàng)市場中具備成熟解決方案和落地能力的廠商。
10月31日下午,由數博會執(zhí)委會主辦、數據觀(北京)傳媒科技有限公司承辦、貴陽大數據交易所協(xié)辦的第四期數博思享會“實踐先行觀公共數據價值與應用”活動成功舉辦。
近日,由中國國際數字經濟博覽會組委會主辦,中國電子技術標準化研究院、河北省工業(yè)和信息化廳承辦的“第一屆中國大數據大賽”(簡稱大數據大賽)正式啟動。
廣州光點信息科技有限公司自主研發(fā)的數據中臺產品GI大數據中臺V2.0產品是國內率先推出符合新創(chuàng)標準的中臺產品,基于“大數據+AI”等技術全新打造,集數據采集、融合、治理、服務、管理為一體的旗艦平臺。
廣州光點信息科技有限公司自主研發(fā)的數據中臺產品GI大數據中臺V2.0產品是國內率先推出符合新創(chuàng)標準的中臺產品,基于“大數據+AI”等技術全新打造,集數據采集、融合、治理、服務、管理為一體的旗艦平臺