1. 創(chuàng)業(yè)頭條
  2. 前沿領域
  3. 大數據
  4. 正文

浪擎DAYS災備系統(tǒng)全面破解海量小文件備份難題

 2020-10-30 17:33  來源:互聯網  我來投稿 撤稿糾錯

  阿里云優(yōu)惠券 先領券再下單

數據時代

在數據時代,數據和業(yè)務的保護、數據的管理成為企業(yè)發(fā)展所必需的基礎條件。據有效統(tǒng)計,當前,數據量增長、重要性呈指數級激增。據國外媒體報道,來自國際數據公司和數據存儲公司希捷的一份新報告顯示,隨著云計算、大數據、物聯網等技術產業(yè)的快速發(fā)展,數據流量增長速率正在不斷加快,到2025年,預計新增數據總量將從2018年的33ZB增加到175ZB。在過去幾年,全球的數據量以每年40%以上的速度增長,在未來這個速度會更快。龐大的數據量中非結構化數據占80%左右。通常我們認為大小在1MB以內的文件稱為小文件,百萬級數量及以上稱為海量小文件,由此量化定義海量小文件。

海量小文件的應用在生活中已越來越常見,社會化網絡、移動通信、網絡視頻音頻、電子商務、傳感器網絡、科學實驗等各種應用產生的數據,不僅存儲容量巨大,而且數據類型繁多、數據大小變化幅度大、流動快等顯著特點,往往能夠產生千萬級、億級甚至十億、百億級的海量小文件。

技術挑戰(zhàn)

數據即資產,龐大的數據資產對各企業(yè)的重要性不言而喻,需要對這些海量小文件提供保護方案來保證數據資產的安全性。但是傳統(tǒng)的文件備份是通過基于二叉樹遍歷的文件系統(tǒng)的遍歷后進行單通道的數據傳輸實現的。如果全部是幾K的文件,磁盤的遍歷時間遠遠大于實際的數據讀取時間。這給高效的實現海量小文件備份帶來了挑戰(zhàn)。

用戶故事

三甲醫(yī)院A每天有上萬的病人,每個病人每天產生的病例文件(包括病例、影像等文件)平均為1M,醫(yī)院平均每天的病人有1萬人,那一年的文件的大小是3.4TB、365萬數據左右。按醫(yī)院門診病例保存要求15年,那就有51TB、5475萬個數據。

該三甲醫(yī)院還要十幾個分院,而當前的數據中臺和大數據建設需要該醫(yī)院的總部將所有分院的數據進行匯聚和融合,初步評估數據中臺和大數據的底層數據是PB級別(1PB=1024TB)。

法院B有一個電子文件的項目,該法院有100TB左右的數據,想要建設該市所有法院的電子文件的統(tǒng)一管理平臺,粗略評估后總數據有3.6PB,并且有很多幾kb的小文件,如果按平均文件大小100KB來算,總共有396億左右的數據量。

我們再看一下網速,千兆網下網絡的峰值基本只有100+M/S,按照平均速度100M/s來進行數據傳輸,100TB的數據在千兆網下,需要12天才能傳完數據。

但是使用傳統(tǒng)的文件備份方式在文件數量達到千萬級時對業(yè)務系統(tǒng)的影響會很大,如果業(yè)務系統(tǒng)是運行很久的服務器,資源不充足的情況下甚至會導致業(yè)務系統(tǒng)卡頓;而文件大小低于100KB的海量小文件,在用傳統(tǒng)的文件備份方式進行備份時速度會迅速降低,之前測試1kb的千萬個小文件的備份速度只能以kb/s進行傳輸。

所以如何能夠面對海量小文件、海量小文件的時候能夠快速、低影響的進行備份就成了當前急需解決的技術問題。

浪擎解決方案

浪擎DAYS災備系統(tǒng)全面破解海量小文件備份難題,高效守護企業(yè)數據資產安全。

磁盤級備份

磁盤級備份是指采用磁盤塊的方式進行數據的備份,備份文件所在的磁盤或者分區(qū),并且恢復的時候可以自定義所需的文件進行恢復。通過磁盤級備份能夠解決海量小文件備份過程中頻繁的IO訪問對業(yè)務系統(tǒng)帶來的影響,是海量備份方案中對業(yè)務系統(tǒng)影響最小的方案之一。并且由于采用磁盤級的備份,無論文件數量有千萬還是百億,大小是1M還是1KB,對整體的備份速度都沒有影響,即千兆網下,磁盤級備份速度可以一直保持峰值(平均100M/S)進行傳輸。

并行多通道備份

當文件數量達到千萬級別時,以傳統(tǒng)的單通道式文件備份的形式來進行海量小文件備份,備份速度會越來越慢。針對這種情況,浪擎自主研發(fā)了并行多通道的方式進行備份,通過初始化遍歷所有的文件,然后將文件平均分配給多個通道進行數據傳輸,數據傳輸完后進行數據落盤的操作來實現并行多通道備份。并且即使采用最普通的8核CPU服務器進行海量小文件備份也能同時用16個通道進行海量小文件的數據傳輸。10萬以上的文件采用并行多通道的方式進行備份,備份時間是單通道的一半,并且文件數量越多,備份效率越高。

分布式多通道備份

當文件數量達到千萬級別并且文件的大小差異很大,從幾KB到幾十MB都有,這種大小差異很大的海量小文件備份時的難度更大,即使采用并行多通道的方式也會由于文件數據大小差異過大,導致不同通道傳輸的數據總量不同,部分通道會有閑置的情況,最終導致數據傳輸時間相對較長。

針對這種情況,浪擎在并行多通道備份的基礎上做了深度的優(yōu)化,提出分布式多通道備份方案,實現多通道備份的負載均衡,讓每個通道都能夠滿負荷進行數據傳輸,并行合并數據再結合實時的數據交互減少初始化的時間,達到整體的性能提高和最優(yōu)化的海量小文件備份方案。

多節(jié)點、多任務、多網卡傳輸

除了采用多種備份方式進行海量小文件的備份外,為了充分利用現有資源和提供備份的速率,浪擎還采用了多節(jié)點、多任務、多網卡的方式進行數據傳輸。多節(jié)點是通過將多個服務節(jié)點進行數據存儲,減少單節(jié)點的性能的局限性對備份數據傳輸的影響;多任務是并行多個任務來實現數據傳輸,充分利用時間資源;多網卡是充分利用單節(jié)點上的多個網卡資源采用多個網卡進行數據傳輸,讓并行任務整體的備份效率提高。

關于浪擎

浪擎科技以“最大化數據價值”為使命,致力于數據安全與智能領域的產品研發(fā)和技術服務,從而推動數字化轉型發(fā)展的大變革。2011年投身災備產品研發(fā),2015年進軍全國市場,浪擎科技現已在上海與成都建立了兩大研發(fā)中心,在北京、浙江、江蘇、江西、四川等20余省市部署了事業(yè)辦事處

數據安全產品線為重要業(yè)務和數據提供全生態(tài)、全棧式的備份保護,實現云上云下云間的數據安全與管理;數據智能產品線為用戶構建數據中臺提供全環(huán)境的、敏捷智能的數據匯聚融合與共享管理,助力數據驅動業(yè)務。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關文章