當前位置:首頁 >  站長 >  數據庫 >  正文

Impala打開分布式技術的大門 天云數據Hubble數據庫趕超

 2021-08-13 11:29  來源: A5用戶投稿   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

在數據體量121億條賬戶下進行資金查詢測試,天云數據Hubble的性能是Impala的231%倍。

Impala,一種棲息在非洲南部的高角羚,行動敏捷奔跑迅速,以其優(yōu)雅的姿勢和杰出的跳躍能力而出名。受驚的時候可以跳起 3米高,9米遠。

Cloudera研發(fā)這頭高角羚(Impala)的初衷也很明了——提高Hive SQL查詢的速度。就官方測試性能來看,Impala比Hive快10到100倍,其SQL查詢比SparkSQL還要更加快速 。Impala號稱是當前大數據領域最快的查詢SQL工具,也因其更快的速度被市場所熟知。其面對即席查詢(Ad-Hoc Query)類請求的穩(wěn)定性和速度在工業(yè)界得到過廣泛的驗證。

我們所熟知阿里巴巴、百度、google、facebook,包括新一代的分布式計算、容器化、機器學習人工智能等技術框架都在使用Impala。Impala突破了單機技術的限制,打開了分布式技術的大門,是技術架構革命性創(chuàng)新的引領者。

眾所周知,傳統(tǒng)技術機構主要依賴于-IOE( IBM的小型機、Oracle數據庫、EMC存儲設備),只能通過增加配置提升性能,系統(tǒng)無法橫向水平擴展。分布式存儲不僅解決了單機存儲的性能瓶頸,還支撐海量數據在線實時并發(fā)服務應用。

傳統(tǒng)技術好比轎車,能承載多少人是固定的,想多承載人只能換成客車;但分布式存儲技術好比火車和高鐵,按節(jié)承載,遇到春運可以增加車廂運輸客流量。

國產數據庫產品Hubble就是這高速列車,雖不是為速度而生,卻在速度上趕超Impala。

在數據體量121億條賬戶下進行資金查詢測試, Hubble的性能是Impala的231%倍。

之所以做這個測試,源于某證券用戶在使用Hubble進行數據查詢后,感嘆到:這也太快了,簡直比Impala還快。

Hubble,人類天眼 ,位于地球的大氣層之上的光學望遠鏡。從1990年到2015年4月,哈勃望遠鏡在地球軌道上運行了接近13萬7千圈,累計54億公里,執(zhí)行了120多萬次觀測任務,觀察了超過38,000個天體,增進了人類對宇宙的了解。“哈勃遺產場”是迄今最完整最全面的宇宙圖譜。

天云數據研發(fā)Hubble的初衷也非常明了,融合傳統(tǒng)數據庫形成支持混合負載交易的數據聯邦。 在實際應用中,hubble完成了‘去IOE’中最困難的部分,在幾家大型商業(yè)銀行核心交易中成功替換Oracle,在銀行的聯機事務中解決A類核心系統(tǒng)減負問題。一句話概述,Hubble讓生態(tài)合作伙伴無縫切入大數據服務領域。

在分布式的新世界里,數據從‘生產產物’變成了‘生產者’,數據身份的轉換對技術、人才的需求都發(fā)生了改變。 很多企業(yè)想進入大數據服務領域,苦于人才難找、技術不行、項目周期太長、運維成本太高。這就好比一個人想寫一本內容涵蓋家庭裝修、家庭布置、家庭關系處理的書,雖然都跟家庭有關,但具體內容卻是術業(yè)有專攻,需要大量時間學習這三個方向的內容然后進行整合。但是在hubble的世界里只需調動這三個方向的專家,讓他們各自撰寫自己擅長的內容,然后整合到一起,專業(yè)度更有保障,出書所需時間更短。

為什么Hubble會在速度上如此有優(yōu)勢?

從 SQL 解析層上 ,Hubble 采用基于 AI 評估函數創(chuàng)建模型,在需要的時候直接調用完成目 標的預測并估算每組執(zhí)行計劃的代價。簡單來說,就是用經驗使用數據,用數據更新經驗, 雙管齊下速度更優(yōu)。

在數據存儲層上 ,Hubble 采用基于切片的列式存儲和 KV 存儲的混合部署模式。大數據環(huán)境下的Hbase、HP Vertica、EMC Greenplum 等分布式數據庫采用的列式存儲。常規(guī)行式存儲下一張表的數據都是放在一起的,查詢時所有數據都要被讀取。但列式存儲下數據被分開保存了,查詢時只有涉及到的列會被讀取,從而對于大表數據效率更高。KV 存儲把不常變動的一些數據存儲在kvstore中,需要的時候直接憑借key拿出value 就好,方便快捷就是它應對隨機IO訪問的優(yōu)勢。在大規(guī)模數據同時支持密集AP計算和TP并發(fā)場景下,基于數據切片的混布存儲策略可以彈性適應IO特性,需要進一步優(yōu)化時也可以快速做庫內轉換,避免數據復制和冗余。

在數據計算上 ,hubble是基于內存的計算框架,輸出結果可以保存在內存中,減少數據的落地,后續(xù)的執(zhí)行結果有依賴前面結果的可以直接從內存中獲取得到,避免了磁盤的io操作,性能更高速度更快。

據IDC預測,2017-2022年,全球軟分布式存儲市場規(guī)模的平均增速為14.7%,而中國分布式存儲市場的平均增速為32.5%。有分析師樂觀地預測,未來3年,在中國市場上,分布式存儲或將占據整個存儲市場的半壁江山。

未來學家阿爾文·托夫勒說:“如今所有的國家都面對一個逃不了的規(guī)律—最快者生存 。”

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關標簽
Hubble數據庫
HTAP

相關文章

熱門排行

信息推薦