做計算和存儲的中間層,「Alluxio」用“緩存機制”提高企業(yè)調(diào)取數(shù)據(jù)的效率
著名的計算機專家David Wheeler曾說過,“在計算機領(lǐng)域所有的問題,沒有任何一個問題不能通過添加一層抽象來解決。”
Alluxio創(chuàng)立于2015年,是全球首創(chuàng)開源云原生數(shù)據(jù)編排軟件開發(fā)商,為解決數(shù)據(jù)本地、數(shù)據(jù)抽象以及可訪問等技術(shù)難題,Alluxio在計算和存儲的中間插入了一個數(shù)據(jù)編排層。該數(shù)據(jù)編排層就是Alluxio帶給計算機領(lǐng)域的一層抽象。
Alluxio的創(chuàng)始人兼CEO李浩源本科畢業(yè)于北京大學(xué)計算機系,曾代表北京大學(xué)獲得大學(xué)生國際編程比賽(ACM ICPC)全球第11名。在康奈爾大學(xué)獲取碩士學(xué)位后,又繼續(xù)在加州大學(xué)伯克利分校AMPLab攻讀博士,博士期間,師從分布式系統(tǒng)和網(wǎng)絡(luò)領(lǐng)域的泰斗Ion Stoica教授和Scott Shenker教授。在SOSP/NSDI等國際頂級會議發(fā)表論文10余篇,Google Scholar 引用量達(dá)3000+。
博士期間,李浩源在AMP實驗室里孵化了Alluxio(曾用名Tachyon)的技術(shù)原型,并獲得了硅谷和中國著名風(fēng)投機構(gòu)的投資,而后正式成立Alluxio公司并致力于該技術(shù)的商業(yè)化。今年,依據(jù)Google在Github上發(fā)布的評選結(jié)果,Alluxio領(lǐng)導(dǎo)的開源社區(qū)項目被評為全球最重要的Java開源項目前十名。
公司的核心產(chǎn)品Alluxio系統(tǒng),是全球首個分布式超大規(guī)模數(shù)據(jù)編排系統(tǒng)。自項目開源以來,已有超過來自300多個組織機構(gòu)的1100多位貢獻(xiàn)者參與開發(fā)。Alluxio能夠在跨集群、跨區(qū)域、跨國家的任何云中將數(shù)據(jù)更緊密地編排,以接近數(shù)據(jù)分析和AI/ML應(yīng)用程序,從而向上層應(yīng)用提供了內(nèi)存級別的數(shù)據(jù)訪問速度。
如今,人們已經(jīng)身處信息爆炸時代,用大數(shù)據(jù)來引發(fā)一場新的革命不再是一次對幾年后的預(yù)言。越來越多的企業(yè)數(shù)據(jù)量已經(jīng)達(dá)到上億級,數(shù)據(jù)源爆炸式增長、數(shù)據(jù)云上遷移,以及大數(shù)據(jù)技術(shù)棧和廠商呈碎片化趨勢等問題,對數(shù)據(jù)平臺的架構(gòu)提出了敏捷性、成本效益、性能等各種要求。面對如此龐大的數(shù)據(jù),企業(yè)如何更穩(wěn)定、快速的調(diào)取出來進行計算和機器學(xué)習(xí),成了很多技術(shù)人員要去解決的問題。
SQL是一種訪問、處理數(shù)據(jù)庫的計算機語言,MySQL、oracle這些都是SQL數(shù)據(jù)庫,能夠快速查詢和處理數(shù)據(jù),但它們的不足之處是只能查詢和處理一些小規(guī)模數(shù)據(jù),碰到以億為單位的海量數(shù)據(jù)時,性能和速度就會明顯下降。這種限制使得它們難以滿足當(dāng)下超大型企業(yè)的需求。
而它們難以做到的,Presto可以做到。Presto是一款FACEBOOK開源的MPP架構(gòu)的OLAP查詢引擎,也是一款可以針對不同數(shù)據(jù)源執(zhí)行大容量數(shù)據(jù)集的分布式SQL執(zhí)行引擎。
不同于傳統(tǒng)的數(shù)據(jù)庫去管理數(shù)據(jù)存儲,Presto是一款分布式SQL執(zhí)行引擎,它將計算和存儲分離,將存儲交給了HDFS、GCS、S3等第三方平臺,而自己只負(fù)責(zé)計算。如此,Presto就可以實現(xiàn)處理海量數(shù)據(jù)的功能。但也正是由于Presto不負(fù)責(zé)存儲,導(dǎo)致了企業(yè)在調(diào)取數(shù)據(jù)時,需要從儲存數(shù)據(jù)的源頭去讀取,在速度等方面表現(xiàn)較差。
舉個例子,雖然大家都覺得互聯(lián)網(wǎng)的速度非???,但當(dāng)你去國外旅行,跟家人視頻通話時,就會發(fā)現(xiàn)視頻的清晰度和流暢度遠(yuǎn)不如你和家人都在國內(nèi)時。原因在于數(shù)據(jù)的傳輸距離,傳輸距離變長了,就會有更多的網(wǎng)關(guān)、路由器,延時就會增長。Presto沒有存儲自己的數(shù)據(jù),要查詢?nèi)魏螖?shù)據(jù),都需要將數(shù)據(jù)集讀出來,將每行都掃描一遍,如此,讀取速度就非常依賴于網(wǎng)絡(luò)傳輸?shù)乃俣取?/p>
現(xiàn)在很多新興的互聯(lián)網(wǎng)公司最常用的一種架構(gòu),就是將數(shù)據(jù)完全上云,放在云平臺上,這樣企業(yè)自己就不用建數(shù)據(jù)中心了。但從云上調(diào)取數(shù)據(jù),一方面費用很高,另一方面調(diào)取速度很慢,更不用提如今有越來越多的將數(shù)據(jù)存放在硬盤上的企業(yè)了。
Alluxio對此的解決方法是,在計算和存儲之間做一層緩存機制,將該緩存機制和Presto或其他的計算引擎部署到一起。由于這類計算引擎并不負(fù)責(zé)存儲工作,該緩存機制作為中間層來負(fù)責(zé)存儲工作,這個中間層就是Alluxio。
Alluxio的數(shù)據(jù)編排層
那么Alluxio具體是如何工作的呢?
其實,在第一次調(diào)取數(shù)據(jù)時,Alluxio的速度會和Presto等計算引擎調(diào)取數(shù)據(jù)的速度是一樣的,真正的差別要從第二次開始計算。
因為Alluxio會在第一次調(diào)取數(shù)據(jù)后對數(shù)據(jù)進行緩存,當(dāng)企業(yè)第二次調(diào)取同樣的數(shù)據(jù)時,速度自然會成倍提高,加上如今企業(yè)的海量數(shù)據(jù)中,其實有很多數(shù)據(jù)都會被反復(fù)調(diào)取使用,緩存機制就大大提高了第二次調(diào)取后的效率。簡而言之即如果數(shù)據(jù)在Alluxio集群里邊,從Alluxio中就可以拿到,不用去數(shù)據(jù)中心重新讀取,如果該數(shù)據(jù)沒在Alluxio集群里,就讓Alluxio到云上將數(shù)據(jù)拿回來,并進行存儲。
此外,由于各種存儲方式的價格、不同地域?qū)?shù)據(jù)的管理政策不同,現(xiàn)在很多企業(yè)不會只局限于在一種云服務(wù)上,企業(yè)的數(shù)據(jù)就會分散在不同地區(qū)或者不同種類的數(shù)據(jù)存儲服務(wù)中。從不同的存儲服務(wù)中調(diào)取數(shù)據(jù),難免會存在一個“翻譯”的過程,Alluxio在該過程中起到了一個翻譯官的作用,可以支持用戶使用不同技術(shù)棧及訪問接口,而無需關(guān)心究竟底層使用了何種數(shù)據(jù)存儲服務(wù),從而讓數(shù)據(jù)流動更加透明和高效。
無論企業(yè)的數(shù)據(jù)平臺位于本地、公有云、還是混合云的環(huán)境,無論使用什么樣的技術(shù)棧,Alluxio都可以讓任何的計算對存儲實現(xiàn)高性能的訪問。通過把Alluxio部署在數(shù)據(jù)平臺里,企業(yè)可以靈活地測試和實施新技術(shù),從而保持敏捷性和競爭力。
李浩源告訴創(chuàng)業(yè)邦,“我們行業(yè)的演進主要來自整個社會和各行業(yè)數(shù)字化進程的驅(qū)動。由于社會和行業(yè)都更加數(shù)字化,數(shù)據(jù)越來越多,基于數(shù)據(jù)的存儲、數(shù)據(jù)分析、機器學(xué)習(xí)等各式各樣的產(chǎn)品在增加,導(dǎo)致出現(xiàn)了一個分割的數(shù)據(jù)世界和復(fù)雜的數(shù)據(jù)平臺,也就直接導(dǎo)致了數(shù)據(jù)調(diào)取的低效?!?/p>
Alluxio為數(shù)據(jù)驅(qū)動型應(yīng)用和存儲系統(tǒng)構(gòu)建了橋梁,將數(shù)據(jù)從存儲層移動到距離數(shù)據(jù)驅(qū)動型應(yīng)用更近的位置,從而不僅能夠更容易被訪問,還可以達(dá)到內(nèi)存級的訪問速度。同時,Alluxio還實現(xiàn)了應(yīng)用程序能夠通過一個公共接口連接到許多存儲系統(tǒng)。
11月18日,Alluxio宣布正式發(fā)布其數(shù)據(jù)編排平臺2.7版本,2.7版本通過并行數(shù)據(jù)加載、數(shù)據(jù)預(yù)處理和訓(xùn)練工作流,可將機器學(xué)習(xí)(ML)訓(xùn)練的I/O效率提高8-12倍,從而降低企業(yè)調(diào)取數(shù)據(jù)的成本。2.7版本還提供了更強的性能分析功能,能更好地支持Apache Hudi和Iceberg等開放表格格式,使得對數(shù)據(jù)湖的訪問更易于擴展,實現(xiàn)了Presto和Spark的數(shù)據(jù)分析能力的提速。
李浩源針對此次的2.7版本表示,“Alluxio 2.7版本進一步鞏固了Alluxio在云上人工智能、機器學(xué)習(xí)和深度學(xué)習(xí)方面的重要地位。隨著數(shù)據(jù)集的增長以及CPU和GPU計算能力的增強,機器學(xué)習(xí)和深度學(xué)習(xí)已成為AI主流技術(shù)。這些技術(shù)的興起推動了AI的發(fā)展,但也凸顯了數(shù)據(jù)和存儲系統(tǒng)訪問中存在的一些挑戰(zhàn)?!?/p>
當(dāng)前,Alluxio的合作伙伴超過九成都是世界五百強企業(yè),其所開創(chuàng)的數(shù)據(jù)編排技術(shù)已經(jīng)在不同垂直領(lǐng)域的國內(nèi)外頭部公司被廣泛應(yīng)用,其中不乏諸如Facebook、Amazon、騰訊、阿里巴巴、百度、聯(lián)通在內(nèi)的行業(yè)巨頭。全球十大互聯(lián)網(wǎng)公司中有八家已經(jīng)在生產(chǎn)環(huán)境中部署了Alluxio。
騰訊大數(shù)據(jù)平臺研發(fā)負(fù)責(zé)人陳鵬表示,“隨著越來越多的大數(shù)據(jù)和AI應(yīng)用容器化,作為加速數(shù)據(jù)分析和模型訓(xùn)練的中間層,Alluxio正在成為大型企業(yè)和機構(gòu)的首選?!?/p>
從行業(yè)的角度來看,Alluxio的客戶中,滲透率最高的是科技行業(yè),排在第二的是金融行業(yè),第三是電信行業(yè),第四是基因制藥行業(yè)。李浩源表示,出現(xiàn)這樣一個排序的原因在于當(dāng)一個行業(yè)數(shù)字化進程越深,Alluxio的軟件價值就越高,滲透率就會越高,自然而然使用的客戶就會越多。
值得一提的是,今年,在中國信通院發(fā)布的第二批32家開源供應(yīng)商名錄中,Alluxio憑借Alluxio云端數(shù)據(jù)編排平臺、Alluxio加速器和Alluxio虛擬數(shù)據(jù)湖,成功躋身云計算、中間件和大數(shù)據(jù)三大產(chǎn)品類型的開源供應(yīng)商。
鑒于“開源開放”有助于推動我國數(shù)字化轉(zhuǎn)型和數(shù)字經(jīng)濟發(fā)展,“開源開放”已被列入我國十四五規(guī)劃和2035年遠(yuǎn)景目標(biāo)。
在此背景下,今年,Alluxio 宣布將大力拓展國內(nèi)市場業(yè)務(wù),將北京設(shè)立為中國區(qū)總部,并成立本地化的研發(fā)團隊,以快速響應(yīng)并滿足眾多國內(nèi)企業(yè)的個性化需求,以及推動扎根于中國的開源社區(qū)運營、治理和推廣,與行業(yè)一同搭建可信開源生態(tài)鏈,在國內(nèi)建設(shè)一個可持續(xù)發(fā)展的開源社區(qū)。Alluxio在其開源軟件Alluxio的基礎(chǔ)上進行封裝,未來,要向企業(yè)級客戶持續(xù)提供豐富的應(yīng)用場景,并不斷升級其軟件服務(wù)。
關(guān)鍵詞: 做計算和存儲的中間層 「Alluxio」用“緩存機制”提高企
相關(guān)閱讀
-
全球視點!10余家A股公司三季度分紅,“...
10余家A股公司三季度分紅,“羊了個羊”背后公司分紅超10億 -
【全球市場晚報】10月28日
【全球市場晚報】10月28日 -
每日播報!中國石油化工股份:斥資約4080...
中國石油化工股份:斥資約4080萬元回購950萬股A股 -
長城汽車:回購348.88萬股A股 耗資約1億元
長城汽車:回購348 88萬股A股耗資約1億元 -
熱點評!交通運輸部:三季度交通運輸經(jīng)...
人民網(wǎng)北京10月28日電(記者王連香)交通運輸部今日發(fā)布前三季度交... -
環(huán)球速看:2021年中國創(chuàng)新指數(shù)達(dá)264.6 ...
圖片來源:國家統(tǒng)計局官方微博“中國統(tǒng)計”人民網(wǎng)北京10月28日電(... -
新消息丨4500多家飄綠,80多家跌停,A股...
4500多家飄綠,80多家跌停,A股到底是鬧哪樣? -
【獨家焦點】港股、A股10月表現(xiàn)全球墊底...
港股、A股10月表現(xiàn)全球墊底!A股到底差在哪兒?外資砸完內(nèi)資砸 -
焦點快播:阿維塔11交付即可享受“充電1...
?10月28日,阿維塔科技宣布,首座由阿維塔與bp合作共建的定制化高... -
君旗高山葡萄酒:陽光如何影響葡萄酒的質(zhì)量
陽光能提供熱能,溫度升高能加速葡萄的成熟。不僅如此,陽光也能為... -
開心麻花公布演出排期 爆笑家庭舞臺劇...
近日,開心麻花公布演出排期,爆笑家庭舞臺劇《婿事待發(fā)》將于11月1... -
紀(jì)實訪談節(jié)目《這十年·追光者》收官 ...
紀(jì)實訪談節(jié)目《這十年·追光者》10月23日晚在湖南衛(wèi)視迎來收官。最... -
深足利用定位球扳平比分 拿到了最近5輪...
昨晚,在??谖逶春芋w育場,深圳隊以2∶1驚險戰(zhàn)勝了陣容不整的河北... -
分時線怎么看?核電上市公司龍頭股有哪...
分時線可以這樣看:1、當(dāng)股價在均價曲線的下方往上運行,觸碰均線,... -
兩部門:多措并舉保障多晶硅合理產(chǎn)量 ...
人民網(wǎng)北京10月28日電(記者申佳平)據(jù)國家發(fā)展改革委官網(wǎng)消息,為... -
當(dāng)前信息:A股大盤創(chuàng)近半年新低!行業(yè)板...
A股大盤創(chuàng)近半年新低!行業(yè)板塊全線下跌,超4500只個股飄綠 -
17公里、31個紅綠燈、全程零接管,毫末...
近日,毫末智行首席交付官甄龍豹與魏牌副總經(jīng)理喬心昱也親自上陣,... -
環(huán)球播報:A股迎來緊急消息,下周將迎來...
A股迎來緊急消息,下周將迎來重大變盤時機,給所有散戶提個醒! -
疑似特斯拉緊湊車型曝光 價格或下探至1...
近日,日本媒體曝光了一組疑似特斯拉緊湊型車型的路試諜照。新車貼... -
柬埔寨到店!雷丁芒果Pro開啟海外銷售
10月28日,芒果Pro作為登陸柬埔寨的第二款雷丁產(chǎn)品正式到店,海外銷...