色婷婷综合在线,在线日韩欧美一区二区三区,欧美日韩中文字幕在线,一区国产视频,极品嫩模,h美女漫画网站,亚洲wuma

您的位置:首頁>基金 >

做計算和存儲的中間層,「Alluxio」用“緩存機制”提高企業(yè)調(diào)取數(shù)據(jù)的效率

2021-11-28 09:22:44    來源:創(chuàng)業(yè)邦

著名的計算機專家David Wheeler曾說過,“在計算機領(lǐng)域所有的問題,沒有任何一個問題不能通過添加一層抽象來解決。”

Alluxio創(chuàng)立于2015年,是全球首創(chuàng)開源云原生數(shù)據(jù)編排軟件開發(fā)商,為解決數(shù)據(jù)本地、數(shù)據(jù)抽象以及可訪問等技術(shù)難題,Alluxio在計算和存儲的中間插入了一個數(shù)據(jù)編排層。該數(shù)據(jù)編排層就是Alluxio帶給計算機領(lǐng)域的一層抽象。

Alluxio的創(chuàng)始人兼CEO李浩源本科畢業(yè)于北京大學(xué)計算機系,曾代表北京大學(xué)獲得大學(xué)生國際編程比賽(ACM ICPC)全球第11名。在康奈爾大學(xué)獲取碩士學(xué)位后,又繼續(xù)在加州大學(xué)伯克利分校AMPLab攻讀博士,博士期間,師從分布式系統(tǒng)和網(wǎng)絡(luò)領(lǐng)域的泰斗Ion Stoica教授和Scott Shenker教授。在SOSP/NSDI等國際頂級會議發(fā)表論文10余篇,Google Scholar 引用量達(dá)3000+。

博士期間,李浩源在AMP實驗室里孵化了Alluxio(曾用名Tachyon)的技術(shù)原型,并獲得了硅谷和中國著名風(fēng)投機構(gòu)的投資,而后正式成立Alluxio公司并致力于該技術(shù)的商業(yè)化。今年,依據(jù)Google在Github上發(fā)布的評選結(jié)果,Alluxio領(lǐng)導(dǎo)的開源社區(qū)項目被評為全球最重要的Java開源項目前十名。

公司的核心產(chǎn)品Alluxio系統(tǒng),是全球首個分布式超大規(guī)模數(shù)據(jù)編排系統(tǒng)。自項目開源以來,已有超過來自300多個組織機構(gòu)的1100多位貢獻(xiàn)者參與開發(fā)。Alluxio能夠在跨集群、跨區(qū)域、跨國家的任何云中將數(shù)據(jù)更緊密地編排,以接近數(shù)據(jù)分析和AI/ML應(yīng)用程序,從而向上層應(yīng)用提供了內(nèi)存級別的數(shù)據(jù)訪問速度。

如今,人們已經(jīng)身處信息爆炸時代,用大數(shù)據(jù)來引發(fā)一場新的革命不再是一次對幾年后的預(yù)言。越來越多的企業(yè)數(shù)據(jù)量已經(jīng)達(dá)到上億級,數(shù)據(jù)源爆炸式增長、數(shù)據(jù)云上遷移,以及大數(shù)據(jù)技術(shù)棧和廠商呈碎片化趨勢等問題,對數(shù)據(jù)平臺的架構(gòu)提出了敏捷性、成本效益、性能等各種要求。面對如此龐大的數(shù)據(jù),企業(yè)如何更穩(wěn)定、快速的調(diào)取出來進行計算和機器學(xué)習(xí),成了很多技術(shù)人員要去解決的問題。

SQL是一種訪問、處理數(shù)據(jù)庫的計算機語言,MySQL、oracle這些都是SQL數(shù)據(jù)庫,能夠快速查詢和處理數(shù)據(jù),但它們的不足之處是只能查詢和處理一些小規(guī)模數(shù)據(jù),碰到以億為單位的海量數(shù)據(jù)時,性能和速度就會明顯下降。這種限制使得它們難以滿足當(dāng)下超大型企業(yè)的需求。

而它們難以做到的,Presto可以做到。Presto是一款FACEBOOK開源的MPP架構(gòu)的OLAP查詢引擎,也是一款可以針對不同數(shù)據(jù)源執(zhí)行大容量數(shù)據(jù)集的分布式SQL執(zhí)行引擎。

不同于傳統(tǒng)的數(shù)據(jù)庫去管理數(shù)據(jù)存儲,Presto是一款分布式SQL執(zhí)行引擎,它將計算和存儲分離,將存儲交給了HDFS、GCS、S3等第三方平臺,而自己只負(fù)責(zé)計算。如此,Presto就可以實現(xiàn)處理海量數(shù)據(jù)的功能。但也正是由于Presto不負(fù)責(zé)存儲,導(dǎo)致了企業(yè)在調(diào)取數(shù)據(jù)時,需要從儲存數(shù)據(jù)的源頭去讀取,在速度等方面表現(xiàn)較差。

舉個例子,雖然大家都覺得互聯(lián)網(wǎng)的速度非???,但當(dāng)你去國外旅行,跟家人視頻通話時,就會發(fā)現(xiàn)視頻的清晰度和流暢度遠(yuǎn)不如你和家人都在國內(nèi)時。原因在于數(shù)據(jù)的傳輸距離,傳輸距離變長了,就會有更多的網(wǎng)關(guān)、路由器,延時就會增長。Presto沒有存儲自己的數(shù)據(jù),要查詢?nèi)魏螖?shù)據(jù),都需要將數(shù)據(jù)集讀出來,將每行都掃描一遍,如此,讀取速度就非常依賴于網(wǎng)絡(luò)傳輸?shù)乃俣取?/p>

現(xiàn)在很多新興的互聯(lián)網(wǎng)公司最常用的一種架構(gòu),就是將數(shù)據(jù)完全上云,放在云平臺上,這樣企業(yè)自己就不用建數(shù)據(jù)中心了。但從云上調(diào)取數(shù)據(jù),一方面費用很高,另一方面調(diào)取速度很慢,更不用提如今有越來越多的將數(shù)據(jù)存放在硬盤上的企業(yè)了。

Alluxio對此的解決方法是,在計算和存儲之間做一層緩存機制,將該緩存機制和Presto或其他的計算引擎部署到一起。由于這類計算引擎并不負(fù)責(zé)存儲工作,該緩存機制作為中間層來負(fù)責(zé)存儲工作,這個中間層就是Alluxio。

Alluxio的數(shù)據(jù)編排層

那么Alluxio具體是如何工作的呢?

其實,在第一次調(diào)取數(shù)據(jù)時,Alluxio的速度會和Presto等計算引擎調(diào)取數(shù)據(jù)的速度是一樣的,真正的差別要從第二次開始計算。

因為Alluxio會在第一次調(diào)取數(shù)據(jù)后對數(shù)據(jù)進行緩存,當(dāng)企業(yè)第二次調(diào)取同樣的數(shù)據(jù)時,速度自然會成倍提高,加上如今企業(yè)的海量數(shù)據(jù)中,其實有很多數(shù)據(jù)都會被反復(fù)調(diào)取使用,緩存機制就大大提高了第二次調(diào)取后的效率。簡而言之即如果數(shù)據(jù)在Alluxio集群里邊,從Alluxio中就可以拿到,不用去數(shù)據(jù)中心重新讀取,如果該數(shù)據(jù)沒在Alluxio集群里,就讓Alluxio到云上將數(shù)據(jù)拿回來,并進行存儲。

此外,由于各種存儲方式的價格、不同地域?qū)?shù)據(jù)的管理政策不同,現(xiàn)在很多企業(yè)不會只局限于在一種云服務(wù)上,企業(yè)的數(shù)據(jù)就會分散在不同地區(qū)或者不同種類的數(shù)據(jù)存儲服務(wù)中。從不同的存儲服務(wù)中調(diào)取數(shù)據(jù),難免會存在一個“翻譯”的過程,Alluxio在該過程中起到了一個翻譯官的作用,可以支持用戶使用不同技術(shù)棧及訪問接口,而無需關(guān)心究竟底層使用了何種數(shù)據(jù)存儲服務(wù),從而讓數(shù)據(jù)流動更加透明和高效。

無論企業(yè)的數(shù)據(jù)平臺位于本地、公有云、還是混合云的環(huán)境,無論使用什么樣的技術(shù)棧,Alluxio都可以讓任何的計算對存儲實現(xiàn)高性能的訪問。通過把Alluxio部署在數(shù)據(jù)平臺里,企業(yè)可以靈活地測試和實施新技術(shù),從而保持敏捷性和競爭力。

李浩源告訴創(chuàng)業(yè)邦,“我們行業(yè)的演進主要來自整個社會和各行業(yè)數(shù)字化進程的驅(qū)動。由于社會和行業(yè)都更加數(shù)字化,數(shù)據(jù)越來越多,基于數(shù)據(jù)的存儲、數(shù)據(jù)分析、機器學(xué)習(xí)等各式各樣的產(chǎn)品在增加,導(dǎo)致出現(xiàn)了一個分割的數(shù)據(jù)世界和復(fù)雜的數(shù)據(jù)平臺,也就直接導(dǎo)致了數(shù)據(jù)調(diào)取的低效?!?/p>

Alluxio為數(shù)據(jù)驅(qū)動型應(yīng)用和存儲系統(tǒng)構(gòu)建了橋梁,將數(shù)據(jù)從存儲層移動到距離數(shù)據(jù)驅(qū)動型應(yīng)用更近的位置,從而不僅能夠更容易被訪問,還可以達(dá)到內(nèi)存級的訪問速度。同時,Alluxio還實現(xiàn)了應(yīng)用程序能夠通過一個公共接口連接到許多存儲系統(tǒng)。

11月18日,Alluxio宣布正式發(fā)布其數(shù)據(jù)編排平臺2.7版本,2.7版本通過并行數(shù)據(jù)加載、數(shù)據(jù)預(yù)處理和訓(xùn)練工作流,可將機器學(xué)習(xí)(ML)訓(xùn)練的I/O效率提高8-12倍,從而降低企業(yè)調(diào)取數(shù)據(jù)的成本。2.7版本還提供了更強的性能分析功能,能更好地支持Apache Hudi和Iceberg等開放表格格式,使得對數(shù)據(jù)湖的訪問更易于擴展,實現(xiàn)了Presto和Spark的數(shù)據(jù)分析能力的提速。

李浩源針對此次的2.7版本表示,“Alluxio 2.7版本進一步鞏固了Alluxio在云上人工智能、機器學(xué)習(xí)和深度學(xué)習(xí)方面的重要地位。隨著數(shù)據(jù)集的增長以及CPU和GPU計算能力的增強,機器學(xué)習(xí)和深度學(xué)習(xí)已成為AI主流技術(shù)。這些技術(shù)的興起推動了AI的發(fā)展,但也凸顯了數(shù)據(jù)和存儲系統(tǒng)訪問中存在的一些挑戰(zhàn)?!?/p>

當(dāng)前,Alluxio的合作伙伴超過九成都是世界五百強企業(yè),其所開創(chuàng)的數(shù)據(jù)編排技術(shù)已經(jīng)在不同垂直領(lǐng)域的國內(nèi)外頭部公司被廣泛應(yīng)用,其中不乏諸如Facebook、Amazon、騰訊、阿里巴巴、百度、聯(lián)通在內(nèi)的行業(yè)巨頭。全球十大互聯(lián)網(wǎng)公司中有八家已經(jīng)在生產(chǎn)環(huán)境中部署了Alluxio。

騰訊大數(shù)據(jù)平臺研發(fā)負(fù)責(zé)人陳鵬表示,“隨著越來越多的大數(shù)據(jù)和AI應(yīng)用容器化,作為加速數(shù)據(jù)分析和模型訓(xùn)練的中間層,Alluxio正在成為大型企業(yè)和機構(gòu)的首選?!?/p>

從行業(yè)的角度來看,Alluxio的客戶中,滲透率最高的是科技行業(yè),排在第二的是金融行業(yè),第三是電信行業(yè),第四是基因制藥行業(yè)。李浩源表示,出現(xiàn)這樣一個排序的原因在于當(dāng)一個行業(yè)數(shù)字化進程越深,Alluxio的軟件價值就越高,滲透率就會越高,自然而然使用的客戶就會越多。

值得一提的是,今年,在中國信通院發(fā)布的第二批32家開源供應(yīng)商名錄中,Alluxio憑借Alluxio云端數(shù)據(jù)編排平臺、Alluxio加速器和Alluxio虛擬數(shù)據(jù)湖,成功躋身云計算、中間件和大數(shù)據(jù)三大產(chǎn)品類型的開源供應(yīng)商。 

鑒于“開源開放”有助于推動我國數(shù)字化轉(zhuǎn)型和數(shù)字經(jīng)濟發(fā)展,“開源開放”已被列入我國十四五規(guī)劃和2035年遠(yuǎn)景目標(biāo)。

在此背景下,今年,Alluxio 宣布將大力拓展國內(nèi)市場業(yè)務(wù),將北京設(shè)立為中國區(qū)總部,并成立本地化的研發(fā)團隊,以快速響應(yīng)并滿足眾多國內(nèi)企業(yè)的個性化需求,以及推動扎根于中國的開源社區(qū)運營、治理和推廣,與行業(yè)一同搭建可信開源生態(tài)鏈,在國內(nèi)建設(shè)一個可持續(xù)發(fā)展的開源社區(qū)。Alluxio在其開源軟件Alluxio的基礎(chǔ)上進行封裝,未來,要向企業(yè)級客戶持續(xù)提供豐富的應(yīng)用場景,并不斷升級其軟件服務(wù)。

關(guān)鍵詞: 做計算和存儲的中間層 「Alluxio」用“緩存機制”提高企

相關(guān)閱讀

阿瓦提县| 乌拉特后旗| 册亨县| 纳雍县| 泰和县| 通河县| 盐山县| 革吉县| 邮箱| 洛川县| 西青区| 汽车| 永济市| 依安县| 安阳县| 买车| 龙胜| 贵定县| 广西| 钦州市| 毕节市| 同德县| 鄢陵县| 临汾市| 璧山县| 衢州市| 海原县| 武宁县| 奉节县| 富锦市| 永新县| 西畴县| 来凤县| 安阳市| 彭州市| 宜兰县| 溆浦县| 崇明县| 阿瓦提县| 贡山| 秦皇岛市|