午夜精品久久久久久不卡,天天爽夜夜爽夜夜爽精品视频,午夜精品久久久久久久久久久久,天堂+中文+资源,天堂а√中文在线官网

  • 產(chǎn)品與服務(wù)矩陣
  • 資源中心
  • 關(guān)于我們

Alluxio李浩源:如何融合數(shù)據(jù)與內(nèi)存速度

易觀 2016-10-28 7378
10月28日上午,“2016易觀A10大數(shù)據(jù)應(yīng)用峰會(huì)”主論壇《大數(shù)據(jù)基礎(chǔ)框架設(shè)計(jì)-實(shí)時(shí)分析技術(shù)平臺(tái)洞察與實(shí)踐》,Alluxio創(chuàng)始人兼CEO 李浩源受邀出席,并發(fā)表了“如何融合數(shù)據(jù)以內(nèi)存的速度”的主題演講。

1028日上午,“2016易觀A10大數(shù)據(jù)應(yīng)用峰會(huì)”主論壇《大數(shù)據(jù)基礎(chǔ)框架設(shè)計(jì)-實(shí)時(shí)分析技術(shù)平臺(tái)洞察與實(shí)踐》,Alluxio創(chuàng)始人兼CEO 李浩源受邀出席,并發(fā)表了“如何融合數(shù)據(jù)與內(nèi)存的速度”的主題演講。

對(duì)于為什么要選擇Alluxio,李浩源表示:第一,使得不同的數(shù)據(jù)中心的數(shù)據(jù)擁有內(nèi)存級(jí)別的訪問速度;第二,把不同存儲(chǔ)數(shù)據(jù)虛擬化;第三,Scale-out架構(gòu);第四,目前主要提供的是文件系統(tǒng)API。

Alluxio 的特性在于:有新的數(shù)據(jù)源,可以很容易融合到Alluxio,使上層框架可以專注高效計(jì)算的創(chuàng)新,使下層框架可以專注更高效的存儲(chǔ);性能:以內(nèi)存為核心的架構(gòu);方便:計(jì)算和存儲(chǔ)可伸縮。

以下是李浩源演講實(shí)錄:

李浩源:大家好!很高興再次回到北京。

我今天演講的題目是如何融合數(shù)據(jù)與內(nèi)存的速度,我是AlluxioCEO李浩源。

簡(jiǎn)單介紹一下Alluxio,我在四年前在UC Berkeley AMPLab讀博士期間創(chuàng)造了這個(gè)項(xiàng)目。為什么做這個(gè)項(xiàng)目呢?2013年,AMPLab做下一代大數(shù)據(jù)處理架構(gòu)平臺(tái)Berkeley Data Analytics Stack (BDAS),在2013BDAS中有兩個(gè)部件已經(jīng)在工業(yè)界有一定的影響力,并且已經(jīng)開始慢慢的被更多的企業(yè)所采用,其中一個(gè)是數(shù)據(jù)處理引擎Spark,另外一個(gè)是數(shù)據(jù)中心的資源管理平臺(tái)Mesos。但是當(dāng)時(shí)整個(gè)架構(gòu)中缺乏一個(gè)存儲(chǔ)層的解決方案,這是我們當(dāng)時(shí)做項(xiàng)目的初衷。2012年末,我寫出了Alluxio的第一版,當(dāng)時(shí)叫做Tachyon。第二年, 我們開源了Alluxio,使用Apache License 2.0。 2015年我們成立了公司,同時(shí)拿到了A16ZA輪投資。我們這個(gè)項(xiàng)目是一個(gè)開源項(xiàng)目,既然是開源項(xiàng)目就要談到開源項(xiàng)目的增長(zhǎng)。

我們開源大數(shù)據(jù)生態(tài)系統(tǒng)中成長(zhǎng)最快的項(xiàng)目,在三年的開源歷史中,這個(gè)圖顯示是300多人,目前是有400多人貢獻(xiàn)者在社區(qū)里,我這里誠(chéng)摯邀請(qǐng)對(duì)開源社區(qū)貢獻(xiàn)有興趣的朋友加入到開源社區(qū)里,無(wú)論是應(yīng)用還是開發(fā)我們都?xì)g迎。我們這個(gè)項(xiàng)目是以內(nèi)存的速度融合數(shù)據(jù),有很多不同的應(yīng)用場(chǎng)景,大數(shù)據(jù)就是其中之一。如果我們以大數(shù)據(jù)角度看這個(gè)問題首先來(lái)看大數(shù)據(jù)生態(tài)系統(tǒng)的演變歷史,目前的生態(tài)環(huán)境中有什么問題,在這個(gè)演變歷史中Alluxio解決什么問題,以及為整個(gè)生態(tài)系統(tǒng)帶來(lái)什么價(jià)值。十年前Google當(dāng)時(shí)提出了兩篇論文, GFSMapReduce,之后業(yè)界其他公司一起創(chuàng)建了Hadoop這套系統(tǒng),當(dāng)時(shí)的生態(tài)系統(tǒng)非常簡(jiǎn)單,只有兩個(gè)部件,分別負(fù)責(zé)計(jì)算和存儲(chǔ)。隨著過去十年的高速發(fā)展,最主要的體現(xiàn)是不同的企業(yè)和機(jī)構(gòu)他們收集以及存儲(chǔ)越來(lái)越多的數(shù)據(jù),在收集和存儲(chǔ)越來(lái)越多數(shù)據(jù)的同時(shí),他們也希望對(duì)這些數(shù)據(jù)做分析以帶來(lái)價(jià)值。

從此帶來(lái)的影響是什么呢?由于需要存儲(chǔ)更多的數(shù)據(jù),吸引了很多的存儲(chǔ)廠商,比如在美國(guó)有Google、亞馬遜或者微軟,在國(guó)內(nèi)有阿里巴巴、華為、百度等等,同時(shí)傳統(tǒng)的存儲(chǔ)廠商也越來(lái)越大力的投入以及挺入大數(shù)據(jù)存儲(chǔ)市場(chǎng),比如EMC、IBM、HPE,這些公司在這個(gè)市場(chǎng)都加大投入,這些對(duì)業(yè)界的影響是什么呢?在存儲(chǔ)角度來(lái)看,我們的客戶有更多的選擇,目前在市場(chǎng)來(lái)看,大約有多于30種不同的存儲(chǔ)方案,很多流行的存儲(chǔ)方案都是來(lái)自巨型的公司在進(jìn)行背書。從計(jì)算層角度看這個(gè)問題,隨著發(fā)展,有很多很多計(jì)算框架,國(guó)內(nèi)有非常著名的麒麟,是計(jì)算框架中非常流行的一種,計(jì)算框架有通用的計(jì)算框架,比如Spark,以及各種各樣的計(jì)算框架,大約目前來(lái)看在業(yè)界中有比較重要的市場(chǎng)份額,或者是營(yíng)業(yè)額的計(jì)算框架大約30多種,這是我們業(yè)界非常好的一個(gè)進(jìn)展,對(duì)我們客戶來(lái)講帶來(lái)了很多各種各樣的選擇。

但進(jìn)展的同時(shí)我們又有各種各樣的問題,其中最重要的一個(gè)問題是整個(gè)生態(tài)系統(tǒng)變得非常復(fù)雜,導(dǎo)致我們的客戶,特別是企業(yè)級(jí)客戶,如何來(lái)高效的簡(jiǎn)易的使用各種各樣的方案,在一個(gè)型數(shù)據(jù)中心,或者是跨數(shù)據(jù)中心的平臺(tái)中有效使用不同的解決方案,是非常困難的一個(gè)問題。與此同時(shí),由于各種各樣的存儲(chǔ),這里的存儲(chǔ)并不一定是為這種分析所設(shè)計(jì)的方案,所以很多時(shí)候性能很差。

從大數(shù)據(jù)角度講,在這個(gè)大背景下我們引入了Alluxio系統(tǒng),把數(shù)據(jù)在不同存儲(chǔ)中進(jìn)行融合,以內(nèi)存的速度提供給上層平臺(tái)。舉一個(gè)例子,從客戶角度來(lái)講,比如說(shuō)你可以用Spark,或者是麒麟,各種各樣的計(jì)算框架,使用不同計(jì)算框架的同時(shí),把Alluxio和這些計(jì)算框架在同樣的計(jì)算中心一起部署,如何來(lái)訪問數(shù)據(jù),如何來(lái)移動(dòng)數(shù)據(jù),如何高效把數(shù)據(jù)放在該放的地方,提供最快速的IO給上層。你可以類比成什么呢?比如五年、十年前,當(dāng)你還用PC的時(shí)候,在你的PC系統(tǒng)你可能有SSD或者HDD,可以是不同廠商生產(chǎn),在這種情況下,更復(fù)雜的情況,你可能還有不同的NFS,你的遠(yuǎn)處文件系統(tǒng),比如NFS可能是微軟提供,也可能是其他提供的,但無(wú)論你用什么樣底層基礎(chǔ),對(duì)客戶來(lái)講非常簡(jiǎn)單,你看到的只不過是文件夾。我們Alluxio所做的事情就是在一個(gè)數(shù)據(jù)中心環(huán)境中,或者是跨數(shù)據(jù)中心環(huán)境中,無(wú)論你是私有云、公有云還是混合云部署,你都可以把所有存儲(chǔ)看成Alluxio里的文件夾。比如你可以把亞馬遜的S3,或者阿里巴巴的OSS放在Alluxio文件夾使用,非常簡(jiǎn)易,這是我們Alluxio提供的一個(gè)功能。

一句話講,Alluxio做的事情可以讓不同的計(jì)算框架以及不同的應(yīng)用不需要修改它的代碼的情況下,可以很容易很高效并且高速的訪問不同數(shù)據(jù)源中的數(shù)據(jù)。

我們講一下為什么大家用Alluxio,它不同的地方是什么。第一點(diǎn),在目前這個(gè)時(shí)代有數(shù)據(jù)和存儲(chǔ)在一起,有數(shù)據(jù)和存儲(chǔ)分離,也有數(shù)據(jù)既在一起又分離的情況,但無(wú)論如何,從Alluxio部署角度來(lái)講,我們永遠(yuǎn)是跟計(jì)算在一起的,但是我們同時(shí)又智能化的來(lái)移動(dòng)數(shù)據(jù),來(lái)保證短期最近的數(shù)據(jù)是在離計(jì)算最近的地方,保證最高效的訪問。比如剛才郭總提到數(shù)據(jù)的時(shí)效性,在Alluxio部署里面很好的體現(xiàn)了這一點(diǎn),我們有一個(gè)在財(cái)富排行榜中排前十名的客戶,這家客戶使用Alluxio,把他最熱的數(shù)據(jù)放在Alluxio里面,對(duì)他的數(shù)據(jù)分析帶來(lái)了5倍提升。

第二點(diǎn),把不同存儲(chǔ)數(shù)據(jù)虛擬化,從客戶角度來(lái)講,如果把這些數(shù)據(jù)虛擬化帶來(lái)了未來(lái)架構(gòu)的保障,在未來(lái)架構(gòu)中,如果用Alluxio在中間,底層現(xiàn)在用一個(gè)系統(tǒng),將來(lái)你可以很容易的把底層換成一個(gè)更為高效的系統(tǒng)B,從這個(gè)角度講我們有非常大的優(yōu)勢(shì)在里面,并且我們有一些銀行客戶目前是這么一個(gè)使用方式。

第三點(diǎn),我們是一個(gè)Scale-out架構(gòu),優(yōu)勢(shì)是Alluxio可以部署在5臺(tái)機(jī)器、50臺(tái)機(jī)器、或者5000臺(tái)機(jī)器,Alluxio都可以有很高效的性能提升。

最后一點(diǎn),目前Alluxio主要提供的是文件系統(tǒng)API,全軟件解決方案,部署Alluxio不需要額外配置多余的硬件,你可以在現(xiàn)有環(huán)境中直接部署,可以為客戶直接帶來(lái)很多價(jià)值,同時(shí)沒有硬件額外的開銷。

下面講一下Alluxio給我們用戶帶來(lái)的價(jià)值是什么。第一是融合,無(wú)論你是有新的數(shù)據(jù),數(shù)據(jù)源,或者是有新的計(jì)算,你可以很容易的融合到這個(gè)平臺(tái)。在伯克利我的導(dǎo)師之一Ion Stoica,他是這么評(píng)價(jià)Alluxio的。他說(shuō)Alluxio對(duì)于存儲(chǔ)來(lái)講就類似于在互聯(lián)網(wǎng)架構(gòu)中IP這一層對(duì)于互聯(lián)網(wǎng)的影響。什么意思呢?IP作為互聯(lián)網(wǎng)架構(gòu)中的一個(gè)中間的Narrow Wrist,起來(lái)的效果是可以讓上層和下層更加高速的獨(dú)立創(chuàng)新,上層創(chuàng)新的時(shí)候不需要關(guān)心下層所帶來(lái)的問題。Alluxio起到一樣的功能,把Alluxio放在中間,從上層廠商角度講,和Alluxio融合后不需要花費(fèi)精力不同的存儲(chǔ)進(jìn)行融合,從而把他的精力更多使用在如何使計(jì)算框架變得更加高效。與此同時(shí),Alluxio對(duì)下層產(chǎn)生一樣的效果,對(duì)于存儲(chǔ)廠商,和Alluxio融合后,Alluxio和可以使得很多新的解決方案構(gòu)建在存儲(chǔ)平臺(tái)上,存儲(chǔ)廠商不需要快速跟進(jìn)新的解決方案,從而把更大的精力花在如何讓他的存儲(chǔ)平臺(tái)更為有效,更為高效,節(jié)省客戶的開銷 。

第二個(gè)好處是性能,性能角度來(lái)講,由于Alluxio是內(nèi)存為核心的架構(gòu),并且我們的部署方式和很多計(jì)算平臺(tái)在一起,所以在使用Alluxio情況下,用戶很多情況下看到成倍的性能增長(zhǎng)。我們一會(huì)兒有幾個(gè)具體的案例和大家分享。

最后一點(diǎn)是靈活,在使用Alluxio的情況下,無(wú)論增長(zhǎng)存儲(chǔ)容量,或者是計(jì)算能力,用戶可以獨(dú)立的讓它們?cè)鲩L(zhǎng)。在這個(gè)情況下一個(gè)直接的價(jià)值是節(jié)省整個(gè)架構(gòu)對(duì) 公司,或者是機(jī)構(gòu)帶來(lái)的開銷 。

Alluxio在全球有很多部署和合作伙伴,這里只是其中一小部分,有全球的互聯(lián)網(wǎng)廠商,比如百度、Google,從大的IT廠商,比如IBM或者華為,一個(gè)半月前在上海我們宣布了和華為聯(lián)合解決方案的推出。再比如原子碰撞中心、歐洲的CERN在使用Alluxio,美國(guó)的地理信息公司, ESRI在使用Alluxio,歐洲的電信運(yùn)營(yíng)商Swisscom也在用Alluxio。

在這個(gè)分享中,我們?cè)敿?xì)講解了三個(gè)部署,一個(gè)是百度,一個(gè)是歐洲第二大商業(yè)銀行BARCLAYS,最后是國(guó)內(nèi)的去哪兒網(wǎng)。

百度這個(gè)部署案例中使用Alluxio來(lái)加速遠(yuǎn)程數(shù)據(jù)IO,在具體部署中Alluxio上層使用的是Spark,Alluxio下層使用的是百度自己的文件系統(tǒng),這個(gè)系統(tǒng)在產(chǎn)品線中已跑了兩年,有200個(gè)節(jié)點(diǎn)部署,Alluxio管理了大概2PB數(shù)據(jù)空間。我們使用Alluxio層級(jí)化存儲(chǔ)管理,具體案例中百度的產(chǎn)品經(jīng)理以及分析師每天對(duì)這個(gè)系統(tǒng)做查詢,可以實(shí)時(shí)有效的為他們產(chǎn)品未來(lái)設(shè)計(jì)以及商業(yè)決定做出分析。百度的架構(gòu)師寫了一篇非常詳細(xì)的架構(gòu)分析,對(duì)比使用Alluxio前后,他們發(fā)現(xiàn)使用Alluxio對(duì)他們產(chǎn)品的解決方案帶來(lái)5-30倍的性能提升,與此同時(shí),從根本上改變了這個(gè)解決方案用戶對(duì)于整個(gè)數(shù)據(jù)交互的使用方式。

第二個(gè)是BARCLAYS解決方案,BARCLAYSAlluxio在不同的應(yīng)用之間高效的分享數(shù)據(jù)。BarclaysTeradata中數(shù)據(jù)拿出來(lái)放在Alluxio中,用Spark對(duì)Alluxio數(shù)據(jù)進(jìn)行查詢和實(shí)時(shí)的機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)結(jié)果給風(fēng)險(xiǎn)分析部門使用,讓他們更有效更快速的把新的結(jié)果應(yīng)用在風(fēng)險(xiǎn)分析中。這和郭總講的金融機(jī)構(gòu)使用的案例大致講是一樣的。BARCLAYS這個(gè)部門的首席架構(gòu)師對(duì)這個(gè)方案寫了一個(gè)特別詳細(xì)的架構(gòu)分析,在架構(gòu)分析中講解了他們的結(jié)果,原來(lái)由于在數(shù)據(jù)挪出要做ETL,目前把數(shù)據(jù)放在Alluxio里面,可以在不同Spark分析之中很容易的進(jìn)行數(shù)據(jù)共享,導(dǎo)致了他的數(shù)據(jù)分析結(jié)果從小時(shí)級(jí)變成了秒級(jí),這是對(duì)他們的一個(gè)質(zhì)的飛躍。

另外還有一個(gè)非常有意思的點(diǎn),如果臺(tái)下有公司在歐洲有業(yè)務(wù)的話,歐洲數(shù)據(jù)保護(hù)法案非常嚴(yán)格,Alluxio可以滿足以前不能被數(shù)據(jù)保護(hù)的法案,有法規(guī)規(guī)定不可以把數(shù)據(jù)放到任何磁盤形式的系統(tǒng)之中,從這個(gè)角度來(lái)講,可以用Alluxio滿足歐洲產(chǎn)業(yè)對(duì)數(shù)據(jù)管理規(guī)定。我們跟一些其他的公司合作,他們?cè)跉W洲有數(shù)據(jù)分析需求,有類似的情況。

最后是去哪兒的案例。去哪兒用Alluxio來(lái)管理不同存儲(chǔ)中混合系統(tǒng)架構(gòu),管理兩個(gè)系統(tǒng),HDFSCeph,中的數(shù)據(jù),Alluxio上層同時(shí)使用Spark StreamingFlink做實(shí)時(shí)的機(jī)器分析,分析結(jié)果可以用來(lái)做他網(wǎng)站的廣告推薦,就像郭總開始講的,如果你買了一個(gè)手機(jī),你之后不應(yīng)該展現(xiàn)其他的手機(jī)廣告,而是應(yīng)該展現(xiàn)手機(jī)配件廣告。把這個(gè)系統(tǒng)變成實(shí)時(shí)系統(tǒng)對(duì)他們的業(yè)務(wù)會(huì)有極大的提升。與此同時(shí),他們產(chǎn)品線現(xiàn)在有一年多時(shí)間了,他們非常喜歡融合的概念,可以在不同的系統(tǒng)中讀數(shù)據(jù),與此同時(shí),在性能上也有很大的提升。

最后講一下昨天我們的一個(gè)產(chǎn)品發(fā)布,TechCrunchForbes都做了報(bào)道。首先Alluxio社區(qū)版,包括開源Alluxio以及Alluxio Manager,它的價(jià)值是使Alluxio更加簡(jiǎn)單的部署使用以及監(jiān)測(cè),社區(qū)版可以免費(fèi)下載使用。與此同時(shí),為了滿足我們?cè)谄髽I(yè)客戶,特別是世界500強(qiáng),或者是全球2000客戶的需求,我們也提出了Alluxio企業(yè)版,企業(yè)版中有更多的企業(yè)級(jí)功能,比如安全,數(shù)據(jù)多備份等等,與此同時(shí),Alluxio公司還對(duì)Alluxio企業(yè)版客戶提供企業(yè)級(jí)的支持保障。希望這些產(chǎn)品可以滿足不同客戶級(jí)別的需求,從而使得更多公司機(jī)構(gòu)可以得到Alluxio技術(shù)所帶來(lái)的價(jià)值。

我今天的演講就到這里,謝謝大家。