午夜精品久久久久久不卡,天天爽夜夜爽夜夜爽精品视频,午夜精品久久久久久久久久久久,天堂+中文+资源,天堂а√中文在线官网

  • 產(chǎn)品與服務(wù)矩陣
  • 資源中心
  • 關(guān)于我們

Kyligence韓卿:融合多種優(yōu)化技術(shù)實現(xiàn)超高性能分析是Kylin的核心理念

易觀 2016-10-28 6669
Kyligence聯(lián)合創(chuàng)始人兼CEO韓卿受邀出席“2016易觀A10大數(shù)據(jù)應(yīng)用峰會”,并參與10月28日技術(shù)主論壇,發(fā)表了“基于Apache Kylin的實時OLAP實現(xiàn)”的主題演講。

Kyligence聯(lián)合創(chuàng)始人兼CEO韓卿受邀出席“2016易觀A10大數(shù)據(jù)應(yīng)用峰會”,并參與1028日技術(shù)主論壇,發(fā)表了“基于Apache Kylin的實時OLAP實現(xiàn)”的主題演講。

Kyling是中國唯一的Apache頂級開源項目,在萬億數(shù)據(jù)規(guī)模下,實現(xiàn)秒級/毫秒級的實時計算,韓卿表示,融合多種優(yōu)化技術(shù)實現(xiàn)超高性能分析是Kylin的核心理念,包括:并行計算,分布式計算,橫向擴展計算能力;空間換時間,通過索引/物化視圖/cube,減少計算機IO吞吐量;列式存儲,減少磁盤掃描范圍。

對于Kylin的近實時OLAP實現(xiàn)現(xiàn)有的挑戰(zhàn),韓卿認為主要有四點:第一,從數(shù)據(jù)查詢低延遲,到數(shù)據(jù)可達低延遲;第二,現(xiàn)有Cube 構(gòu)建基于批處理;第三,T1模式可以滿足絕大部分需求,但越來越多的業(yè)務(wù)希望做到實時或者近實時;第四,流數(shù)據(jù)源越來越多。

韓卿分享說,Kylin新的流式引擎設(shè)計目標(biāo)是:第一,重用既有KylinMR/Spark構(gòu)建引擎;第二,從幾千條到幾億條數(shù)據(jù),一次輕松構(gòu)建;第三,可隨意暫?;蚋臉?gòu)建頻率;第四,自動管理集群,彈性計算資源。

以下是韓卿演講實錄:

韓卿:大家上午好!

我今天演講的主題是基于Apache Kylin的實時OLAP實現(xiàn)。

由于當(dāng)時的倉庫智能技術(shù)已經(jīng)無法滿足,所以我們今天做到了萬億規(guī)模上秒級甚至毫秒級的OLAP分析,后面我會介紹一下。

我是麒麟的聯(lián)合創(chuàng)始人,Apache Kylin簡介,Kylin的近實時OLAP實現(xiàn),企業(yè)級的擴展,分享一下eBay在這方面的應(yīng)用案例。

關(guān)于Apache Kylin很多人應(yīng)該已經(jīng)知道了,這是目前完全由中國工程師貢獻到Apache軟件基金會的一個項目,我們和Apache Hadoop是在一個級別,所有研發(fā)人員都在中國和上海,我們非常驕傲。而且非常驕傲的一點是今年我們拿到了開源貢獻獎,和Google TensorFlow一起獲得該獎。更難得的是用戶的認可,一個東西好不好不是我來吹,而是用戶用不用。在全球我們有超過100多個實際案例在使用,而且都是非常大的,是哪些呢?大家看一下,這只是一部分,很多公司都在使用,把Apache Kylin運用在各個不同領(lǐng)域里面。

我稍微簡單介紹幾個。用戶行為分析,這是最大的一塊,比如百度地圖、地圖導(dǎo)航,廣東移動,整個前端查詢都在秒級,這是非常大的應(yīng)用。包括整體的數(shù)據(jù)集市、數(shù)據(jù)倉庫,還有唯品會大數(shù)據(jù)自助分析平臺,還有陸金所交易管理系統(tǒng)等等。所以Apache Kylin已經(jīng)解決了很多需求。我們來看一下怎么做到的,很簡單的原因,其實并沒有一種技術(shù)可以完美解決所有問題,這么多年來計算機發(fā)展就是這樣的。怎么辦呢?我們可以融合不同的技術(shù),我們可以把它組合在一起來看怎么優(yōu)勢發(fā)揮解決掉。所以Kylin做到了,并行計算空間換時間,既然不能在非常快的時間內(nèi)一下就把數(shù)據(jù)分析聚合給你,我是不是可以預(yù)先算好呢。這里的假設(shè)條件非常簡單,世界上99%,甚至更高的數(shù)據(jù),其實是不太會變的,你去年的交易數(shù)據(jù)和行為數(shù)據(jù)幾乎不變,只有最近實時數(shù)據(jù)會變,后面我會變。所以我們可以把數(shù)據(jù)做預(yù)先計算放起來,下次拿的時候就直接拿到結(jié)果,空間換時間,這是計算機領(lǐng)域里面最經(jīng)典的一種辦法。其實在OLAP里面這個技術(shù)就已經(jīng)用了,但是碰到什么問題呢?Down機。在eBay我們用的是另外一個工具,全球的基礎(chǔ)架構(gòu),當(dāng)時碰到的是用戶要查三年數(shù)據(jù),三年數(shù)據(jù)放進去,爆掉。還有一個問題,他完全是down機的,整個機器壓力很大,或者出現(xiàn)網(wǎng)絡(luò)漏洞。這也是為什么用到并行計算,并行計算帶來的好處是我可以利用Hadoop集群加快計算。

舉一個例子,之前我們對比過,一個用一體機的技術(shù)構(gòu)建整個東西,八個小時,用我們這樣的技術(shù)40分鐘,帶來的數(shù)據(jù)遠遠大于那個構(gòu)成,隨之而來的是數(shù)據(jù)容量非常大,今天我們已經(jīng)處理到萬億規(guī)模的級別。另外,以往的存儲很多是單機存儲,存在文件里,再加到內(nèi)存里,今天我們充分利用了列式存儲,我們把它作為列式存儲,這樣訪問的時候會更快,我們非常好的利用了所有的技術(shù)去構(gòu)建Apache Kylin平臺,今天能夠有效解決在超大規(guī)模上做快速分析的挑戰(zhàn)。這個是空間換時間最最基本的原理,我不多做介紹了,做數(shù)據(jù)分析的人都知道。每個分析師每個老板問你的問題一定是基于維度分析,一定是結(jié)構(gòu)化的數(shù)據(jù)模型。

我怎么做預(yù)先計算,我們基于這樣的模型構(gòu)建整個立方體,做各種各樣的組合。當(dāng)然,你們可能會有一個問題,把所有的都算起來在數(shù)學(xué)上就是數(shù)字的N次方,會爆炸的。我們Kylin把這個問題解決掉了,有效降低了存儲,有效避免了很多無效運算,這是為我們帶來的好處。這是列式存儲。另外一點,在查詢的時候,Kylin計算復(fù)雜度是O1,我已經(jīng)算好了,你給我同樣SQL語句的時候我是拿得到的,數(shù)據(jù)量越大,超過十億、百億規(guī)模的時候發(fā)現(xiàn)任何存儲都做不到,原因是給定規(guī)模的情況下,算法使得查詢性能與數(shù)據(jù)集大小無關(guān),讓你的業(yè)務(wù)人員能夠在最快的速度內(nèi)做他的決策支持,這是最重要的。

總結(jié)一下,這是Kylin的測試報告,來自網(wǎng)易杭州研究院。他們拿的數(shù)據(jù)是網(wǎng)易云音樂,你們聽網(wǎng)易云音樂用戶的數(shù)據(jù)都在這個集群上。左邊是他的查詢,中間的是top20,今天看看中國人都在聽哪些歌。并發(fā)上去的時候會忙的要死,但Kylin帶來的好處是我們的并發(fā)非常高,我再分享一個案例,京東云平臺已經(jīng)把Kylin當(dāng)作對外服務(wù)平臺,每天的KPI非常高??匆幌潞唵蔚募軜?gòu)圖,前面是原理,他是怎么做的,全部以界面形式幫你做,意味著你用Kylin上一個大數(shù)據(jù)項目的時候大大節(jié)省成本。最上面不管你用任何的BI工具,任何的第三方工具,都可以通過標(biāo)準SQL來訪問,后臺做交互,你可以用你非常喜歡的應(yīng)用,都可以來連,我們能保證速度很快,你不需要再去寫代碼。

Kylin是一個OLAP,本質(zhì)原因是我需要做預(yù)計算,跑批量的,問題是數(shù)據(jù)是越來越實時,老板不僅僅是掏出手機想看到報表,我想掏出手機看到過去5分鐘、10分鐘業(yè)務(wù)變化的情況,這又帶來另外一個挑戰(zhàn),數(shù)據(jù)怎么實時進來。下面我介紹一下Kylin的近實時OLAP實現(xiàn),明年會推實時。這里很重要的原因是OLAP用戶,全實時技術(shù)很多時候你的消費者應(yīng)用,比如做欺詐分析,很多時候前面數(shù)據(jù)進來的時候,你要觸發(fā)下一個應(yīng)用。但OLAP不是,因為OLAP的用戶是人,是你的分析師,是你的老板,是你的客戶,沒有一個人一秒不停的盯著屏幕看東西,所以近實時能夠滿足99%以上的應(yīng)用。

數(shù)據(jù)查詢低延遲已經(jīng)解決的很好了,我們要解決到數(shù)據(jù)可達低延遲?,F(xiàn)有Cube構(gòu)建于批處理,T+1模式可以滿足絕大部分需求。

我們的目標(biāo)是重用既有KylinMR/Spark構(gòu)建引擎。從幾千條到幾億條數(shù)據(jù),一次輕松構(gòu)建,不要太復(fù)雜??呻S意暫?;蚋臉?gòu)建頻率。自動管理集群,彈性計算資源等等,我們?nèi)孔銎饋砹恕?span lang="EN-US">

為了這樣的變化,我們?nèi)ツ曜隽朔浅4蟮膽?yīng)用,我們把所有的架構(gòu)變成可插件式的架構(gòu)。稍微簡單介紹一下Segment技術(shù),Segmentoffset切分,不能有重合,Segment之間允許有時間值重合,確保了數(shù)據(jù)一致性和查詢準確性。我們也會處理數(shù)據(jù)晚到,帶來的好處是這個數(shù)據(jù)進來之后你在分鐘級就可以看到所有過程。這個是Twitter的實例,跑得非常好。隔5分鐘跑一個批量,今年數(shù)據(jù)大概在幾億規(guī)模的樣子,查詢?nèi)渴敲爰壍模沂遣荚趪鈦嗰R遜上,速度非???,國外的Twitter還是很有意思的。

我們看一下eBay實例,SEO儀表盤,從搜索引擎過來轉(zhuǎn)化效率更高,你搜索一個相機,點到eBay界面就下單了,每天在eBay的量超過幾百億,占eBay10%以上,轉(zhuǎn)化率非常高,基本上搜索過來就要買的。很重要的是,我們不僅僅做到了,而且用分析師最喜歡的東西做到了,你可以用SQL語句去查,對分析師來說不需要改任何的東西。這是下一步,我們明年要做的很大一部分工作。

最后看一下我們企業(yè)級的擴展,Apache Kylin是開源的,這家公司完全是Apache Kylin的貢獻者創(chuàng)造的公司,我們會通過KAP。這是存儲,我們今天可以有信心告訴你們,HBase換了,全新的Spark+列式存儲,我可以支撐更多的columns分析需求。舉一個例子,超寬表,我們現(xiàn)在能夠做到的是上千列的超寬表,應(yīng)用場景是什么?用戶畫像,還有超寬的交易數(shù)據(jù),還有IOT,我們最近在做IOT方面的POC,這是我們的測試。我的查詢計算是O1的。

非常感謝,謝謝!