午夜精品久久久久久不卡,天天爽夜夜爽夜夜爽精品视频,午夜精品久久久久久久久久久久,天堂+中文+资源,天堂а√中文在线官网

  • 產(chǎn)品與服務矩陣
  • 資源中心
  • 關(guān)于我們

Pivotal Greenplum姚延棟:開源之后Greenplum仍在持續(xù)穩(wěn)定的發(fā)展

易觀 2016-10-28 8571
Pivotal Greenplum中國研發(fā)總經(jīng)理姚延棟受邀出席“2016易觀A10大數(shù)據(jù)應用峰會”, 并參與10月28日技術(shù)主論壇,發(fā)表了“Greenplum 5.0 Roadmap”的主題演講。

Pivotal Greenplum中國研發(fā)總經(jīng)理姚延棟受邀出席“2016易觀A10大數(shù)據(jù)應用峰會”, 并參與1028日技術(shù)主論壇,發(fā)表了Greenplum 5.0 Roadmap的主題演講。

姚延棟介紹了Pivotal Greenplum主要研發(fā)優(yōu)先級:關(guān)鍵數(shù)據(jù)倉庫可操作性強PostgreSQL保持對齊,不斷從PGSQL社區(qū)中提取思路和吸收PGSQL長處;支持云計算,能夠集成Aws,Azure,aliyun等,很容易在云上使用;多元分析,更多的算法和更多的接口。

Greenplum從一款從熟的企業(yè)級商業(yè)軟件到開源,已經(jīng)累積了上千家的用戶,并利用Greenplum 提供的解決方案取得了極大的性能提升和安全保障。Greemplum在開源后,正在和postgresql最新版本進行合并。5.0版本將于明年年初發(fā)布。Greenplum5.0在發(fā)布后,將提供更多postgresql中的新功能。包括json支持,xml增強,全文索引等。

以下是姚延棟演講實錄:

姚延棟:大家好!感謝王老師的介紹,非常高興,也非常榮幸到易觀大會來和大家介紹Greenplum,我是Greenplum中國的研發(fā)總經(jīng)理,負責Greenplum在中國研發(fā),我們有一個研發(fā)團隊,差不多40多個人。今天為什么來講一下Greenplum 5.0 Roadmap?我不知道多少人聽說過Greenplum產(chǎn)品,如果聽說的話請舉一下手,還不錯。Greenplum和前面幾位老總講的產(chǎn)品有點不同,它其實是一個企業(yè)級產(chǎn)品,已經(jīng)做了十幾年,我們在20151027號開源出來的,它在開源之前已經(jīng)有了上千家客戶,在他的企業(yè)級軟件環(huán)境里面,企業(yè)級數(shù)倉里面,已經(jīng)應用了Greenplum這樣的產(chǎn)品。今天我們講Greenplum5.0最重要的意義是自從開源之后我們第一個開源后的發(fā)布是5.0,這意味著5.0發(fā)布之后你會有開源版,從社區(qū)下載裝到企業(yè)里面就可以用,這是穩(wěn)定版,如果不是穩(wěn)定版,下載任意一個的話,它是沒有經(jīng)過我們完整測試的,也是一個非常不完整的狀態(tài)。

我們有些工作已經(jīng)做完了,大家可以看到這些工作,你下載代碼就包含我們已經(jīng)做完的所有這些部署,對于計劃要做的這部分我們可能會有變化,但基本上變化不大。

Greenplum這樣一個產(chǎn)品從開源之后也有好多人說為什么企業(yè)級產(chǎn)品做的這么好還要開源,是不是投資策略有變化?我們整個公司策略是基于開源,我們希望通過“三駕馬車”這樣一個PaaS平臺,幫助世界變革現(xiàn)有軟件開發(fā)方式。所以我們整個開源是在這么大的戰(zhàn)略之下而做出的,我們也可以看到開源之后Greenplum仍然在持續(xù)穩(wěn)定的發(fā)展?,F(xiàn)在我們在全球有34個國家有Greenplum團隊,包含研發(fā)團隊、銷售團隊、支持團隊,我們在工程師方面的投資也在持續(xù)增長,我們的客戶也在不斷增長。

自從開源之后大家非常關(guān)心這樣一個數(shù)據(jù)庫產(chǎn)品,數(shù)據(jù)庫本身是非常復雜的一個東西,分布式系統(tǒng)也是一個非常復雜的東西,分布式數(shù)據(jù)庫這兩個復雜的東西加在一塊兒將會更復雜。所以這樣一個產(chǎn)品能夠有一些開源的項目技術(shù)難度和壁壘是非常高的。但我們非常高興的是,開源之后開源社區(qū)里有上千個commits,也有20多個社區(qū)成員做contributors,非常高興。在開源之后我們的releases也是非常持續(xù)的發(fā)布,在過去幾個月之內(nèi),這里寫的是8個releases。我們的主頁Greenplum1600多個,透明的支持事物的線性數(shù)據(jù)庫,這個成績還是蠻好的。關(guān)于5.0什么時候releases,我們內(nèi)部計劃是明年年初,大概在第一季度。

Greenplum作為一個數(shù)據(jù)庫產(chǎn)品,肯定所有的產(chǎn)品都想成為市場的NO.1,Greenplum同樣也是如此。怎么樣幫助客戶從現(xiàn)有的平臺里面進行遷移,包含以前用的一體機,很容易down,我們幫助他們從現(xiàn)有平臺遷移到分布式的數(shù)據(jù)架構(gòu)上面。后面我們會提到Greenplum基于MPP postgre SQL一個開源數(shù)據(jù)庫產(chǎn)品。

我們現(xiàn)在看一下Greenplum實際應用產(chǎn)品。第一個是歐洲非常大的保險公司,他最近剛剛把企業(yè)級倉庫遷移到Greenplum,他之前寫了大量的腳本,包含存儲過程,這個量非常大,他需要做遷移。第二個,你遷移之后再寫新的腳本變得更容易。還有一個,你遷移完之后我們期望你的性能會更好。解決方案是使用Greenplum數(shù)據(jù)庫產(chǎn)品,Greenplum本身可以只買軟件,也可以買DCA,所以這個公司用了DCA V2產(chǎn)品,使性能有了90%的提升。

第二個是用于欺詐檢測,這是美國的一個公司。有一個內(nèi)部平臺防止識別欺詐性的報稅信息,他現(xiàn)有平臺無法滿足對大量數(shù)據(jù)的快速分析以及他的性能,他現(xiàn)在用的是SaaS產(chǎn)品做他的模型構(gòu)建以及數(shù)據(jù)分析,SaaS在他現(xiàn)有平臺上變得非常慢,而且不能滿足大量的政府員工運行查詢,遷移到Greenplum里面去,性能非???。除此之外,還有實時分析,他們同樣也有這個需求,我們公司有另外一個產(chǎn)品叫GemFire,大家可能聽說過12306使用GemFire來服務春節(jié)期間票務查詢和訂購,這個報道之后印度鐵道部也采用了GemFire產(chǎn)品處理他們的票務信息。投資銀行風控,這個是摩根斯坦利,摩根斯坦利是我們比較大的客戶,解決了數(shù)據(jù)存儲不了,存儲之后不能分析的痛點,遷移之后它的性能有十幾倍的提升。使得開發(fā)人員、BI人員,或者是數(shù)據(jù)科學家,可以用很多種語言寫你的模型,最典型的是有R語言,PaaS語言,java等語言,然后來擴展GPDB的功能,實現(xiàn)自己的需求。

這是一個網(wǎng)絡用戶行為日常檢測,這個客戶他用了GPDB之后,使用了一些圖的數(shù)據(jù)挖掘算法,用來構(gòu)建圖的模型和行為模型,我們用了MPP架構(gòu),他們使用了PL/R擴展語言,速度呈十幾倍幾十倍的提高。這個是阿里巴巴,阿里巴巴前幾天把Greenplum放在阿里云上面提供數(shù)據(jù)分析服務,這個可以從網(wǎng)上看到消息。除此之外,易觀也有一個產(chǎn)品易觀方舟接入了Greenplum開源產(chǎn)品。

前面我們提了一下Greenplum這樣一個產(chǎn)品在企業(yè)級是怎么用的一些場景,下面我們聊一下Greenplum研發(fā)主要的priorities。第一個,這樣一個集群,或者說很多的集群,幾百臺機器,上千臺機器,很容易管理和使用,出了故障很容易使用。第二個,和Postgre SQL的一致,我們現(xiàn)在的策略是持續(xù)保持和Postgre SQL社區(qū)保持一致,滿足客戶的痛點和最主要的需求。第三個,Cloud的支持也在發(fā)展中,從GPDB里面可以讀寫S3的數(shù)據(jù),對External HDFS支持我們計劃之中。第四個,怎么樣做數(shù)據(jù)分析,后面會提到我們有一個產(chǎn)品,是開源的,可以使得你在內(nèi)部做數(shù)據(jù)挖掘處理。前面提到我們是基于PG,而且是2015年歐洲PG大會里面我們正式宣布開源,我們一直和PG保持一致,這個一致我們有兩個維度,第一個維度是橫向一致性,PG8.3、8.49.1、9.2到現(xiàn)在的9.6,后面會有9.7、10.0的發(fā)展,我們從大的版本上橫向和他保持一致,目前5.0已經(jīng)是8.3,花了差不多一年時間,從8.28.3,看起來好像不是特別的大的區(qū)別,因為只有非常小的版本變化,但如果你想一想一個數(shù)據(jù)庫產(chǎn)品七八年的開發(fā),它的分歧是非常大的,貢獻了差不多50萬行代碼在里面,這個代碼是分散在非常多的核心代碼之內(nèi)。所以第一次的困難非常多,我們解決了這個問題,使得它更有模塊化,為后面打下了非常好的基礎(chǔ)。

除此之外,如果大家對PG熟悉的話,PG8.29.6,磁盤上存儲格式一直沒有發(fā)生變化,唯一例外是8.3他們改過一次,8.3之后磁盤上的數(shù)據(jù)文件和你9.6磁盤數(shù)據(jù)文件格式是一樣的,這樣的話也為我們以后打下了非常好的基礎(chǔ)。除了橫向我們還有縱向維度,根據(jù)我們主要的客戶反饋,說PG里面這個非常不錯,那個非常不錯,你什么時候支持,等到那個版本就支持了,他們說時間太久了,我們根本不可能等到那個時間。我們決定提前做,不用等到未來真的出現(xiàn)PG版本,現(xiàn)在5.0里面我們已經(jīng)實現(xiàn)了JSON,有一個非常重大的意義,以后不用考慮使用NoSQL,去替換以前的NoSQL數(shù)據(jù)庫。第二個是全文檢索已經(jīng)實現(xiàn)了,不管是性能還是類型、函數(shù)的增強,以及UUID,還有地理信息數(shù)據(jù),可以是圖像數(shù)據(jù)加載到GPDB里面進行處理。還有你不用定義函數(shù)調(diào)用,可以直接定義并調(diào)用。

另外一個是PG CONF我們進行了增強,把性能增加部分引入到GPDB中去。

GBText,8.3全文檢索是非常初級的檢索模塊,只能實現(xiàn)比較簡單的IDF構(gòu)建,簡單的查詢,有一些東西是做不到的,比如你如果是一個詞組的話,它是檢測不到的。GBText產(chǎn)品把兩個非常好的開源產(chǎn)品結(jié)合在一塊兒,第一個是DPDB,一個是Apache。GBText之后還有一個產(chǎn)品是madlib,是開源的Apache上的一個算法,當然,它要支持postgre sql,不需要你自己從頭寫算法,可以直接調(diào)用Python,直接對數(shù)據(jù)進行分析處理。另外一個產(chǎn)品是G2C,我們通過G2C項目,使得兩個數(shù)據(jù)產(chǎn)品可以通用??梢詮倪@里面非常方便的讀寫Greenplum數(shù)據(jù),也可以在Greenplum里面非常方便的讀寫Gemfire數(shù)據(jù)。包括怎么樣兩個產(chǎn)品實時同步,這樣的話你可以同一個產(chǎn)品線去滿足APTP這兩種需求。

還有High Available UI管理工具,可視化的監(jiān)控和管理的工具,使得你通過通訊化界面看到整個集群的運行狀態(tài)。

因為時間原因,后面有好多東西就沒辦法介紹了,如果大家對Greenplum產(chǎn)品感興趣的話可以線下交流,我們計劃12月份左右搞一個summit,如果對Greenplum技術(shù)感興趣的話歡迎大家去參加,謝謝大家。