2018易觀 A10峰會將于10月26日-27日在京舉行,易觀算法大賽也在如火如荼地進行中,本次大賽得到了選手們的踴躍參與。為了給認(rèn)真準(zhǔn)備大賽的選手們減減“壓”,今天特地給諸位參賽朋友們發(fā)福利啦。易觀算法大賽通關(guān)秘籍重磅來襲,還不趕緊來領(lǐng)!
▌賽題介紹
在了解通關(guān)秘籍前,當(dāng)然要介紹下我們大賽的主角——比賽賽題。本次大賽共設(shè)置了兩個賽題:漏斗計算和性別年齡預(yù)測。
什么是漏斗計算?漏斗計算是一套流程式數(shù)據(jù)分析,它能夠科學(xué)反映用戶行為狀態(tài)以及從起點到終點各階段用戶的轉(zhuǎn)化率情況。漏斗計算目前廣泛應(yīng)用于各行業(yè)流量監(jiān)控、產(chǎn)品目標(biāo)轉(zhuǎn)化等日常數(shù)據(jù)運營與數(shù)據(jù)分析的工作中。
例如在一個直播APP中,用戶從激活A(yù)PP開始到花費需要經(jīng)過激活A(yù)PP、注冊賬號、進入直播間、互動留言、禮物花費這5大過程,用戶在每一個階段都會有不同程度的流失,這就是一個漏斗模型。而漏斗計算就是統(tǒng)計分析整個過程中用戶的轉(zhuǎn)化率和留存率,從而更直觀地發(fā)現(xiàn)問題所在,明確優(yōu)化方向,及時提升產(chǎn)品用戶體驗。
上屆算法大賽以“有序漏斗”作為挑戰(zhàn)賽題,而今年的賽題相比去年則更具挑戰(zhàn)性。在技術(shù)層面上,今年的“漏斗計算”在算法上增加了關(guān)聯(lián)屬性、虛擬事件、重復(fù)事件、轉(zhuǎn)換時間中位數(shù)等場景,更貼合實際的業(yè)務(wù)場景。
除了漏斗計算賽題,今年還新增設(shè)性別年齡預(yù)測賽題。相比廣為人知的漏斗計算,性別年齡預(yù)測賽題反而得到了更多選手的青睞。原來利用大數(shù)據(jù)可以預(yù)測用戶性別和年齡,這簡直讓人不敢相信!
▌通關(guān)秘籍
說完賽題介紹,接下來進入重頭戲部分,本次大賽到底有何通關(guān)秘籍呢?
秘籍1:開始比賽前,游戲規(guī)則你get到了嗎?
如果想打開算法大賽的晉級大門,那肯定要先讀懂本次大賽的游戲規(guī)則,即大賽數(shù)據(jù)。數(shù)據(jù)是成為優(yōu)秀技術(shù)人才的基礎(chǔ),是機器世界溝通交流的必備語言,是成功開啟算法大賽的第一步。關(guān)于大賽數(shù)據(jù),你讀懂了多少呢?
秘籍2:站在風(fēng)口上,豬都能飛起來
“我能取得今天的成功都是因為站在了巨人的肩膀上?!鄙蠈靡子^算法大賽冠軍的實戰(zhàn)分享對你絕對有幫助。他建議選手們要認(rèn)真研究大賽賽題,注意細節(jié)點。此外,在測試數(shù)據(jù)時選好合適的數(shù)據(jù)庫。ClickHouse數(shù)據(jù)庫就是一個不錯的選擇,它是目前CPU領(lǐng)域最快的OLAP開源數(shù)據(jù)庫,系統(tǒng)架構(gòu)非常靈活,性能穩(wěn)定優(yōu)越,非常適合大數(shù)據(jù)下需要極致性能的應(yīng)用場景。
秘籍3:臨時抱佛腳,誰說沒有用
算法大賽火熱進行中,如何奪冠你想好了嗎?在此小編特地采訪了易觀資深技術(shù)專家代立冬老師。
代老師提到,本次比賽添加了模擬實時數(shù)據(jù)流入部分,建議選手們對這部分?jǐn)?shù)據(jù)使用HBase、Kudu等做為實時數(shù)據(jù)緩存區(qū),比賽前提供的更大量的數(shù)據(jù)做為歷史數(shù)據(jù)沉浸區(qū)。當(dāng)然數(shù)據(jù)格式遵循Common Data Model,為了更快速查詢,最好在Common Data Model基礎(chǔ)上建立相關(guān)索引。
此外,為實時數(shù)據(jù)緩存區(qū)和歷史數(shù)據(jù)沉浸區(qū)建立聯(lián)合視圖,用Presto自定義UDAF查詢聯(lián)合視圖,或者利用Spark等技術(shù)自定義相同邏輯。
最后,代老師友情提示,去年易觀的OLAP算法大賽漏斗代碼放在github上,選手們可以參考修改。同時選手們亦可參考去年奪得開源組冠軍使用Clickhouse技術(shù)的實現(xiàn)。
總之,對于漏斗計算,選手們需要思考如何通過設(shè)計合理的數(shù)據(jù)存儲結(jié)構(gòu)和較好的匹配查詢方式得出計算結(jié)果。易觀方舟在漏斗實踐中使用了IOTA架構(gòu),關(guān)于IOTA架構(gòu)的更多介紹請參考:Lambda架構(gòu)已死,去ETL化的IOTA才是未來。也歡迎選手們進入易觀“數(shù)據(jù)工會”群,大家共同交流。
最后,希望以上3個通關(guān)秘籍能助你一路狂奔,勇奪算法冠軍。未來的算法之星,期待你的精彩表現(xiàn)。10月26日-27日,在易觀A10大數(shù)據(jù)應(yīng)用峰會上,我們不見不散!
易觀算法大賽期待你的參與,詳情請前往官網(wǎng):http://ds.analysys.cn/sf.html
2018易觀A10峰會
單日票新鮮出爐
26日,旅游、金融、零售行業(yè)大咖齊上陣
27日,國際國內(nèi)技術(shù)大牛同臺切磋
隨心組合
共享年度大數(shù)據(jù)巔峰盛典
戳這里,參與優(yōu)惠活動吧~