引言
移動(dòng)互聯(lián)網(wǎng)尝艘、物聯(lián)網(wǎng)時(shí)代的到來,使得數(shù)據(jù)量級(jí)呈幾何級(jí)爆炸性增長姿染,?百億級(jí)數(shù)據(jù)處理已經(jīng)不新鮮背亥,數(shù)據(jù)量猛增也對大數(shù)據(jù)處理鏈條的各個(gè)環(huán)節(jié)提出了新的要求和挑戰(zhàn),這態(tài)勢也使得國內(nèi)的大數(shù)據(jù)技術(shù)得以嶄露頭角悬赏,出現(xiàn)了不少由國人主導(dǎo)的國際性項(xiàng)目狡汉。
大數(shù)據(jù)前沿到底發(fā)生了哪些變化,數(shù)據(jù)技術(shù)專場特別邀請了 12 位一線大咖來分享國內(nèi)外最前沿的先進(jìn)技術(shù)和全球的開源現(xiàn)狀及趨勢闽颇。由于疫情原因轴猎,非常歡迎大家直播時(shí)多多交流,也歡迎為開源獻(xiàn)上一份自己的力量进萄。
1
第一場 10月24日 13:30?開始
主持人
繆翎
百度高級(jí)研發(fā)工程師 & Apache Doris PPMC
主持人介紹:繆翎捻脖,百度高級(jí)研發(fā)工程師 & Apache Doris PPMC, 負(fù)責(zé) Apache Doris(Incubating) 設(shè)計(jì)研發(fā)工作锐峭。負(fù)責(zé)百度分布式數(shù)倉平臺(tái)的設(shè)計(jì)開發(fā),以及 Apache Doris 的開源推廣工作可婶。主要在數(shù)據(jù)分析沿癞,查詢優(yōu)化,開源等相關(guān)領(lǐng)域進(jìn)行探索矛渴。
數(shù)據(jù)庫化的分布式數(shù)據(jù)庫中間件生態(tài)圈極簡使用策略
潘娟
京東數(shù)科 - 高級(jí)DBA & Apache ShardingSphere PMC
講師介紹:潘娟椎扬,京東數(shù)科高級(jí)DBA&Apache ShardingSphereza?wa PMC,主要負(fù)責(zé)京東數(shù)科分布式數(shù)據(jù)庫開發(fā)具温、數(shù)據(jù)庫運(yùn)維自動(dòng)化平臺(tái)開發(fā)等工作蚕涤。曾負(fù)責(zé)京東數(shù)科數(shù)據(jù)庫自動(dòng)化平臺(tái)設(shè)計(jì)與開發(fā),現(xiàn)專注于Apache ShardingSphere分布式數(shù)據(jù)庫中間件平臺(tái)的開發(fā)铣猩。主要在分布式數(shù)據(jù)庫、開源天吓、分布式架構(gòu)等相關(guān)領(lǐng)域進(jìn)行探索。
分享摘要:作為 Apache 頂級(jí)項(xiàng)目的 ShardingSphere物邑,將會(huì)在最新發(fā)布版本中邁向從分布式數(shù)據(jù)庫中間件生態(tài)圈到分布式數(shù)據(jù)庫的轉(zhuǎn)型色解。已在 GitHub 上收獲 12k+ Star 的開源人氣項(xiàng)目將進(jìn)一步根據(jù)用戶需求和應(yīng)用場景在抛,在這個(gè)數(shù)據(jù)庫化的過程中全力打造更為簡單刚梭、豐富朴读、一體化噪伊、可插拔的分布式數(shù)據(jù)庫產(chǎn)品體系鉴吹,從而為用戶提供最簡單易用豆励、功能強(qiáng)大技扼、性能穩(wěn)定的分布式數(shù)據(jù)庫化產(chǎn)品剿吻。本次分享將為詳細(xì)闡述數(shù)據(jù)庫化的產(chǎn)品特性、架構(gòu)體系魔招、極簡落地方案實(shí)踐等核心內(nèi)容。
通過 DataQL 在數(shù)據(jù)展現(xiàn)類項(xiàng)目中提升3倍人效
趙永春
DataQL - 項(xiàng)目發(fā)起人
講師介紹:趙永春,10 多年軟件開發(fā)經(jīng)驗(yàn)蠕蚜,多年架構(gòu)設(shè)計(jì)經(jīng)驗(yàn)。曾經(jīng)就職于阿里巴巴挣柬、淘寶技術(shù)部邪蛔、阿里云數(shù)據(jù)庫團(tuán)隊(duì)勃教。是開源項(xiàng)目 DataQL 的發(fā)起者荣回。
?
分享摘要:基于 DataQL 的數(shù)據(jù)聚合能力,為應(yīng)用提供一個(gè)接口配置“界面”删铃。使得使用者無需開發(fā)任何代碼就能配置一個(gè)滿足需求的接口。整個(gè)接口配置、測試逐纬、冒煙、發(fā)布甸箱。一站式都通過配套圖形化 UI 界面完成。這種研發(fā)模式的變革使得豌骏,研發(fā)流程中對后端依賴大大降低從而提升近3倍人效变秦。
開源蹦玫、高效的物聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái)
桑樹多
濤思數(shù)據(jù) - 應(yīng)用架構(gòu)師
講師介紹:哈工大畢業(yè)纬凤,曾經(jīng)效力于英特爾停士、摩托羅拉、Ubuntu等公司蜻底,在智能手機(jī)、無人駕駛、物聯(lián)網(wǎng)等方向的開源軟件研發(fā)和推廣應(yīng)用有20年以上的經(jīng)驗(yàn)源请。對 Linux 內(nèi)核、MeeGo OS、Ubuntu 等開源軟件產(chǎn)品有代碼貢獻(xiàn)。對 TDengine 貢獻(xiàn)了上萬行代碼和 400 個(gè)以上測試用例皮胡。
?
分享摘要:充分利用物聯(lián)網(wǎng)數(shù)據(jù)的特點(diǎn),針對通用大數(shù)據(jù)處理平臺(tái)的挑戰(zhàn)泻仙,濤思數(shù)據(jù)推出了一高性能、高可靠、可伸縮漩蟆、零管理的物聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái)TDengine蛤克,而且將核心代碼髓介,包括集群功能全部開源矾飞,獲得全球開發(fā)者的高度關(guān)注豹绪,在GitHub上的star已經(jīng)超過14K。本演講將介紹TDengine的技術(shù)創(chuàng)新之處,包括存儲(chǔ)引擎啦膜、計(jì)算引擎、流式計(jì)算、多維分析等等伤塌。
Apache Doris: 一款支持對海量數(shù)據(jù)進(jìn)行快速分析的 MPP 數(shù)據(jù)庫
陳明雨
百度 - 資深研發(fā)工程師 & Doris PPMC
講師介紹:陳明雨药薯,百度資深研發(fā)工程師 & Apache Doris PPMC穷娱,負(fù)責(zé)Apache Doris(Incubating) 設(shè)計(jì)研發(fā)工作携添。同時(shí)維護(hù)Doris在百度內(nèi)部超過千臺(tái)的部署規(guī)模向叉,為超過200個(gè)業(yè)務(wù)線提供穩(wěn)定可靠的數(shù)據(jù)分析服務(wù)。6年分布式系統(tǒng)研發(fā)經(jīng)驗(yàn)幸斥,一直專注于分布式可擴(kuò)展分析型數(shù)據(jù)庫領(lǐng)域匹摇,主導(dǎo)參與了ApacheDoris從百度開源到進(jìn)入Apache孵化器的全過程。
?
分享摘要:Apache Doris(Incubating)是一款支持對海量數(shù)據(jù)進(jìn)行快速分析的 MPP 數(shù)據(jù)庫甲葬。Doris 自設(shè)計(jì)之初廊勃,就秉承著極簡運(yùn)維、高效可靠经窖、易學(xué)易用的原則坡垫,為用戶提供全面而高效的海量數(shù)據(jù)分析能力。自 2018 年底進(jìn)入 Apache 孵化器后画侣,Doris 已經(jīng)發(fā)布了 5 個(gè)大版本冰悠,接收了來自社區(qū) 100 多位開發(fā)者的貢獻(xiàn),并在多家互聯(lián)網(wǎng)頭部企業(yè)和垂直領(lǐng)域企業(yè)落地和應(yīng)用配乱。本次演講主要包含 Doris 的發(fā)展歷程溉卓、系統(tǒng)架構(gòu)、主要特性和應(yīng)用案例四個(gè)部分搬泥,幫助聽眾對 Doris 有一個(gè)全面而具象的認(rèn)識(shí)的诵。最后,陳明雨會(huì)介紹 Doris 社區(qū)目前的發(fā)展情況佑钾,希望能夠幫助開發(fā)者更方便快捷的加入開源社區(qū)西疤。
?
Github 2020全域分析報(bào)告
王皓月
華東師范大學(xué) - 碩士研究生?
講師介紹:華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院碩士二年級(jí),X-lab 實(shí)驗(yàn)室一員休溶,開源社媒體組小編代赁,負(fù)責(zé)Wuhan2020公眾號(hào)的運(yùn)營,之前參與了實(shí)驗(yàn)室GitHub 2019年報(bào)的撰寫兽掰,目前是實(shí)驗(yàn)室發(fā)起的2020開源年報(bào)項(xiàng)目的committer芭碍。
?
分享摘要:在開源日益重要的今天,需要一份建立在全域大數(shù)據(jù)基礎(chǔ)上的相對完整孽尽、可以反復(fù)進(jìn)行推演的數(shù)據(jù)報(bào)告(報(bào)告窖壕、數(shù)據(jù)、算法均需開源)杉女。GitHub分析報(bào)告是X-lab發(fā)起的GitHub開源分析報(bào)告項(xiàng)目瞻讽,旨在通過分析Github全網(wǎng)的開發(fā)者行為日志,通過數(shù)據(jù)的視角熏挎,來觀察全球范圍內(nèi)的開源現(xiàn)狀速勇、進(jìn)展趨勢、演化特征坎拐、以及未來挑戰(zhàn)等問題烦磁,以幫助所有人更好地理解和參與開源养匈。?
隱私計(jì)算開源框架Rosetta:數(shù)據(jù)安全融合新方向
謝翔博士
矩陣元 - 算法科學(xué)家?
講師介紹:曾任職于華為上海研究所無線安全解決方案設(shè)計(jì)部,中國科學(xué)院軟件研究所 可信計(jì)算與保障實(shí)驗(yàn)室 博士 & 信息安全國家重點(diǎn)實(shí)驗(yàn)室 ?碩士都伪,是格理論呕乎、同態(tài)加密、零知識(shí)證明陨晶、安全多方計(jì)算等密碼學(xué)算法和協(xié)議設(shè)計(jì)的專家猬仁,發(fā)表論文10余篇,曾在密碼學(xué)的頂尖學(xué)術(shù)會(huì)議Eurocrypt上發(fā)表論文珍逸。
?
分享摘要:數(shù)據(jù)隱私問題已經(jīng)成為大數(shù)據(jù)和AI行業(yè)最為核心的痛點(diǎn)逐虚,如何保證分布在機(jī)構(gòu)間的數(shù)據(jù)在保護(hù)各自隱私的前提下進(jìn)行融合計(jì)算已經(jīng)成為迫切需求聋溜。隱私計(jì)算為機(jī)構(gòu)間數(shù)據(jù)的安全融合提供了新的技術(shù)方向谆膳,而密碼學(xué)則是隱私計(jì)算中最為核心的技術(shù)之一。本次報(bào)告中撮躁,謝翔將系統(tǒng)的講述隱私計(jì)算整個(gè)行業(yè)的最新進(jìn)展漱病,密碼學(xué)技術(shù)的基本原理以及密碼學(xué)與大數(shù)據(jù)領(lǐng)域、AI領(lǐng)域的結(jié)合把曼。最后杨帽,將介紹基于TensorFlow的隱私計(jì)算開源框架Rosetta,讓不熟悉密碼學(xué)的大數(shù)據(jù)嗤军、AI研究人員/開發(fā)者也可以無門檻的使用隱私計(jì)算技術(shù)注盈。
2
第二場 10月25日?13:30?開始?
Apache DolphinScheduler是如何支撐每日十萬級(jí)大數(shù)據(jù)任務(wù)調(diào)度的
代立冬
易觀數(shù)科 - 大數(shù)據(jù)平臺(tái)總監(jiān)
講師介紹:易觀大數(shù)據(jù)平臺(tái)總監(jiān) & Apache DolphinScheduler PPMC,負(fù)責(zé)每日數(shù)百億條數(shù)據(jù)處理鏈條的流程規(guī)劃叙赚,技術(shù)選型老客,技術(shù)攻關(guān)及人才梯隊(duì)建設(shè)等工作。專注于數(shù)據(jù)領(lǐng)域研發(fā)數(shù)據(jù)平臺(tái)架構(gòu)10年震叮,擅長于數(shù)據(jù)平臺(tái)建設(shè)胧砰、集群性能調(diào)優(yōu)、數(shù)據(jù)倉庫建設(shè)苇瓣,曾任多家大數(shù)據(jù)公司數(shù)據(jù)架構(gòu)師尉间。
?
分享摘要:本次分享首先會(huì)介紹DolphinScheduler(Incubating)社區(qū)的發(fā)展情況,接著介紹我們當(dāng)時(shí)為何要重復(fù)造輪子再造大數(shù)據(jù)任務(wù)調(diào)度击罪,DolphinScheduler整體的設(shè)計(jì)思想哲嘲、考量以及DolphinScheduler的特性和能力,然后介紹DolphinScheduler架構(gòu)的變遷過程媳禁。分享中我也會(huì)講述我們在做大數(shù)據(jù)任務(wù)調(diào)度時(shí)遇到的挑戰(zhàn)和積累下來的經(jīng)驗(yàn)撤蚊,也會(huì)介紹一些用戶案例和使用場景及開源的歷程。
從 ClickHouse 的名字來歷說起
朱凱
遠(yuǎn)光軟件 - 大數(shù)據(jù)/平臺(tái)開發(fā)部 總經(jīng)理
講師介紹:開源愛好者损话,Apache DolphinScheduler Committer侦啸、ClickHouse Contributor槽唾,《ClickHouse原理解析與應(yīng)用實(shí)踐》、《企業(yè)級(jí)大數(shù)據(jù)平臺(tái)構(gòu)建:架構(gòu)與實(shí)現(xiàn)》作者光涂,公眾號(hào)《ClickHouse的秘密基地》運(yùn)營者庞萍,ClickHouse 布道者。
?
分享摘要:ClickHouse是一款開源的OLAP數(shù)據(jù)庫忘闻,自2016年開源以來它一直保持著飛速的發(fā)展速度钝计。其閃電般的查詢性能和活躍的社區(qū),讓它成為目前業(yè)界公認(rèn)的OLAP數(shù)據(jù)庫黑馬齐佳。這次分享將帶大家快速領(lǐng)略ClickHouse的全貌特征私恬,ClickHouse它是什么、它的核心功能有哪些以及它可以用在哪些場景炼吴。與此同時(shí)本鸣,朱凱也將和你一同分享2020年ClickHouse最令人期待的 top 5 新功能。?
Apache IoTDB:工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)庫管理系統(tǒng)
黃向東
清華大學(xué) - 助理研究員
講師介紹:黃向東博士硅蹦,清華大學(xué)軟件學(xué)院助理研究員荣德。研究方向?yàn)榇髷?shù)據(jù)系統(tǒng)架構(gòu)與時(shí)間序列數(shù)據(jù)管理技術(shù)。他是Apache IoTDB項(xiàng)目的初始源碼提交者之一童芹,同時(shí)也是 Apache IoTDB 項(xiàng)目 VP涮瞻。
?
分享摘要:工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)的主體是機(jī)器產(chǎn)生的時(shí)序數(shù)據(jù),是工業(yè)互聯(lián)網(wǎng)的原礦假褪。與其他大數(shù)據(jù)不同署咽,其具有高通量、低質(zhì)量生音、弱模式宁否、查詢分析復(fù)雜等特點(diǎn)。Apache IoTDB 是從中國高校發(fā)起的,經(jīng)過多年迭代,在多個(gè)工業(yè)生產(chǎn)系統(tǒng)中經(jīng)過驗(yàn)證的新一代工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)庫管理系統(tǒng)埠啃,目前已成為Apache頂級(jí)項(xiàng)目。本報(bào)告將詳細(xì)介紹工業(yè)物聯(lián)網(wǎng)中的挑戰(zhàn)絮重,Apache IoTDB的基本概念和特性,并簡單介紹基于Apache IoTDB的相關(guān)實(shí)際案例歹苦,幫助聽眾了解如何基于Apache IoT生態(tài)青伤,解決工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)應(yīng)用需求。
Apache Kylin 4:鳳凰涅槃殴瘦,浴火重生
張智超
上海跬智信息 - 大數(shù)據(jù)架構(gòu)師
講師介紹:張智超目前就職于上海跬智信息技術(shù)有限公司(Kyligence)開源組狠角,參與了Apache Kylin和Apache CarbonData等開源項(xiàng)目。
?
分享摘要:Apache Kylin 4.0 Alpha版本日前已經(jīng)發(fā)布蚪腋,它是Apache Kylin 4的第一個(gè)早期預(yù)覽版本丰歌,是繼Kylin 3之后的一個(gè)重大架構(gòu)升級(jí)版本姨蟋,采用Parquet這種真正的列式存儲(chǔ)來代替HBase存儲(chǔ),提升文件掃描性能立帖;同時(shí)重新實(shí)現(xiàn)了基于Spark的構(gòu)建引擎和查詢引擎眼溶,使得計(jì)算和存儲(chǔ)分離變?yōu)榭赡埽舆m應(yīng)云原生的技術(shù)趨勢晓勇。本次演講嘉賓張智超將從架構(gòu)升級(jí)堂飞,原理講解,重大特性等幾個(gè)方面來介紹Apache Kylin 4.0绑咱。
T3出行構(gòu)建數(shù)據(jù)湖上低延遲數(shù)據(jù)管道的實(shí)踐
楊華
T3 出行 - 大數(shù)據(jù)平臺(tái)負(fù)責(zé)人
趙玉威
T3 出行 - 調(diào)度平臺(tái)高級(jí)研發(fā)工程師
講師介紹:
楊華绰筛,T3 出行大數(shù)據(jù)平臺(tái)負(fù)責(zé)人。Apache Hudi committer & PMC member描融。Apache Kylin committer 及 Flink Cube 引擎作者铝噩。Apache Flink 國內(nèi)早期布道者及活躍貢獻(xiàn)者。前騰訊高級(jí)工程師稼稿,曾主導(dǎo) Flink 框架在騰訊從落地到支撐日均近 20 萬億消息的處理規(guī)模薄榛。
趙玉威讳窟,T3 出行調(diào)度平臺(tái)高級(jí)研發(fā)工程師让歼。
?
分享摘要:T3 出行是一家基于車聯(lián)網(wǎng)驅(qū)動(dòng)的網(wǎng)約車平臺(tái),擁有海量且豐富的數(shù)據(jù)源丽啡。為此在很早就基于Apache Hudi構(gòu)建了企業(yè)級(jí)的數(shù)據(jù)湖谋右。但數(shù)據(jù)湖從外界攝取的數(shù)據(jù)源絕大部分都是原始數(shù)據(jù),而為了使原始數(shù)據(jù)變得更有業(yè)務(wù)價(jià)值和分析價(jià)值补箍,T3出行 需要對數(shù)據(jù)進(jìn)行ETL等進(jìn)行脫敏改执。這時(shí)為了解決低延遲、高效的數(shù)據(jù)加工坑雅,最初引入了Easy Scheduler(DolphinScheduler前身)辈挂,在使用過程中發(fā)現(xiàn)了不少問題。隨著DolphinScheduler加入Apache孵化器進(jìn)行孵化并快速迭代裹粤,T3出行也隨之升級(jí)到了DolphinScheduler并圍繞它打造了一個(gè)企業(yè)級(jí)的大數(shù)據(jù)調(diào)度管理平臺(tái)终蒂。這次分享T3出行將會(huì)對基于Apache DolphinScheduler支撐數(shù)據(jù)湖上低延遲數(shù)據(jù)加工的實(shí)踐進(jìn)行介紹。
PowerJob:新一代分布式任務(wù)調(diào)度與計(jì)算框架
滕佶祺
阿里巴巴 - 開發(fā)工程師
講師介紹:畢業(yè)于浙江大學(xué)遥诉,目前是阿里巴巴集團(tuán)的一名開發(fā)工程師拇泣,開源項(xiàng)目任務(wù)調(diào)度中間件 PowerJob 作者,在公司內(nèi)部做過一些技術(shù)分享矮锈,這次嘗試下更大的舞臺(tái)霉翔。
?
分享摘要:PowerJob是新一代的任務(wù)調(diào)度中間件,旨在解決大型離線任務(wù)的調(diào)度與計(jì)算問題苞笨。PowerJob立足于當(dāng)前繁雜的業(yè)務(wù)特性债朵,在任務(wù)調(diào)度的基礎(chǔ)上子眶,創(chuàng)新性地提供工作流 workflow 和分布式任務(wù)計(jì)算 MapReduce 兩大核心功能。本次演講將會(huì)為大家揭秘 PowerJob 項(xiàng)目的起源序芦、旨在解決的問題和背后的技術(shù)剖析壹店。
3
彩蛋???
會(huì)場還設(shè)有?QA?和?抽獎(jiǎng)?環(huán)節(jié),獎(jiǎng)品如抱枕芝加、熱火大數(shù)據(jù)書籍等贈(zèng)送硅卢。數(shù)據(jù)技術(shù)專場 24 日特別邀請 Apache Doris PPMC 繆翎 女士主持(傳說中一個(gè)明明可以靠顏值卻偏偏拼才華的奇女子)!!! ?
數(shù)據(jù)技術(shù)專場歡迎您,期待直播間與您相遇藏杖。
大會(huì)已開啟報(bào)名将塑,歡迎報(bào)名 !!!
報(bào)名方式
對 COSCon'20?內(nèi)容感興趣的你可以通過下方的鏈接進(jìn)行報(bào)名,期待您的到來蝌麸!
報(bào)名鏈接
?http://hdxu.cn/1l0R9