轉(zhuǎn)載自:Xlab開放實(shí)驗(yàn)室
作者:wuhan2020社區(qū)
編輯:王玥敏
各位 wuhan2020 開源社區(qū)成員:
2020年1月25日印机,春節(jié),在這個(gè)特殊的日子赘来,我們正式發(fā)起了《wuhan2020:武漢新型冠狀病毒防疫開源信息收集平臺》的開源項(xiàng)目润讥,用開發(fā)者們的方式支援這場沒有硝煙的戰(zhàn)爭鞋拟。截至2020年1月28日21時(shí),全國共有4630個(gè)確診病例蚌父、73個(gè)治愈病例哮兰、以及106個(gè)死亡病例,海外60個(gè)確診病例苟弛,形勢異常嚴(yán)峻喝滞。
緣起
項(xiàng)目之初,我們看到的是膏秫,面對突如其來的新型冠狀病毒疫情右遭,武漢及周邊各市縣均爆出物資供給不足的情況,而重大公共衛(wèi)生事件在公共社會(huì)事件中屬于較復(fù)雜的類型缤削,統(tǒng)籌安排難度大窘哈,周期長。而且亭敢,目前信息采集與公布平臺不一致滚婉,信息散亂很難進(jìn)行有效溝通,大量圖片信息不利于實(shí)時(shí)溝通帅刀。
作為開發(fā)者群體让腹,我們思考的是能否利用數(shù)字平臺優(yōu)勢,讓各供需方進(jìn)行分布式自助對接可大幅提升效率劝篷。故發(fā)起該項(xiàng)目哨鸭,旨在統(tǒng)一收集本次事件中相關(guān)事務(wù)處理方的信息,并利用開源和分布式協(xié)作優(yōu)勢實(shí)時(shí)更新并通報(bào)娇妓,提供各方的聯(lián)系平臺像鸡。這里,供需數(shù)字化和信息的透明快速扭轉(zhuǎn)是我們認(rèn)為的關(guān)鍵所在哈恰。
事實(shí)上已有相似的石墨文檔項(xiàng)目發(fā)起只估,保持在 50 人左右的協(xié)同編輯熱度,但石墨文檔編輯的方式着绷,很難保證格式一致性蛔钙,需要有專人實(shí)時(shí)對內(nèi)容格式進(jìn)行編輯,各種標(biāo)注較為混亂荠医,而且對于后期加入程序可視化與交互能力并不友好吁脱。正好我們又是一群開源愛好者桑涎,故直接在 GitHub 上發(fā)起了該項(xiàng)目,望眾程序員可以齊心協(xié)力兼贡,共克時(shí)艱攻冷。
項(xiàng)目功能
旨在統(tǒng)一收集本次事件中相關(guān)事務(wù)處理方的信息,并利用開源和分布式協(xié)作優(yōu)勢進(jìn)行實(shí)時(shí)更新并通報(bào)遍希,提供各方聯(lián)系的綜合平臺等曼,其核心是通過公開眾包的形式進(jìn)行采集數(shù)據(jù),同樣通過眾包審核后凿蒜,將帶有數(shù)據(jù)來源的信息合并到代碼倉庫中禁谦,并形成一套完整的流程機(jī)制。
在項(xiàng)目初期废封,其實(shí)我們并沒有仔細(xì)思考整個(gè)平臺的功能州泊,特別是從產(chǎn)品的角度,這也受限于團(tuán)隊(duì)本身虱饿。我們首先制定了幾件容易想到的事情拥诡,包括:
存儲格式:標(biāo)準(zhǔn)的csv文件
信息主體:醫(yī)院信息、酒店信息氮发、物流信息渴肉、生產(chǎn)信息、捐贈(zèng)信息爽冕、捐款信息仇祭、預(yù)防治療手段、新聞內(nèi)容等
信息實(shí)時(shí)錄入功能
部分可視化與信息查詢界面
外部數(shù)據(jù)匯集:微博颈畸、頭條乌奇、搜索引擎信息等
在項(xiàng)目開始實(shí)施后,我們開始遇到了一些問題眯娱,同時(shí)也總結(jié)了部分經(jīng)驗(yàn)礁苗,具體如下。
遇到的挑戰(zhàn)
工作量大徙缴,累成狗试伙,很多信息需要挨個(gè)打電話落實(shí)
網(wǎng)上流傳的有些信息被篡改,不知道群里的數(shù)據(jù)本身是不是被篡改
我驗(yàn)證的信息于样,別的小分隊(duì)疏叨、組織也在驗(yàn)證,重復(fù)勞動(dòng)
甚至有個(gè)硬要求:只把官方發(fā)布的數(shù)據(jù)算進(jìn)去
醫(yī)院內(nèi)部的信息可能數(shù)據(jù)貢獻(xiàn)者跟發(fā)布者沒有同步
數(shù)據(jù)的時(shí)效性無法保障
如何避免跟其他群或者組織重復(fù)驗(yàn)真
如何將其他組織的數(shù)據(jù)變成可信任的數(shù)據(jù)源
信息收集渠道不統(tǒng)一穿剖,多種工具同時(shí)在用
總結(jié)的經(jīng)驗(yàn)
流程蚤蔓、流程、流程:流程是規(guī)范大家行為糊余,保證每個(gè)人的行動(dòng)一致秀又、結(jié)果的偏差小
數(shù)據(jù)輸入和驗(yàn)證漏斗:搜集—驗(yàn)真—錄入—發(fā)布
與公開信息交叉驗(yàn)證
醫(yī)院匯總?cè)藛T直接錄入单寂,可信程度最高,同時(shí)帶上錄入員信息
重新頂層設(shè)計(jì)
基于上述挑戰(zhàn)和經(jīng)驗(yàn)涮坐,我們重新進(jìn)行了頂層設(shè)計(jì)凄贩,并把中心放在標(biāo)準(zhǔn)的流程和標(biāo)準(zhǔn)的錄入規(guī)范上面,同時(shí)繼續(xù)用石墨工具進(jìn)行統(tǒng)一信息采集袱讹。這里要重點(diǎn)提一下石墨團(tuán)隊(duì),直接拉了主力開發(fā)人員協(xié)助我們進(jìn)行數(shù)據(jù)接口的對接昵时。探索中捷雕,我們逐步形成了如下的協(xié)作流程:
目前我們設(shè)計(jì)的《信息協(xié)作流程規(guī)范》中壹甥,信息流程如下:
石墨表格 -->?Git 數(shù)據(jù)倉庫 --> 前端展示
其中救巷,石墨流程包括:
任何人可以填寫申請表單,獲得某類信息的錄入權(quán)限
信息錄入有格式要求句柠,通過石墨公式進(jìn)行強(qiáng)校驗(yàn)
錄入信息需要有源鏈接浦译,提供有效的數(shù)據(jù)校驗(yàn)?zāi)芰?/p>
審核人有嚴(yán)格的制度,審核人信息實(shí)名落地溯职,保證不會(huì)有惡意審核
石墨文檔中精盅,申請并通過的賬號有錄入權(quán)限,但表頭與審核狀態(tài)列只有審核人可以編輯
審核人在審核確定某條記錄真實(shí)后谜酒,會(huì)鎖定該行叹俏,不能再進(jìn)行編輯
對于數(shù)據(jù)重復(fù)校驗(yàn),使用石墨的重復(fù)數(shù)據(jù)自動(dòng)高亮功能提示僻族,并提供腳本的定時(shí)檢查能力
數(shù)據(jù)落倉包括:
石墨數(shù)據(jù)可以自動(dòng)化落入 Git 數(shù)據(jù)倉庫
通過配置方式?jīng)Q定哪些文檔數(shù)據(jù)可以落倉
落倉時(shí)僅落入已經(jīng)審核通過的數(shù)據(jù)粘驰,未通過數(shù)據(jù)不予落倉
落倉無需二次校驗(yàn),直接推入數(shù)據(jù)倉庫
落倉由程序自動(dòng)化進(jìn)行述么,保證數(shù)據(jù)實(shí)時(shí)性不會(huì)高于 15 分鐘的誤差
落倉時(shí)會(huì)進(jìn)行額外的數(shù)據(jù)預(yù)處理蝌数,方便后續(xù)處理
對于特定行,例如特定醫(yī)院記錄度秘,邀請聯(lián)系人成為該行數(shù)據(jù)編輯人顶伞,僅能編輯本醫(yī)院條目,其他類別類似
數(shù)據(jù)展示包括:
數(shù)據(jù)倉庫包含各種數(shù)據(jù)類型的實(shí)時(shí)數(shù)據(jù)
任何開發(fā)者可自行開發(fā)可視化展示敷钾、檢索枝哄、分析程序,直接使用線上數(shù)倉數(shù)據(jù)
通過以上流程阻荒,采取分組制挠锥,流水線作業(yè),好處是:
操作行為可控侨赡,能收斂
嚴(yán)格用核心成員保證審核人的來源蓖租,保證了數(shù)據(jù)錄入有效性粱侣,所有數(shù)據(jù)必須經(jīng)過實(shí)名審核員審核
保證自動(dòng)化程度,保證后期的大規(guī)模水平擴(kuò)展能力蓖宦,除數(shù)據(jù)審核外全流程數(shù)據(jù)落地全部自動(dòng)化齐婴,無需人工介入
保證數(shù)據(jù)有效性,數(shù)據(jù)審核后鎖定稠茂,除數(shù)據(jù)源負(fù)責(zé)人柠偶,無人可進(jìn)行修改
保證數(shù)據(jù)時(shí)效性:該條需要該平臺首先成為唯一數(shù)據(jù)源平臺,則數(shù)據(jù)源負(fù)責(zé)人在需求變動(dòng)時(shí)僅需修改表單對應(yīng)行即可
數(shù)據(jù)是實(shí)時(shí)變化的睬关,而且由于使用的是 Git 數(shù)倉诱担,其實(shí)我們可以拿到所有的歷史變化記錄,便于數(shù)據(jù)分析工作
基于上述思想电爹,我們形成了《信息收集錄入流程規(guī)范》蔫仙,錄入組必須遵循這樣的規(guī)范才能錄入信息;同樣丐箩,我們也形成了《信息審核流程規(guī)范》摇邦,審核員也必須按照該規(guī)范才能進(jìn)行數(shù)據(jù)落倉。
我們希望通過自動(dòng)化手段來聚集數(shù)據(jù)屎勘,當(dāng)其成長為主要平臺時(shí)施籍,各數(shù)據(jù)源自然會(huì)來我們這里發(fā)布和修改數(shù)據(jù),而我們的四層權(quán)限體系也保證了數(shù)據(jù)的真實(shí)有效挑秉。當(dāng)然最重要的全流程的自動(dòng)化法梯,以保證在水平擴(kuò)展時(shí)不會(huì)導(dǎo)致人力成本爆炸。我們技術(shù)團(tuán)隊(duì)的主體來自高校的老師和學(xué)生犀概,集中在計(jì)算機(jī)專業(yè)和數(shù)據(jù)分析專業(yè)立哑,全流程管理和自動(dòng)化一開始就都在考慮之列的。
我們的初衷是幫助整合信息姻灶,讓大家能夠快速獲取有效實(shí)時(shí)的數(shù)據(jù)和信息铛绰,這個(gè)初心是不變的。我們同時(shí)也還有自己的學(xué)業(yè)和事情产喉,也不是非要做成一個(gè)重要的項(xiàng)目捂掰,如果有別人做的比我們好,自然是應(yīng)該學(xué)習(xí)的曾沈,但如果我們覺得我們的方式更好这嚣,那我們就應(yīng)該堅(jiān)持做下去再看結(jié)果,這就是開源的核心所在塞俱。
長遠(yuǎn)看姐帚,我們的項(xiàng)目可以快速發(fā)展,對接任意數(shù)據(jù)源障涯、任意數(shù)倉罐旗、任意數(shù)據(jù)格式膳汪,三個(gè)解耦,使得其有很好的擴(kuò)展能力九秀。最理想的情況是遗嗽,官方直接用我們的數(shù)據(jù)平臺進(jìn)行數(shù)據(jù)錄入,即保證了高效性鼓蜒,也保證了數(shù)據(jù)的真實(shí)性痹换。當(dāng)然,這需要我們共同來努力友酱,使其成為一個(gè)最有影響力的平臺晴音,直接的信息源實(shí)名錄入,是我們最想看到的結(jié)果缔杉。
基于上述思想,項(xiàng)目目前的形態(tài)架構(gòu)大致是下面這個(gè)樣子(并不嚴(yán)謹(jǐn)版):
中間的三個(gè)規(guī)范是我們最重要的核心或详,也是希望能夠持續(xù)迭代成為全網(wǎng)標(biāo)準(zhǔn),目前共包括三個(gè)規(guī)范:《信息協(xié)作流程規(guī)范》郭计、《信息收集錄入流程規(guī)范》霸琴、以及《信息審核流程規(guī)范》,相信隨著項(xiàng)目的不斷推進(jìn)昭伸,還會(huì)有更多更加細(xì)致的規(guī)范出來梧乘。
最下面一層是我們整個(gè)開源社區(qū)目前正在使用的基礎(chǔ)設(shè)施。其中GitHub和碼云用來做開發(fā)協(xié)作與數(shù)據(jù)落地庐杨,出于數(shù)據(jù)安全的考慮选调,最終的數(shù)據(jù)落地會(huì)是在碼云平臺上,協(xié)作流程目前還是在GitHub上的原因是GitHub的協(xié)作生態(tài)要好太多(懂的人自然懂)灵份,特別是集成了我們自己的協(xié)作機(jī)器人Hypertrons仁堪。當(dāng)然,后續(xù)也不排除某個(gè)合適的時(shí)間填渠,我們也同時(shí)支持碼云平臺的協(xié)作弦聂。Slack是我們開發(fā)者日常交流通信的工具,即ChatOps氛什,為什么不用微信莺葫,同樣也是懂的人自然懂,類似Slack這樣的工具對于開發(fā)者來說太重要枪眉,大家可以多嘗試捺檬。
而對于非技術(shù)人員來說(信息采集、審核瑰谜、宣傳欺冀、協(xié)調(diào)等)树绩,則主要是通過石墨文檔來進(jìn)行信息采集與審核,通過微信來進(jìn)行日常的溝通交流隐轩。也正是因?yàn)榇私确梗覀冎饾u形成了多個(gè)小分隊(duì),并實(shí)行組長責(zé)任制职车。
最上層是基于本項(xiàng)目落地的數(shù)據(jù)平臺的各種應(yīng)用瘫俊,包括數(shù)據(jù)門戶、數(shù)據(jù)可視化悴灵、數(shù)據(jù)同步等扛芽,相信隨著項(xiàng)目的推進(jìn),還會(huì)有更多有意思的應(yīng)用出現(xiàn)积瞒。
社區(qū)組織
wuhan2020開源社區(qū)目前包括如下幾個(gè)組:
技術(shù)組:項(xiàng)目工程技術(shù)實(shí)時(shí)團(tuán)隊(duì),目前主要通過Github + Slack進(jìn)行協(xié)作茫孔;
信息組:目前主要負(fù)責(zé)信息的收集與錄入叮喳,主要工具為石墨文檔;
協(xié)調(diào)組:協(xié)調(diào)幾個(gè)小組之間的協(xié)同與協(xié)作缰贝。
這是最開始形成的三個(gè)核心小組馍悟,到了第三天和第四天,我們又形成了三個(gè)新的小組:
宣傳組:對項(xiàng)目進(jìn)行宣傳剩晴,包括品牌的建設(shè)锣咒,文案、設(shè)計(jì)等宣傳資料的制作赞弥,以及渠道的拓展毅整;
審核組:根據(jù)審核規(guī)范對錄入的信息的真實(shí)性進(jìn)行審核;
風(fēng)控組:對項(xiàng)目整體風(fēng)險(xiǎn)進(jìn)行控制嗤攻,包括信息安全風(fēng)險(xiǎn)毛嫉、合規(guī)性等方面。
之所以增加風(fēng)控組妇菱,我們認(rèn)為除了數(shù)據(jù)的真實(shí)性承粤,數(shù)據(jù)的安全性問題同樣重要,合法合規(guī)同樣是我們必須遵守的闯团,也請所有正在做貢獻(xiàn)的朋友們引起重視辛臊。因此,再次聲明一下:本項(xiàng)目所收集的數(shù)據(jù)均是通過正規(guī)渠道通過公開眾包的形式進(jìn)行采集的房交,通過眾包審核后彻舰,均附有數(shù)據(jù)來源,項(xiàng)目本身的核心是提供一套流程機(jī)制和規(guī)范,盡量發(fā)動(dòng)志愿者刃唤、合作方隔心、甚至是官方來進(jìn)行數(shù)據(jù)采集的動(dòng)作,并且堅(jiān)持知情同意的原則尚胞。
在上面工作小組的基礎(chǔ)之上硬霍,我們形成了《wuhan2020入組工作攻略》,這樣笼裳,新來的朋友們可以更具自己的特長唯卖,選擇加入的工作組進(jìn)行工作,包括加入渠道躬柬,小組負(fù)責(zé)人等信息拜轨。
關(guān)于開源
最后再來聊聊開源的一些事情。開源首先是我們團(tuán)隊(duì)的專業(yè)技術(shù)愛好和一種高效工作方式的共識允青。而在當(dāng)下這個(gè)災(zāi)難場景下又有一層特別的含義橄碾,那就是數(shù)據(jù)開源。我們認(rèn)為颠锉,正是因?yàn)橄嚓P(guān)部門數(shù)據(jù)的不開放堪嫂、流轉(zhuǎn)不透明,才導(dǎo)致了今天這樣一個(gè)困局木柬。而數(shù)據(jù)的使用方式也應(yīng)該是開源的,這就涉及到軟件開源了淹办,不僅是使用方式眉枕,整個(gè)軟件的構(gòu)建過程也同樣應(yīng)該開放透明,這就是協(xié)作開源了怜森。短短的幾天速挑,我們已經(jīng)深刻體會(huì)到這種開發(fā)模式的威力,正所謂開源界一天副硅,IT界一年姥宝。我想整個(gè)社區(qū)的開發(fā)者也會(huì)慢慢有我們類似的體會(huì)。而且會(huì)由量變帶來質(zhì)變恐疲,那就是公平度與自由度腊满!
今天,得益于全人類共同的實(shí)踐成果培己,使得我們能夠以一個(gè)更加平等的方式重新組織社會(huì)碳蛋、重新安排生活。這種組織與安排不僅發(fā)生在我們的現(xiàn)實(shí)社會(huì)中省咨,還進(jìn)一步滲透到了我們的數(shù)字空間中肃弟,并通過互聯(lián)網(wǎng)進(jìn)行了放大與加深。
今天的開源界,非常像當(dāng)年的美洲新大陸笤受。廣大的開發(fā)者們正在共同開拓一個(gè)新的開源數(shù)字生態(tài)穷缤,而發(fā)源于計(jì)算機(jī)工程領(lǐng)域的開源正在從專業(yè)領(lǐng)域走向普通大眾、從技術(shù)工程走向科學(xué)想象箩兽、從社區(qū)治理走向與社會(huì)科學(xué)與人文科學(xué)的結(jié)合津肛,甚至需要進(jìn)行人類學(xué)式的文化研究。
我們希望這個(gè)開源項(xiàng)目與開源社區(qū)比肄,承載的不僅僅是這次肆虐的病毒抗?fàn)幙旃ⅲ瑫r(shí)還是一次開源社會(huì)實(shí)驗(yàn),通過聚集全球的協(xié)作者芳绩,形成共識掀亥,戰(zhàn)勝苦難,解決全人類所面臨的難題妥色。
wuhan2020開源社區(qū)共同體
2020年1月28日
相關(guān)文檔:
《wuhan2020入組工作攻略》:
https://shimo.im/docs/tQ8Phx3KdgkHDR8y/read
《信息收集錄入流程規(guī)范》:
https://shimo.im/docs/v3xCCYVWhtHvq9w8/read
《信息審核流程規(guī)范》:
https://shimo.im/docs/jRQdGwqjwdPVqJpG/read