這篇文章是讀 Principles of Software Engineering, Part 1
),摘錄了部分內(nèi)容
對(duì)抗軟件中不確定的手段
作者在原文中總結(jié)了以下手段
最小化依賴
讓軟件更加健壯的一種技術(shù)手段是盡量讓軟件的依賴少飞盆。出錯(cuò)的組件越少蚕苇,那么軟件也就更少的出錯(cuò)宪潮。相對(duì)于依賴系統(tǒng)X或Y束析,依賴包含的內(nèi)容會(huì)更多堡距,比如你使用系統(tǒng)的的特性也是一種依賴趾断。
Storm使用的zookeeper是一個(gè)很好的例子绍申。集群中所有workers的位置信息是存儲(chǔ)在zookeeper中的圃庭。當(dāng)一個(gè)worker被重新分配后,其他的worker一定要盡快的發(fā)現(xiàn)這個(gè)worker的位置信息失晴,這樣它們就能發(fā)送數(shù)據(jù)到正確的位置剧腻。為了發(fā)現(xiàn)worker位置,有兩種方式涂屁,分別是pull方法和push方法书在。在pull方式中,workers周期性的從zk中獲取到最新的worker位置拆又。而在push方式中儒旬,zk提供了“watches”特性用來(lái)當(dāng)位置信息有變化時(shí)就發(fā)送最新的workers信息。push發(fā)送信息要比pull更加快速帖族,但是push依賴zk的特性栈源。
Storm使用了兩種方式來(lái)傳播worker位置信息。每個(gè)幾秒竖般,storm就會(huì)poll最新的worker信息甚垦。除了這個(gè),storm還利用了zk的watches特性來(lái)加快worker信息獲取的速度涣雕。這個(gè)設(shè)計(jì)保證了即使zk的watch特性失敗了艰亮,那么worker仍然能夠獲取到準(zhǔn)確的位置信息,雖然有些延遲挣郭。所以storm能夠利用watch特性但是又沒(méi)有完全依賴這個(gè)特性迄埃。大部分時(shí)間,watch特性都能夠正確工作從而信息能夠快速傳播兑障,同時(shí)這也避免了watch失敗后導(dǎo)致storm不能工作的問(wèn)題侄非。這種設(shè)計(jì)正確是有遠(yuǎn)見(jiàn)的,因?yàn)閦k中的watch出現(xiàn)過(guò)嚴(yán)重的bug流译。
在最小化依賴項(xiàng)和為了實(shí)現(xiàn)應(yīng)用最小化代碼數(shù)量(因?yàn)闇p少依賴項(xiàng)逞怨,可能為了達(dá)成應(yīng)用功能需要付出一定的代碼數(shù)量)之間存在一種平衡。在上面這個(gè)例子中先蒋,同時(shí)采用兩個(gè)方式來(lái)傳播位置信息是一種很好的方式骇钦,這是因?yàn)閜ull方式僅僅只是增加了少量的代碼。另一方面竞漾,完全移除zk并不是一個(gè)好主意眯搭。因?yàn)橐獙?shí)現(xiàn)watcher功能需要大量的工作,同時(shí)自己實(shí)現(xiàn)相對(duì)于zk(廣泛使用的開(kāi)源項(xiàng)目)會(huì)有更少的穩(wěn)定性业岁。
減少級(jí)聯(lián)失敗的概率
級(jí)聯(lián)失敗是生產(chǎn)環(huán)境中一種很?chē)?yán)重的失敗鳞仙。級(jí)聯(lián)失敗感覺(jué)像是世界都奔潰了。在我的經(jīng)驗(yàn)中笔时,造成級(jí)聯(lián)失敗的一種常見(jiàn)原因是服務(wù)的拒絕攻擊棍好。最底層的原因是因?yàn)椴](méi)有遵守系統(tǒng)中組件的輸入范圍。讓組件之間的交付滿足輸入限制允耿,為了避免DOS攻擊借笙,可以采用限流器。
另外一項(xiàng)技術(shù)是盡可能的隔離組件较锡,同時(shí)減少組件之間互相的影響业稼。說(shuō)起來(lái)容易做起來(lái)難,但是如果發(fā)生級(jí)聯(lián)失敗時(shí)蚂蕴,這是一種非常有用的技術(shù)低散。
測(cè)量和監(jiān)視
在生產(chǎn)環(huán)境中發(fā)生意外事件時(shí),進(jìn)行徹底的監(jiān)控是非常關(guān)鍵的骡楼,這樣就可以弄清楚發(fā)生了什么熔号。隨著軟件逐漸穩(wěn)定下來(lái),意外變的越來(lái)越少鸟整,而且再現(xiàn)這些事件將變得越來(lái)越困難引镊。因此,當(dāng)發(fā)生意外事件時(shí)篮条,您希望盡可能獲取有關(guān)該事件的數(shù)據(jù)祠乃。
軟件應(yīng)從一開(kāi)始就設(shè)計(jì)為可監(jiān)控的。我認(rèn)為軟件的監(jiān)控方面與軟件本身的功能一樣重要兑燥。而且應(yīng)該對(duì)一切進(jìn)行測(cè)量 - 延遲亮瓷、吞吐量統(tǒng)計(jì)、緩沖區(qū)大小以及與應(yīng)用程序相關(guān)的任何其他內(nèi)容降瞳。監(jiān)控是對(duì)軟件固有不確定性的最重要的防御手段嘱支。
同樣,對(duì)所有組件進(jìn)行測(cè)量是重要的挣饥,以了解它們的功能輸入范圍除师。每個(gè)組件可以處理什么樣的吞吐量?更多流量會(huì)如何影響延遲扔枫?如何破壞這些組件汛聚?進(jìn)行這種測(cè)量工作可能不夠光鮮,但對(duì)于可靠的工程來(lái)說(shuō)是必不可少的短荐。
總結(jié)
軟件工程是與不確定性的持續(xù)斗爭(zhēng) - 不確定規(guī)范倚舀,不確定實(shí)現(xiàn)叹哭,不確定依賴項(xiàng),以及不確定輸入痕貌。認(rèn)識(shí)到并為這些不確定性做好規(guī)劃將使您的軟件更可靠风罩,也會(huì)讓您成為一名更好的工程師。