陸續(xù)把之前翻譯的一些不會(huì)過時(shí)的文章搬到這里來何吝,同時(shí)清理已經(jīng)過時(shí)的譯文智绸。
原文鏈接:https://www.microsoft.com/en-us/research/people/mbj/
在剛剛登陸火星表面的那幾天,火星探路者號(hào)的表現(xiàn)可謂無懈可擊。在氣囊保護(hù)下著陸呛讲、部署Sojourner Rover(譯者注:一輛小機(jī)械車)群叶、發(fā)回大量數(shù)據(jù)蒋譬,包括后來在網(wǎng)上點(diǎn)擊率很高的那些全景圖属愤。但是幾天后号胚,也就是探路者號(hào)開始收集氣象數(shù)據(jù)不久籽慢,整個(gè)系統(tǒng)發(fā)生了重啟,每次重啟都導(dǎo)致數(shù)據(jù)丟失猫胁。關(guān)于原因箱亿,媒體的說法是“軟件小故障”或者“系統(tǒng)想一次性做太多的工作”。
本周在 IEEE 實(shí)時(shí)系統(tǒng)研討會(huì)上弃秆,我聆聽了一次精彩的主題演講届惋,主講人是David Wilner,Wind River Systems 的首席技術(shù)官菠赚。Wind River 創(chuàng)造了 VxWorks脑豹,這正是火星探路者號(hào)上運(yùn)行的實(shí)時(shí)操作系統(tǒng)內(nèi)核。在演講中衡查,他詳細(xì)解釋了導(dǎo)致探路者號(hào)重啟的軟件原因瘩欺,故障如何定位,以及如何解決的。我想和你們中的每一位分享這個(gè)故事俱饿。
VxWorks 提供了搶占式進(jìn)程調(diào)度歌粥。探路者號(hào)上的進(jìn)程按照優(yōu)先級(jí)來執(zhí)行,優(yōu)先級(jí)反映了這些進(jìn)程的輕重緩急拍埠。
探路者號(hào)上有一個(gè)“數(shù)據(jù)總線”阁吝,可以理解為一塊共享內(nèi)存,用于不同組件之間傳遞信息械拍。有一個(gè)數(shù)據(jù)總線進(jìn)程突勇,經(jīng)常以高優(yōu)先級(jí)運(yùn)行,負(fù)責(zé)把數(shù)據(jù)總線中的數(shù)據(jù)取出來坷虑。訪問數(shù)據(jù)總線需要獲得互斥鎖(mutex)甲馋。
氣象數(shù)據(jù)進(jìn)程負(fù)責(zé)把收集到的氣象數(shù)據(jù)放到數(shù)據(jù)總線上,運(yùn)行不頻繁迄损,是低優(yōu)先級(jí)進(jìn)程定躏。存放數(shù)據(jù)的時(shí)候,他先要獲得互斥鎖芹敌,再往總線上寫數(shù)據(jù)痊远,最后再釋放互斥鎖。如果中斷引起數(shù)據(jù)總線進(jìn)程被執(zhí)行氏捞,那么它會(huì)試圖獲得互斥鎖來讀取數(shù)據(jù)碧聪,這會(huì)導(dǎo)致它阻塞在互斥鎖上,直到氣象數(shù)據(jù)進(jìn)程釋放鎖為止液茎。另外探路者號(hào)上還有一個(gè)中優(yōu)先級(jí)的通信進(jìn)程逞姿。
在大多數(shù)情況下,這種組合工作得很好捆等。但是滞造,在數(shù)據(jù)總線進(jìn)程(高優(yōu)先級(jí))阻塞并等待氣象數(shù)據(jù)進(jìn)程(低優(yōu)先級(jí))的間隙,中斷可能會(huì)導(dǎo)致通信進(jìn)程(中優(yōu)先級(jí))被執(zhí)行栋烤。在這種情況下谒养,通信進(jìn)程如果長時(shí)間運(yùn)行,就阻塞了比它優(yōu)先級(jí)低的氣象數(shù)據(jù)進(jìn)程明郭,最終的后果是信息總線進(jìn)程得不到運(yùn)行买窟。過了一段時(shí)間,看門狗意識(shí)到數(shù)據(jù)總線進(jìn)程很久得不到執(zhí)行达址,認(rèn)為系統(tǒng)發(fā)生了嚴(yán)重故障蔑祟,于是重啟了整個(gè)系統(tǒng)。
這個(gè)情景是一個(gè)經(jīng)典的優(yōu)先級(jí)反轉(zhuǎn)案例沉唠。
問題是如何定位的?
VxWorks 可以跟蹤所有你感興趣的系統(tǒng)事件苛败,包括上下文切換满葛、同步對(duì)象的使用和中斷径簿。噴氣推進(jìn)實(shí)驗(yàn)室的工程師們?nèi)找岳^夜在實(shí)驗(yàn)室的飛船模型上運(yùn)行同樣的系統(tǒng), 他們把 VxWorks 的 Trace 打開嘀韧,并試圖完全模擬發(fā)生重啟時(shí)的各種條件篇亭。某天早上,其他工程師都回家了锄贷,只剩下一個(gè)人在工作译蒂,他終于在模型上重現(xiàn)了重啟的故障。對(duì) Trace 記錄的分析表明谊却,優(yōu)先級(jí)反轉(zhuǎn)是發(fā)生重啟的原因柔昼。
問題是如何解決的?
VxWorks 的互斥鎖在創(chuàng)建的時(shí)候炎辨,可以用一個(gè)布爾參數(shù)表示是否要優(yōu)先級(jí)繼承捕透。故障中的互斥鎖沒有使用這個(gè)功能,如果使用的話碴萧,當(dāng)高優(yōu)先級(jí)的數(shù)據(jù)總線進(jìn)程阻塞在這個(gè)互斥鎖上時(shí)乙嘀,低優(yōu)先級(jí)的氣象數(shù)據(jù)進(jìn)程會(huì)繼承數(shù)據(jù)總線進(jìn)程的優(yōu)先級(jí),這樣它的優(yōu)先級(jí)就比通信進(jìn)程高破喻,從而防止了優(yōu)先級(jí)反轉(zhuǎn)虎谢。一旦定位后,噴氣推進(jìn)實(shí)驗(yàn)室的工程師們就明白了用優(yōu)先級(jí)繼承可以防止重啟曹质。
VxWorks 上有一個(gè) C 語言的解釋器嘉冒,調(diào)試的時(shí)候,開發(fā)人員可以鍵入 C 表達(dá)式和函數(shù)來實(shí)時(shí)執(zhí)行咆繁。碰巧讳推,飛船上天的時(shí)候,噴氣推進(jìn)實(shí)驗(yàn)室的工程師們決定把這個(gè)功能留在上面玩般。根據(jù)編碼規(guī)范银觅,這個(gè)互斥鎖的初始化參數(shù)(包括其他兩個(gè)可能導(dǎo)致同樣問題的互斥鎖)保存在全局變量中。保存全局變量地址的符號(hào)表就在發(fā)射軟件中坏为,可以通過 C 解釋器訪問究驴。這樣,一個(gè)小程序被上傳到飛船上匀伏,經(jīng)過解釋器解釋后洒忧,把這些全局變量的值從 FALSE 改為 TRUE,重啟再也沒發(fā)生過够颠。
分析和教訓(xùn)
首先及最主要的熙侍,黑盒診斷這樣一個(gè)問題是很難成功的,只有靠詳細(xì)的 Trace 才能把這個(gè)錯(cuò)誤的執(zhí)行序列抓出來。
其次蛉抓,在系統(tǒng)上留一些 Debug 的手段會(huì)大大節(jié)省時(shí)間庆尘。如果沒有這個(gè) C 語言解釋器的話,這個(gè)問題可能就解決不了了巷送。
最后驶忌,工程師最初的分析:“數(shù)據(jù)總線進(jìn)程執(zhí)行非常頻繁,且時(shí)間要求嚴(yán)格——我們不應(yīng)花額外的時(shí)間在優(yōu)先級(jí)繼承上”是完全錯(cuò)誤的笑跛。在這種非掣赌В苛刻的條件下,正確性是最重要的飞蹂,甚至可以犧牲性能几苍。
人之天性、項(xiàng)目期限的壓力
David 告訴我們晤柄,噴氣推進(jìn)實(shí)驗(yàn)室的工程師們后來承認(rèn)擦剑,在他們做預(yù)飛行測試的時(shí)候,曾經(jīng)碰到過一兩次重啟芥颈。但他們無法解釋也無法重現(xiàn)惠勒,出于人的天性,他們認(rèn)為這并不是什么大問題爬坑,照例推說“這可能是硬件的小毛病”纠屋。
還有一點(diǎn)是工程師們的工作重心。他們?nèi)﹃P(guān)注飛船登陸過程中使用的軟件盾计,保證其質(zhì)量以期完美著陸售担,如果這都失敗,那整個(gè)項(xiàng)目就結(jié)束了署辉。對(duì)于飛船登陸后使用的軟件族铆,由于重要性相對(duì)低一點(diǎn),所以哭尝,他們對(duì)一些偶然出現(xiàn)的故障有所松懈也是可以理解的哥攘,更何況重啟本身就是解決登陸后故障的一種有效手段。
優(yōu)秀理論材鹦、算法的重要性
David 也提到了這個(gè)案子真正的幕后英雄是卡耐基梅隆大學(xué)的幾個(gè)人逝淹,他們?cè)诙嗄昵鞍l(fā)表了一篇論文,首次發(fā)現(xiàn)了優(yōu)先級(jí)反轉(zhuǎn)問題桶唐,并提出了解決辦法栅葡。他道歉說,他不記得論文的細(xì)節(jié)和作者的名字了尤泽。圓滿的是欣簇,那篇論文的三位作者當(dāng)時(shí)就坐在大廳里规脸,演講結(jié)束后,主席提議他們起立醉蚁,接受所有人的致謝燃辖。他們是Lui Sha鬼店、John Lehoczky网棍、Raj Rajkumar。整個(gè)大廳的人為這幾位計(jì)算機(jī)理論科學(xué)家歡呼妇智,感謝他們?yōu)橥七M(jìn)人類知識(shí)進(jìn)步所做的重大貢獻(xiàn)滥玷,你何時(shí)見過這樣的場面?真是偉大的時(shí)刻巍棱。
后記
為完整起見惑畴,這篇論文是:
L. Sha, R. Rajkumar, and J. P. Lehoczky. Priority Inheritance Protocols: An Approach to Real-Time Synchronization. In IEEE Transactions on Computers, vol. 39, pp. 1175-1185, Sep. 1990.