火星上到底發(fā)生了什么

陸續(xù)把之前翻譯的一些不會(huì)過時(shí)的文章搬到這里來何吝,同時(shí)清理已經(jīng)過時(shí)的譯文智绸。

原文鏈接:https://www.microsoft.com/en-us/research/people/mbj/

在剛剛登陸火星表面的那幾天,火星探路者號(hào)的表現(xiàn)可謂無懈可擊。在氣囊保護(hù)下著陸呛讲、部署Sojourner Rover(譯者注:一輛小機(jī)械車)群叶、發(fā)回大量數(shù)據(jù)蒋譬,包括后來在網(wǎng)上點(diǎn)擊率很高的那些全景圖属愤。但是幾天后号胚,也就是探路者號(hào)開始收集氣象數(shù)據(jù)不久籽慢,整個(gè)系統(tǒng)發(fā)生了重啟,每次重啟都導(dǎo)致數(shù)據(jù)丟失猫胁。關(guān)于原因箱亿,媒體的說法是“軟件小故障”或者“系統(tǒng)想一次性做太多的工作”。

本周在 IEEE 實(shí)時(shí)系統(tǒng)研討會(huì)上弃秆,我聆聽了一次精彩的主題演講届惋,主講人是David Wilner,Wind River Systems 的首席技術(shù)官菠赚。Wind River 創(chuàng)造了 VxWorks脑豹,這正是火星探路者號(hào)上運(yùn)行的實(shí)時(shí)操作系統(tǒng)內(nèi)核。在演講中衡查,他詳細(xì)解釋了導(dǎo)致探路者號(hào)重啟的軟件原因瘩欺,故障如何定位,以及如何解決的。我想和你們中的每一位分享這個(gè)故事俱饿。

VxWorks 提供了搶占式進(jìn)程調(diào)度歌粥。探路者號(hào)上的進(jìn)程按照優(yōu)先級(jí)來執(zhí)行,優(yōu)先級(jí)反映了這些進(jìn)程的輕重緩急拍埠。

探路者號(hào)上有一個(gè)“數(shù)據(jù)總線”阁吝,可以理解為一塊共享內(nèi)存,用于不同組件之間傳遞信息械拍。有一個(gè)數(shù)據(jù)總線進(jìn)程突勇,經(jīng)常以高優(yōu)先級(jí)運(yùn)行,負(fù)責(zé)把數(shù)據(jù)總線中的數(shù)據(jù)取出來坷虑。訪問數(shù)據(jù)總線需要獲得互斥鎖(mutex)甲馋。

氣象數(shù)據(jù)進(jìn)程負(fù)責(zé)把收集到的氣象數(shù)據(jù)放到數(shù)據(jù)總線上,運(yùn)行不頻繁迄损,是低優(yōu)先級(jí)進(jìn)程定躏。存放數(shù)據(jù)的時(shí)候,他先要獲得互斥鎖芹敌,再往總線上寫數(shù)據(jù)痊远,最后再釋放互斥鎖。如果中斷引起數(shù)據(jù)總線進(jìn)程被執(zhí)行氏捞,那么它會(huì)試圖獲得互斥鎖來讀取數(shù)據(jù)碧聪,這會(huì)導(dǎo)致它阻塞在互斥鎖上,直到氣象數(shù)據(jù)進(jìn)程釋放鎖為止液茎。另外探路者號(hào)上還有一個(gè)中優(yōu)先級(jí)的通信進(jìn)程逞姿。

在大多數(shù)情況下,這種組合工作得很好捆等。但是滞造,在數(shù)據(jù)總線進(jìn)程(高優(yōu)先級(jí))阻塞并等待氣象數(shù)據(jù)進(jìn)程(低優(yōu)先級(jí))的間隙,中斷可能會(huì)導(dǎo)致通信進(jìn)程(中優(yōu)先級(jí))被執(zhí)行栋烤。在這種情況下谒养,通信進(jìn)程如果長時(shí)間運(yùn)行,就阻塞了比它優(yōu)先級(jí)低的氣象數(shù)據(jù)進(jìn)程明郭,最終的后果是信息總線進(jìn)程得不到運(yùn)行买窟。過了一段時(shí)間,看門狗意識(shí)到數(shù)據(jù)總線進(jìn)程很久得不到執(zhí)行达址,認(rèn)為系統(tǒng)發(fā)生了嚴(yán)重故障蔑祟,于是重啟了整個(gè)系統(tǒng)。

這個(gè)情景是一個(gè)經(jīng)典的優(yōu)先級(jí)反轉(zhuǎn)案例沉唠。

問題是如何定位的?

VxWorks 可以跟蹤所有你感興趣的系統(tǒng)事件苛败,包括上下文切換满葛、同步對(duì)象的使用和中斷径簿。噴氣推進(jìn)實(shí)驗(yàn)室的工程師們?nèi)找岳^夜在實(shí)驗(yàn)室的飛船模型上運(yùn)行同樣的系統(tǒng), 他們把 VxWorks 的 Trace 打開嘀韧,并試圖完全模擬發(fā)生重啟時(shí)的各種條件篇亭。某天早上,其他工程師都回家了锄贷,只剩下一個(gè)人在工作译蒂,他終于在模型上重現(xiàn)了重啟的故障。對(duì) Trace 記錄的分析表明谊却,優(yōu)先級(jí)反轉(zhuǎn)是發(fā)生重啟的原因柔昼。

問題是如何解決的?

VxWorks 的互斥鎖在創(chuàng)建的時(shí)候炎辨,可以用一個(gè)布爾參數(shù)表示是否要優(yōu)先級(jí)繼承捕透。故障中的互斥鎖沒有使用這個(gè)功能,如果使用的話碴萧,當(dāng)高優(yōu)先級(jí)的數(shù)據(jù)總線進(jìn)程阻塞在這個(gè)互斥鎖上時(shí)乙嘀,低優(yōu)先級(jí)的氣象數(shù)據(jù)進(jìn)程會(huì)繼承數(shù)據(jù)總線進(jìn)程的優(yōu)先級(jí),這樣它的優(yōu)先級(jí)就比通信進(jìn)程高破喻,從而防止了優(yōu)先級(jí)反轉(zhuǎn)虎谢。一旦定位后,噴氣推進(jìn)實(shí)驗(yàn)室的工程師們就明白了用優(yōu)先級(jí)繼承可以防止重啟曹质。

VxWorks 上有一個(gè) C 語言的解釋器嘉冒,調(diào)試的時(shí)候,開發(fā)人員可以鍵入 C 表達(dá)式和函數(shù)來實(shí)時(shí)執(zhí)行咆繁。碰巧讳推,飛船上天的時(shí)候,噴氣推進(jìn)實(shí)驗(yàn)室的工程師們決定把這個(gè)功能留在上面玩般。根據(jù)編碼規(guī)范银觅,這個(gè)互斥鎖的初始化參數(shù)(包括其他兩個(gè)可能導(dǎo)致同樣問題的互斥鎖)保存在全局變量中。保存全局變量地址的符號(hào)表就在發(fā)射軟件中坏为,可以通過 C 解釋器訪問究驴。這樣,一個(gè)小程序被上傳到飛船上匀伏,經(jīng)過解釋器解釋后洒忧,把這些全局變量的值從 FALSE 改為 TRUE,重啟再也沒發(fā)生過够颠。

分析和教訓(xùn)

首先及最主要的熙侍,黑盒診斷這樣一個(gè)問題是很難成功的,只有靠詳細(xì)的 Trace 才能把這個(gè)錯(cuò)誤的執(zhí)行序列抓出來。

其次蛉抓,在系統(tǒng)上留一些 Debug 的手段會(huì)大大節(jié)省時(shí)間庆尘。如果沒有這個(gè) C 語言解釋器的話,這個(gè)問題可能就解決不了了巷送。

最后驶忌,工程師最初的分析:“數(shù)據(jù)總線進(jìn)程執(zhí)行非常頻繁,且時(shí)間要求嚴(yán)格——我們不應(yīng)花額外的時(shí)間在優(yōu)先級(jí)繼承上”是完全錯(cuò)誤的笑跛。在這種非掣赌В苛刻的條件下,正確性是最重要的飞蹂,甚至可以犧牲性能几苍。

人之天性、項(xiàng)目期限的壓力

David 告訴我們晤柄,噴氣推進(jìn)實(shí)驗(yàn)室的工程師們后來承認(rèn)擦剑,在他們做預(yù)飛行測試的時(shí)候,曾經(jīng)碰到過一兩次重啟芥颈。但他們無法解釋也無法重現(xiàn)惠勒,出于人的天性,他們認(rèn)為這并不是什么大問題爬坑,照例推說“這可能是硬件的小毛病”纠屋。

還有一點(diǎn)是工程師們的工作重心。他們?nèi)﹃P(guān)注飛船登陸過程中使用的軟件盾计,保證其質(zhì)量以期完美著陸售担,如果這都失敗,那整個(gè)項(xiàng)目就結(jié)束了署辉。對(duì)于飛船登陸后使用的軟件族铆,由于重要性相對(duì)低一點(diǎn),所以哭尝,他們對(duì)一些偶然出現(xiàn)的故障有所松懈也是可以理解的哥攘,更何況重啟本身就是解決登陸后故障的一種有效手段。

優(yōu)秀理論材鹦、算法的重要性

David 也提到了這個(gè)案子真正的幕后英雄是卡耐基梅隆大學(xué)的幾個(gè)人逝淹,他們?cè)诙嗄昵鞍l(fā)表了一篇論文,首次發(fā)現(xiàn)了優(yōu)先級(jí)反轉(zhuǎn)問題桶唐,并提出了解決辦法栅葡。他道歉說,他不記得論文的細(xì)節(jié)和作者的名字了尤泽。圓滿的是欣簇,那篇論文的三位作者當(dāng)時(shí)就坐在大廳里规脸,演講結(jié)束后,主席提議他們起立醉蚁,接受所有人的致謝燃辖。他們是Lui Sha鬼店、John Lehoczky网棍、Raj Rajkumar。整個(gè)大廳的人為這幾位計(jì)算機(jī)理論科學(xué)家歡呼妇智,感謝他們?yōu)橥七M(jìn)人類知識(shí)進(jìn)步所做的重大貢獻(xiàn)滥玷,你何時(shí)見過這樣的場面?真是偉大的時(shí)刻巍棱。

后記

為完整起見惑畴,這篇論文是:
L. Sha, R. Rajkumar, and J. P. Lehoczky. Priority Inheritance Protocols: An Approach to Real-Time Synchronization. In IEEE Transactions on Computers, vol. 39, pp. 1175-1185, Sep. 1990.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市航徙,隨后出現(xiàn)的幾起案子如贷,更是在濱河造成了極大的恐慌,老刑警劉巖到踏,帶你破解...
    沈念sama閱讀 218,755評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件杠袱,死亡現(xiàn)場離奇詭異,居然都是意外死亡窝稿,警方通過查閱死者的電腦和手機(jī)楣富,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來伴榔,“玉大人纹蝴,你說我怎么就攤上這事∽偕伲” “怎么了塘安?”我有些...
    開封第一講書人閱讀 165,138評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長援奢。 經(jīng)常有香客問我兼犯,道長,這世上最難降的妖魔是什么萝究? 我笑而不...
    開封第一講書人閱讀 58,791評(píng)論 1 295
  • 正文 為了忘掉前任免都,我火速辦了婚禮,結(jié)果婚禮上帆竹,老公的妹妹穿的比我還像新娘绕娘。我一直安慰自己,他們只是感情好栽连,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評(píng)論 6 392
  • 文/花漫 我一把揭開白布险领。 她就那樣靜靜地躺著侨舆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪绢陌。 梳的紋絲不亂的頭發(fā)上挨下,一...
    開封第一講書人閱讀 51,631評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音脐湾,去河邊找鬼臭笆。 笑死,一個(gè)胖子當(dāng)著我的面吹牛秤掌,可吹牛的內(nèi)容都是我干的愁铺。 我是一名探鬼主播,決...
    沈念sama閱讀 40,362評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼闻鉴,長吁一口氣:“原來是場噩夢啊……” “哼茵乱!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起孟岛,我...
    開封第一講書人閱讀 39,264評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤瓶竭,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后渠羞,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體斤贰,經(jīng)...
    沈念sama閱讀 45,724評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年堵未,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了腋舌。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,040評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡渗蟹,死狀恐怖块饺,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情雌芽,我是刑警寧澤授艰,帶...
    沈念sama閱讀 35,742評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站世落,受9級(jí)特大地震影響淮腾,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜屉佳,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評(píng)論 3 330
  • 文/蒙蒙 一谷朝、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧武花,春花似錦圆凰、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽挑童。三九已至,卻和暖如春跃须,著一層夾襖步出監(jiān)牢的瞬間站叼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評(píng)論 1 270
  • 我被黑心中介騙來泰國打工菇民, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留尽楔,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,247評(píng)論 3 371
  • 正文 我出身青樓玉雾,卻偏偏與公主長得像翔试,于是被迫代替她去往敵國和親轻要。 傳聞我的和親對(duì)象是個(gè)殘疾皇子复旬,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • Java8張圖 11、字符串不變性 12冲泥、equals()方法驹碍、hashCode()方法的區(qū)別 13、...
    Miley_MOJIE閱讀 3,707評(píng)論 0 11
  • word直接復(fù)制來了凡恍,格式就不改了志秃。至于這門課怎么復(fù)習(xí),只要平時(shí)實(shí)驗(yàn)都認(rèn)真完成嚼酝、報(bào)告認(rèn)真寫浮还,平時(shí)分都很高;考試的話...
    Jozhn閱讀 4,556評(píng)論 0 8
  • 總線 計(jì)算機(jī)的各個(gè)功能部件通過總線連接在一起構(gòu)成完整的計(jì)算機(jī)系統(tǒng)闽巩,總線是多個(gè)系統(tǒng)功能部件之間進(jìn)行數(shù)據(jù)傳送的公共通路...
    羅蓁蓁閱讀 4,816評(píng)論 0 10
  • 前言 北大《操作系統(tǒng)原理》[https://www.coursera.org/learn/os-pku]課堂筆記钧舌,...
    尤汐Yogy閱讀 2,658評(píng)論 0 11
  • 一湖冰凝一顏枯 一段蕭瑟一殘?zhí)J 一絲斜陽一意暖 一杯薄酒一顰蹙
    Kiki與阿萊閱讀 239評(píng)論 0 2