主營:高低溫沖擊箱、冷熱沖擊試驗箱、兩箱冷熱沖擊箱等設備
400-822-8565
158-9969-7899
冗余設計與容錯設計
1.冗余與容錯的概念
提高產品可靠性的措施大體上可以分為兩類:類措施是盡可能避免和減少產品故障發生的避錯”技術;第二類措施是當避錯難以完全奏效時,通過增加適當的設計余量和替換工作方式等消除產品故障的影響,使產品在其組成部分發生有限的故障時,仍然能夠正常工作的“容錯”技術。而冗余是實現產品容錯的一種重要手段。
“容錯(fault tolerance)”定義 :系統或程序在出現特定的故障情況下,能繼續正確運行的能力。“冗余(redundancy)”定義 :用多于一種的途徑來完成一個規定功能。 “容錯”反映了產品或系統在發生故障情況下的工作能力,而“冗余”是指產品通過多種途徑完成規定功能的方法和手段。“容錯”強調了技術實施的最終效果,而“冗余”強調完成規定功能所采用的不同方式和途徑。嚴格地說,冗余屬于容錯設計范疇。
從原理上講,冗余作為容錯設計的重要手段,其實施流
程和原則也同樣適用與其他容錯設計活動。
2.冗余設計
2.1.目的
冗余設計主要是通過在產品中針對規定任務增加更多的功能通道,以保證在有限數量的通道失效的情況下,產品仍然能夠完成規定任務。
2.2 .應用對象
(a) 通過提高質量和基本可靠性等方法不能滿足任務可靠性要求的功能通道或產品組成單元;
(b)由于采用新材料、新工藝或用于未知環境條件下,因而其任務可靠性難于準確估計、驗證的功能通道或產品組成單元;
(c)影響任務成敗的可靠性關鍵項目和薄弱環節;
(d)其故障可能造成人員傷亡、財產損失、設施毀壞、環境破壞等嚴重后果的安全性關鍵項目;
(e)其他在設計中需要采用冗余設計的功能通道或產品組成單元。
2.3 .適用時機
在設計/研制階段的初期,與其他設計工作同步開展。
2.4 . 冗余設計方法
A)按照冗余使用的資源可劃分為:
(a)硬件冗余:通過使用外加的元器件、電路、備份部件等對硬件進行冗余;
(b)數據/信息冗余:通過諸如檢錯及自動糾錯的檢校碼、奇偶位等方式實現的數據和信息冗余;
(c)指令/執行冗余:通過諸如重復發送、執行某些指令或程序段實現的指令/執行冗余;
(d)軟件冗余:通過諸如增加備用程序段、并列采用不同方式開發的程序等對軟件進行冗余。
B)按照實施冗余的產品級別可劃分為:部件冗余、系統冗余等。
C)按照冗余方法可劃分為:
(a)靜態冗余:只利用冗余的資源把故障的后果屏蔽掉,而不對原來的系統結構進行重新改變。此方法多用于電路或部件。
(b)動態冗余:在發現故障后,對有故障的部件或分系統進行切換或對系統進行重構或恢復。此方法多用于系統。
(c)混合冗余:上述兩種冗余方法的組合。
D)按照冗余系統的工作方式和各個單元的工作狀態,冗余也可劃分為:
(a)主動冗余(熱儲備/熱備份):冗余系統中的各個單元同時工作,以保證在有限個單元故障時,該冗余系統仍然能夠完成預定任務。主動冗余又可劃分為并行冗余和表決冗余兩類。
(b)備用冗余(冷儲備/冷備份、溫儲備/溫備份):執行任務時,冗余系統中只有一個單元工作,當該單元發生故障時,切換至其他的冗余單元,直至所有冗余單元都失效,該冗余系統才失效。備用冗余可劃分為冷備份和溫備份。
上述冗余方式分類如圖
冗余方式
備用冗余(冷儲備/冷備份、溫儲備/溫備份)
主動冗余
(熱儲備/熱備份)
并行冗余
表決冗余
溫儲備/溫備份
冷儲備/冷備份
圖1 冗余方式分類
2.4.1.主動冗余
主動冗余(active redundancy)也稱為工作冗余、熱
儲備或熱備份,是指:執行規定功能的所有手段同時處于工作
狀態的冗余。主動冗余包括并行冗余和表決冗余兩種方式。
(1)并行冗余
并行冗余系統工作時,所有冗余單元均同時工作, 并
提供相同的輸出,僅當所有冗余單元均失效時,該冗余系統才
失效。并行冗余系統中,在保證系統正常運行的前提下允許失
效的單元個數稱為該冗余系統的冗余度。圖2給出了一個二度冗
余系統的可靠性框圖示意。
并行冗余(并聯)系統的可靠性數學模型為:
(1)
式中:
n 為系統中單元數;
Rs 為系統可靠性;
Ri 為第i個單元的可靠性。
A1
A2
A3
圖2 二度并行冗余系統的可靠性框圖示意
(2)表決冗余
表決冗余即通常所說的表決系統或n中取k(k??n)系統,記作k/n(G)。
在表決冗余中,只要系統中有k個或k個以上單元正常工作即可保證該冗余系統工作正常。當k取1時,表決冗余即等效為并行冗余(并聯)。圖3給出了表決冗余系統可靠性框圖示意。
A1
A2
An
……
k/n(G)
圖3 表決冗余系統可靠性框圖示意
當采用相同冗余單元組成表決冗余系統時,表決器完全可靠,則其可靠性數學模型可表示為:
(2)
式中:
n 為系統中單元數;
Rs 為系統可靠性;
R 為單元可靠性。
當采用不同冗余單元組成表決冗余系統時,其可靠性數學模型不便用單一的通用公式描述。實際操作時可用全概率法計算系統的可靠性。例如對于2/3(G)的表決冗余系統,其可靠性可通過下式計算:
Rs=R1R2R3+(1-R1)R2R3+(1-R2)R1R3+(1-R3)R1R2
從其原理可以看出,在使用相同資源的條件下,并行冗余比表決冗余提供更多的冗余度;但對于某些具有準確度、精度等要求的功能而言,表決冗余設計能夠通過比較、判斷,篩選掉異常或錯誤的輸出,因而更能滿足功能要求。在主動冗余中,并行冗余通常用于保證一個功能通道的工作可靠性,而表決冗余通常用于保證多個功能通道。
4.2.備用冗余
備用冗余(standby redundancy)包括冷儲備、溫儲備或冷備份、
溫備份,是指:執行規定功能的一部分手段處于工作狀態,而其余部分
在需要之前處于不工作狀態的冗余。
與主動冗余相比,備用冗余由于其備份的冗余單元在正常情況下處
于不工作狀態,降低了其應力水平,因此可改善其備份單元的可靠性,
并為整個冗余系統提供壽命儲備。但由于備用冗余通常需要配置啟動或
切換環節,增加了系統的復雜性,而且這些環節失效往往成為該冗余系
統的單點失效,因此對其可靠性要求很高,一般要求它的不可靠度應小
于冗余單元不可靠度的50%,否則備用冗余的優點將大大受到限制。
帶切換的備用冗余系統如圖4 所示。A1A2An……切換環節
A1
A2
An
……
切換環節
圖4 帶切換的備用冗余系統
在備用冗余系統中,根據備份冗余單元的工作情況,又可分為冷備份和溫備份。
執行任務時,冗余系統的不工作單元如果處于關閉狀態(不加電狀態),則稱該冗余系統為冷備份系統;如果處于待機預熱狀態,則稱該冗余系統為溫備份系統。相對而言,溫備份具有較快捷的啟動或切換過程,切換過程對冗余系統工作的影響較小;冷備份中備份單元的工作應力更低,因此其不工作狀態下的可靠性較高。
2.4.3.不同冗余類型的特點
各種冗余形式具有不同的特點。在工程應用中,應根據產品特點和可靠性要求,并在成本、重量、體積、資源消耗等方面進行權衡,最終確定應采用的冗余方式。不同冗余類型的特點及適用性匯總見表1所示。
同冷備份
同樣存在切換薄弱環節。相對冷備份,不工作冗余單元的能耗和應力較高
切換過程相對冷備份冗余快捷,并可儲存冗余備份單元壽命
主份單元工作時,其余各冗余單元不工作但處于待機狀態
溫備份
有利于消除間歇故障,適用于允許輸出間斷或變化較大的功能
有切換過程,需要增加切換環節,切換過程可能對系統工作產生影響,切換環節可能構成薄弱環節
可儲存冗余單元壽命
主份單元工作時,其余各冗余單元不工作且處于關閉狀態
冷備份
備用冗余
設計相對復雜,有時需要增加比較、判斷環節,適用于有準確度、精度等要求的功能以及需要提供多個功能通道的產品
各單元同時工作,冗余單元的壽命有所損失;表決過程可能影響系統工作速度,相同資源提供的冗余度較并行冗余少
無切換過程,可有效提高功能的正確性,減少錯誤輸出
各冗余單元同時工作
表決冗余
設計相對簡單,適用產品范圍廣。
適用于提供一個功能通道的產品
各單元同時工作,冗余單元的壽命有所損失
無切換過程,對系統工作影響較小。與表決冗余相比,相同資源可以提供更多冗余度
各冗余單元同時工作
并行冗余
主動冗余
適用對象
缺 點
優 點
單元工作狀態
冗余類型
表1
2.6 .實施要點
進行冗余設計時,應注意以下幾點:
(1)可以采用相同單元冗余,也可采用不同單元冗余
例如用兩個螺栓連接一個法蘭,如果有一個螺栓失效,法蘭連接就不可靠。為了提高連接的可靠性,采用六個螺栓來連接這個法蘭,即使有任何四個螺栓失效,這個法蘭的連接還是可靠的。這是一個六中取二的表決冗余,即2/6(G)系統,這里有四個螺栓是冗余單元,均相同。
載人運載火箭在起飛至二級主機關機任務時段,具備自動逃逸功能;同時還可以接受地面遙控指令實施逃逸。這是不同功能單元冗余的例子。
(2)冗余雖然能提高任務可靠性,但降低了基本可靠性
例如一個系統由三個相同單元構成可靠性并聯系統,設每個單元可靠性為0.9,則并聯系統的任務可靠性為0.999;而該系統基本可靠性按串聯模型計算為0.729。比較可見,任務可靠性從0.9提高至0.999,但基本可靠性則從0.9降至0.729,任務可靠性提高了,但單元從一個變為三個,成本、重量、體積、功耗等大大增加了,且基本可靠性降低了,意味著維修工作量增大了,從而維修費用負擔增加了。由此可見,是否要采用冗余,采用什么樣的冗余,需要看獲得的效益與付出的代價相比是否值得來定。冗余技術是一種優化技術,它是指在費用、重量、體積、功耗等因素限制條件下,如何配置冗余單元使系統任務可靠性達到;或者在達到可靠性指標要求下使耗用的資源最少。
(3)冗余必須考慮系統多重工作模式需要,適當選擇冗余級別
例如,為防止二極管電路短路,在電路上串接二只二極管,只要有一只不短路,電路就不會短路,即對短路失效而言,二只二極管構成可靠性并聯系統,提高了電路不短路可靠性。如圖6所示。
圖6 二極管電路可靠性框圖
但是另一方面,該電路還要求不能開路,而上述串接的二極管電路,只要有一只開路就會使該電路開路,對開路失效而言,二只二極管又構成可靠性串聯,這樣就降低了電路不開路可靠性。為了解決這個問題,可采用二極管串并聯方式。如圖7所示。
(a) (b)
圖7 二極管串并聯方式
圖(a)是系統冗余,(b)是單元冗余。可以證明,系統冗余的可靠性小于單元冗余的可靠性,即在系統中較低層次單元采用冗余的效果比層次高的地方好,因此在工程許可的條件下,單元冗余方式應用較多。
(4)冗余還應考慮共因或共模故障的影響
歐空局阿麗亞娜5型火箭首飛爆炸事故,就是由于自動導航系統中用于制導和姿態控制的主、備份計算機發生共因故障所致。
2.7 .應用實例
2.7.1. 工程背景
為了確保航天員的安全,要求用于載人飛行的運載火箭比普通運載火箭有更高的可靠性和安全性。運載火箭飛行控制系統是關系運載火箭飛行成敗的關鍵系統之一,其任務是控制運載火箭按預定彈道穩定飛行,控制發動機點火、關機以及助推器、級間、整流罩、船箭等的分離,將飛船送入預定的軌道。
飛行控制系統的工作原理、組成及功能見圖8和表2所示。
圖8 飛行控制系統工作原理示意
將全系統組成一個電磁兼容的系統整體,并
為全系統供、配需要的電源
由電池、配電器、二次電源和
電纜網等組成
電源配電
分系統
按要求的時序發出相應的控制指令,引爆
相應的火工品,實現發動機的啟動及關機、
助推器的分離、整流罩的分離、火箭的級間
分離、船箭的分離、拋逃逸塔、實施逃逸時
關閉發動機等
由時序控制裝置、時序輸出裝
置、中止飛行關機裝置等組成
時序控制
分系統
進行導航計算和導引控制計算,并當運載
火箭飛行達到要求的終端條件時給出相應的
關閉發動機指令,將飛船送入預定的軌道
由火箭視加速度測量裝置和箭載計算機及飛行控制軟件組成
制導分系
統
控制運載火箭按預定的彈道穩定地飛行
由火箭姿態角及姿態角速率
測量裝置、箭載計算機及姿態
控制軟件、放大器及伺服機構
等組成
姿態控制
分系統
基本功能
組 成
分系統
表2 飛行控制系統的組成及功能
箭飛行時間比較短和需要迅速地進行故障判別、故障隔離及系統重構的特點,適當地將系統進行劃分,采用部件級、單機級及分系統級冗余結構相結合的方法,實現全系統的冗余化設計,使各冗余結構在出現一個故障的情況下,仍能保障系統實現正常功能,即具有容許一度故障的冗余能力。為使系統設計簡單和容易實現,將全系統綜合劃分為若干個部分進行設計。下面以直流電源配電部分和時序控制分系統的冗余設計為例進行簡要說明。
2.7.2.直流電源配電部分的冗余設計
直流電源配電部分包括電池、配電器和電纜網。
(1)電池
為適應不同負載的需要,飛行控制系統中使用了不同電壓和輸出功率的幾種電池,這些電池自身都未采用冗余設計。根據輸出功率和使用特點,在系統應用中可使用直接并聯和參數余量兩種冗余設計方法。
1)直接并聯方法
利用電池開路時端電壓及充電時端電壓都比放電時的端電壓高的特點,將兩個電池直接并聯起來供電,構成并聯冗余結構。這種結構的關鍵問題是對電池短路故障的冗余能力。兩個電池并聯起來,若一個電池出現開路故障,另一個電池可正常供電。而對電池單體短路故障的冗余能力與電池串聯的單體數有關。例如,一個由20個單體串聯成的銀-鋅電池,荷電單體的開路電壓按1.8v,放電時的電壓按1.5v,則即使出現三個單體短路時,仍不會產生正常電池向故障電池充電,至少有允許3個單體出現短路故障的冗余能力;當允許有一定的充電電流時,可容許更多的故障單體。
2)參數余量方法
電池的每個單體內都是由多對電池極板并聯,單體與單體之間有非常牢固的連接。因而在保證每個單體都加注了電解液后,電池開路的故障模式實際上可以不考慮,可只考慮電池單體短路、電量不夠等類型的故障模式。這類故障模式的后果是導致電池提供的供電電壓降低。系統設計時考慮到了這種情況,將電池的所有用電負載設計成在電池有一個單體出現上述故障模式時能提供的電壓下,也能正常工作。雖然電池未增加,但具有容許一個單體故障的冗余能力。
設一個由20個單體串聯成的電池,單個單體的可靠度為
R,無參數余量時整機的可靠度Rz 為:Rz=R20;若按有一
個單體冗余能力設計參數,即19/20(G)系統,則整機的可
靠度RR為:
RR為:RR=R20+20 x R19(1-R)=20R19-19 R20。
可用一組計算數據來說明這種參數余量設計方法對提高
可靠性的作用:
設R=0.9999,則有:
Rz=0.9980019
RR=0.9999981
采用這種設計方法時,應分析和試驗單體內化學變化產
生的影響,確定電池能否滿足供電電流和供電時間的要求;
不能滿足要求的,應采用直接并聯方法。
(2)配電器和電纜網
系統中有多個配電器,每個配電器中又有多個配電支路和控制電路。在配電器內部采用了元器件級的冗余設計。運載火箭配電的特點是火箭起飛前將電源接通,飛行中絕大多數時間要求一直可靠地供電而不斷開,只有少數的配電負載要求飛行中有時斷開有時接通。配電器多為繼電器電路組成,對飛行中要求一直供電的電路,采用多個繼電器和多個繼電器接點并聯的設計或多個環路供電的設計,保證整個飛行中能可靠的供電。對飛行中有時斷開有時接通的配電支路和控制電路,一般采用繼電器的并串聯冗余結構。有的雖然要求飛行中有時通有時斷,但其發生通失效和斷失效的危害明顯不同,發生斷失效危害大的,應采用串聯結構;發生通失效危害大的,應采用并聯結構。
電纜網包括連接線路和接插件,要求可靠的導通,可采用雙點雙線、多點多線并聯設計,供電線路也采用環形供電結構。
2.7.3 .時序控制分系統的冗余設計
時序控制分系統包括時序指令產生和時序指令輸出兩大
部分功能電路。火箭各級發動機的啟動和關機、助推器的分
離、火箭各級之間的分離、拋逃逸塔及拋整流罩、船箭之間
的分離等,都是由時序控制分系統控制實現的;由于直接涉
及很多火工品的引爆,所以不僅直接關系到火箭飛行成敗,
而且直接與安全性有關。時序指令產生部分由箭載計算機的
時序輸出接口電路和時序控制裝置組成,皆采用三重復單元
冗余設計,箭載計算機時序輸出接口不進行故障判別,其三
重復時序輸出接口與三重復的時序控制裝置一一對應串聯構
成表決式冗余結構,利用時序控制裝置的2比1表決輸出電路
進行故障判別和系統重構,以簡化系統設計。時序輸出裝置
采用控制端為并聯,輸出為并串或串并聯的開關電路冗余結
構。圖9為時序控制分系統冗余結構原理圖。
圖9 時序控制分系統冗余結構原理圖
火箭飛行中時序輸出裝置的工作,有接通也有斷開狀態,但絕大多數飛行中只接通斷開一次,且接通的時間很短。由于火箭起飛前時序輸出裝置的所有時序輸出皆為斷開狀態,并可對其進行檢測確保其為斷開狀態,飛行中接通后若斷不開,還有其他設計措施防止影響正常飛行,因此采用了上述的保證可靠的接通和防止誤通的電路結構。
2.7.4 .小結
提高一個系統的可靠性需要有多方面的設計措施,元器件是系統的基礎,首先必須選用高質量等級的元器件。對于像運載火箭飛行控制系統這樣復雜的系統,只靠提高元器件的可靠性實現載人飛行要求的高可靠、高安全水平,會給元器件制造帶來難以克服的困難或需要花費高昂的代價。在一定的可靠性水平的元器件基礎上,采用冗余技術是提高系統任務可靠性,得到高可靠性系統的有效設計措施。采用冗余設計雖然增加系統的復雜性,但與因故障造成運載火箭飛行失敗的損失相比是微不足道的。我國載人航天首飛圓滿成功,進一步證明了火箭飛行控制系統“全冗余”化設計的正確性和有效性。設計師系統總結出飛行控制系統適應運載火箭簡單、可靠、響應快和完全自主等特點的冗余設計的五個工程要素是:
(a)選擇合理可行的冗余結構;
(b)確定正確有效的判別準則及門限;
(c)構建簡單可靠的系統重構方法;
(d)完善的冗余可檢測性設計;
(e)的無共因失效設計。
3.容錯設計
相比冗余設計,容錯設計包含的內容更為廣泛,它通過
在產品設計中增加消除或控制故障(錯誤)影響的措施,實
現提高產品任務可靠性和安全性的目的。
在執行任務時,一個容錯系統從產品出錯到恢復通常
需要經過下列幾個步驟:
(a)故障檢測;
(b)程序重復執行;
(c)故障定位及診斷;
(d)故障屏蔽/隔離,限制故障后果的擴散,以避免影響系統的其他部分;
(e)系統重構/備份切換;
(f)系統恢復;
(g)重啟動。
故障的檢測與修復也可以分成在線(聯機)或離線(停機)兩種;也可以根據修復后的系統性能有無變化而分成性能降級及不降級兩種容錯系統。
作為可靠性設計的內容之一,容錯設計的目
的、實施時機、流程和基本原則與冗余設計基本相
同。
contact us
地址:廣東省東莞市寮步鎮嶺安街2號手機微信號
微信公眾號
手機網站