Emergency Hotspare

    內容表格
    沒有標頭

    版本為 12:45, 14 Nov 2024

    到這個版本。

    返回到 版本存檔.

    查閱目前版本

    Emergency Hotspare是自MegaRAID 5.x版後新增的一種高級HSP技術, 它是針對突發狀況的一種緊急措施, 請注意! 不是正規程序. 比方有一個特殊的情況:
    有一中小企業, 機房裡某一台24bays的4U Server.  24bays是全插滿PD的, 其中有16bays拿來做VD; 另外4bays拿來做GHSP, 包含有2bays做DHSP. 也就是說真正用到的PD為16+(2+2)=4, 剩下的4bays為unconfigured. 平時, 管理人員不太可能一直都待在機房, 最多就是在機房擺一包乖乖(如果他沒被吃掉的話). 假設VD建立的是RAID 6 double-parity mode.
    有一段時間VD曾經發生故障, 有兩顆掛掉. 所幸的是, 在parity的幫助校驗與還原下, VD得以復原. 有一天, 好死不死的剩下的兩顆HSP突然offline掉(可能乖乖被偷吃掉了), 管理人員卻沒注意到, 這時VD沒有任何HSP來維持數據穩定性.
    意外的一天來臨了, VD終於又出事了, 有一顆PD掛掉了, 但是由於RAID 6的關係, 靠著RAID f/w操作RoC運算XOR的幫助下, 系統得以繼續維持, 但是沒有HSP了. 這是一種特殊的緊急狀況, 還剩下4顆的unconfigured PD沒拿來做HSP. 管理人員不可能時時刻刻都在, 如果那天是假日的話怎麼辦? 這時EHSP(Emergency Hotspare)就會派上用場了.
    EHSP是一種高級的特殊HSP應用, 他能將沒用到的unconfigured PD緊急啟動做利用. 如剛剛上述的情況, RAID f/w透過EHSP操作緊急啟動某顆unconfigured PD快速轉換為GHSP, 這時auto-rebuild便會開始操作, 使VD復原原來的數據結構. EHSP在特殊的情況下可以強化數據穩定的強健性.
    201205172121_lsi_raid_emergencyhotspare_issue.gif
    LSI提出的EHSP機制可以分類三種, 如下表所示他的定義, 應用在不同可能情況發生上:
    201205172103_lsi_raid_emergencyhotspare_issue.gif
    前面舉的情況是EHSP機制的其中一種, 另外兩種是針對不同的情況觸發. 從EHSP的支持上, 可以簡單利用MSM看出RAID f/w是否支持這類防護機制.
    201205172057_lsi_raid_emergencyhotspare_issue.gif

    另外也可以從tty log看出是否支持該特性:
    201205172100_lsi_raid_emergencyhotspare_issue.gif

    當EHSP緊急啟動時, 如果存在unconfigured PD, 變換馬上進行轉換. 是當時的情況而定, 假如是前面的例子, auto-rebuild操作完成後, 該unconfigured PD變換轉成online PD. 再次強調, 這不是一個正規程序, 額外的處理依然是需要的, 例如透過copyback在進行反轉. 那有一個問題就是, 到是哪顆online PD是之前非正規的unconfigured PD轉換的? LSI提供了一種標示進行識別, 如果是unconfigured PD轉換的, 便會將該PD標記為Commissioned Hotspare, 如下圖MSM可以看出:
    201205172101_lsi_raid_emergencyhotspare_issue.gif

    透過這種標記便可以得知哪一顆PD之前的狀態是unconfigured緊急轉換的. 下圖是相關的events觸發紀錄, 可以看出EHSP是怎麼操作的:
    201205172102_lsi_raid_emergencyhotspare_issue.gif

    Powered by MindTouch Core