Was this page helpful?

Discovery Error During Initializing BIOS

    內容表格
    沒有標頭

    在使用LSI MegaRAID HBA, 可能有很低的機率性會遇到這種情況, 請見下圖所示:
    discovery_error.jpg
    老實講, 這種情況其實很恐怖. 這是基於HBA在discovery時期, 所發生的一種topology error問題. 但是會想到的是. 不論是enclosure或著expander的IN或OUT的port都沒有接錯啊, 為什麼會出這種錯誤呢? 你問我? 我也不知道! LSI那邊還在跟我進行這種問題上的確認. 當然你可以做powercycle的手段, 再重新讓他discovery, 但是在Initialzing BIOS的時期, 他依然會出現這種卡死的情況, 這種屬於非常嚴重的critical error, 系統是無法再進行操作下去.

    這是很嚇人! 因為所建立的Array會被這個情況給搞死, 一般MegaRAID控制器使用者可能遇到這種情況, 我想會完全不知所措, 並且處於驚恐的狀態. 你會很擔心你的數據會被這個情況完全毀掉. 因為這個critical error的發生, system是處於完全hang住的狀態, 無法再繼續操作下去. ok! 這種topology上的error, 其實不才的小弟真的摸了很長一段時間. 到後來想到一種可能性的解決方式, 這個solution有比較大的機會讓你的array完整復原.

    首先這種discovery時期所發生的critical error, 根本上是基於RAID Configuration的問題. 在這個情況的發生, 你能做的就是:
    1. 嘗試powercrycle, 如果情況依然持續. 請看2.
    2. 持續發生的情況, 請將這台機器給shutdown
    shudown你的系統之後, 把所有的drive給全部pull out(拔掉), 因為這些PD上面存有RAID Configuration的Metadata. 當全部拔掉以後, 將系統給power on, 在Initializing BIOS的階段時, 你會看到discovery error已經不存在, 但是換來的代價是全部的RAID Configuration遺失, 不過這是不需要擔心的! 因為你真正的RAID Configuration依然存在在你pull out的drive上. 這只是NVRAM上的設定遺失問題.

    接下來你必須要進入WebBIOS, 將所有的RAID configuration全部清空, 因為錯誤已經發生了! 你不得不這樣做. 在來儲存之後, 重開機! 再來你能做的就是shutdown這台系統. 然後將全部的drive給插回正確的slot位置上, 再次重新啟動系統. 在MegaRAID控制器上有一種目前RAID硬體中普遍常見的特徵, 就是OAR(Online Array Roaming), 這種特性會讓RAID Controller重新掃描HDD上的相關metadate, 並且重新載入到NVRAM, 使其讓Array被重新建立. 依照這種特徵, 在MegaRAID控制器處於Initializing BIOS的階段下進行OAR, 這可能需要一段時間. 之後全部的Array會被再次建立, 並且系統可以正常繼續操作下. discovery error的情況已經沒有再發生了! 當然我這邊有個建議:
    要將drive全部插回去的時候, 我建議請插回之前的slot位置, 因為不這樣做, Array復原的失敗率會提高. 因為PD上metadata紀錄的slot位址完全不同. ODR是不可以和OAR同時進行, 這是極具風險的. 在LSI的MegaRAID Software Guide也提到過.

    基於這種很嚴重的critical error, 這邊提出的solution怪招, 也不敢保證一定有效, 但是根據測試(惡搞?)的情況, 這個做法有很大的機會可以復原全部的RAID Array.

    Was this page helpful?
    標籤 (Edit tags)
    • No tags

    文件 1

    文件大小日期附件上傳者 
     discovery_error.jpg
    無描述
    125.35 KB07:48, 24 Nov 2011vxr動作
    您必須 登入 才能發佈評論。
    Powered by MindTouch Core