山西某公司一臺服務(wù)器的EMC FC AX-4存儲RAID5磁盤陣列,陣列中共有12塊硬盤組成raid5磁盤陣列其中有兩塊硬盤為熱備盤,陣列中硬盤單盤容量為1TB,服務(wù)器中有兩塊硬盤離線,一塊熱備盤未啟用??蛻魧⒎?wù)器中所有磁盤帶到數(shù)據(jù)恢復(fù)公司。
通常情況下造成服務(wù)器硬盤離線的原因?yàn)榇疟P物理故障或者硬盤壞道。但是由于EMC控制器有著十分嚴(yán)格的磁盤檢查策略,容易將性能不穩(wěn)定的硬盤判定為硬件故障提出raid組,所以導(dǎo)致服務(wù)器崩潰的原因也有可能是磁盤讀寫不穩(wěn)定。
服務(wù)器數(shù)據(jù)恢復(fù)解決過程:
第一步:檢測硬盤和服務(wù)器數(shù)據(jù)備份;對服務(wù)器中所有磁盤進(jìn)行物理故障檢測,硬盤沒有物理故障,然后使用壞道檢測工具進(jìn)行硬盤壞道排查也一切正常。使用專業(yè)鏡像工具將raid中所有磁盤做全盤鏡像。如下圖:
第二步:分析RAID組結(jié)構(gòu);Raid數(shù)據(jù)恢復(fù)的常規(guī)步驟先要對服務(wù)器raid信息進(jìn)行分析,然后重構(gòu)raid組。在本案例中分析發(fā)現(xiàn)作為熱備盤的6號盤和9號盤全部無數(shù)據(jù),6號盤已經(jīng)成功激活并替換了磁盤陣列中的5號硬盤,但數(shù)據(jù)并未同步。繼續(xù)對該服務(wù)器raid中的其他硬盤進(jìn)行條帶大小、數(shù)據(jù)的分布規(guī)律、磁盤順序等必要信息進(jìn)行分析。分析發(fā)現(xiàn)7號硬盤在同一條帶上的數(shù)據(jù)與該raid中其他硬盤不同,初步確認(rèn)該盤為掉線較早的硬盤,使用數(shù)據(jù)恢復(fù)公司自用的raid校驗(yàn)程序?qū)Υ藯l帶進(jìn)行校驗(yàn)發(fā)現(xiàn)最好的數(shù)據(jù)就是除去7號盤以后的數(shù)據(jù),所以7號盤為先掉線盤無疑。將分析出來的上述信息通過北亞自主研發(fā)的raid虛擬程序組建出原raid磁盤陣列。
第三步:對服務(wù)器磁盤陣列中的LUN信息進(jìn)行分析;該服務(wù)器底層只分配了一個(gè)LUN,所以工作量相對小很多,只需對一個(gè)lun的信息進(jìn)行分析,分析后使用raid恢復(fù)程序記性解釋map數(shù)據(jù)并導(dǎo)出。然后使用自用軟件進(jìn)行zfs文件系統(tǒng)解釋,某些文件系統(tǒng)文件在解析時(shí)報(bào)錯(cuò)。工程師只好手動(dòng)對程序做debug調(diào)試后發(fā)現(xiàn)報(bào)錯(cuò)原因?yàn)榉?wù)器突然癱瘓導(dǎo)致某些元文件損壞,現(xiàn)有程序無法正常解釋。因此需要對這些損壞的文件系統(tǒng)元文件做修復(fù),才能正常解析ZFS文件系統(tǒng)。分析損壞的元文件發(fā)現(xiàn),因當(dāng)初ZFS文件正在進(jìn)行IO操作的同時(shí)存儲癱瘓,導(dǎo)致部分文件系統(tǒng)元文件沒有更新以及損壞。人工對這些損壞的元文件進(jìn)行手工修復(fù),保證ZFS文件系統(tǒng)能夠正常解析。
第四步:導(dǎo)出所有成功恢復(fù)數(shù)據(jù);利用程序?qū)π迯?fù)好的ZFS文件系統(tǒng)做解析,解析所有文件節(jié)點(diǎn)及目錄結(jié)構(gòu)。對所有成功恢復(fù)的數(shù)據(jù)進(jìn)行驗(yàn)證,數(shù)據(jù)完整。部分文件目錄和驗(yàn)證截圖如下:
更多關(guān)于云服務(wù)器,域名注冊,虛擬主機(jī)的問題,請?jiān)L問西部數(shù)碼官網(wǎng):m.ps-sw.cn