本文主要分三部分:第一部分講的是服務(wù)器故障排除的基本原則性問(wèn)題;第二部分講述了一些服務(wù)器硬件故障排除的實(shí)例;第三部分講述了一些服務(wù)器軟件故障排除的實(shí)例。
第一部分 服務(wù)器故障排除的基本原則性問(wèn)題
一、服務(wù)器開(kāi)機(jī)無(wú)顯示應(yīng)怎么辦
1、檢查供電環(huán)境,零-火;零-地電壓
2、檢查電源指示燈,如果亮,正常嗎
3、按下電源開(kāi)關(guān)時(shí),鍵盤(pán)上指示燈亮嗎?風(fēng)扇全部轉(zhuǎn)動(dòng)嗎
4、是否更換過(guò)顯示器,更換另一臺(tái)顯示器
5、去掉增加內(nèi)存
6、去掉增加的CPU
7、去掉增加的第三方I/O卡
8、檢查內(nèi)存和CPU 插的是否牢靠
9、Clear CMOS
10、更換主要備件,如系統(tǒng)板,內(nèi)存和CPU
二、服務(wù)器故障排錯(cuò)的基本原則是什么
1、盡量恢復(fù)系統(tǒng)缺省配置
a:硬件配置:去除第三方廠商備件和非標(biāo)配備件
b:資源配置:清除CMOS,恢復(fù)資源初始配置
c:BIOS,F(xiàn)/W,驅(qū)動(dòng)程序:升級(jí)最新的BIOS,F(xiàn)/W和相關(guān)驅(qū)動(dòng)程序
d:TPL:擴(kuò)展的第三方的I/O卡屬于該機(jī)型的硬件兼容列表(TPL)嗎
2、從基本到復(fù)雜
a:系統(tǒng)上從個(gè)體到網(wǎng)絡(luò):首先將存在故障的服務(wù)器獨(dú)立運(yùn)行,待測(cè)試正常后再接入網(wǎng)絡(luò)運(yùn)行,觀察故障現(xiàn)象變化并處理
b:硬件上從最小系統(tǒng)到現(xiàn)實(shí)系統(tǒng):指從可以運(yùn)行的硬件開(kāi)始逐步到現(xiàn)實(shí)系統(tǒng)為止
c:軟件上從基本系統(tǒng)到現(xiàn)實(shí)系統(tǒng):指從基本操作系統(tǒng)開(kāi)始逐步到現(xiàn)實(shí)系統(tǒng)為止
3、交換對(duì)比
a:在最大可能相同的條件下,交換操作簡(jiǎn)單效果明顯的部件
b:交換NOS載體,既交換軟件環(huán)境
c:交換硬件,既交換硬件環(huán)境
d:交換整機(jī),既交換整體環(huán)境
三、服務(wù)器故障排除需要收集哪些信息
服務(wù)器信息:
1、機(jī)器型號(hào)
2、機(jī)器序列號(hào)(S/N:如:NC00075534)
3、Bios 版本
4、是否增加其它設(shè)備,如網(wǎng)卡,SCSI 卡,內(nèi)存,CPU
5、硬盤(pán)如何配置,是否做陣列, 陣列級(jí)別
6、安裝什么操作系統(tǒng)及版本(Winnt 4, Netware, Sco, others)
故障信息:
1、在POST時(shí),屏幕顯示的異常信息
2、服務(wù)器本身指示燈的狀態(tài)
3、報(bào)警聲和BEEP CODES
4、NOS的事件記錄文件
5、Events Log 文件
確定故障類(lèi)型和故障現(xiàn)象:
1、開(kāi)機(jī)無(wú)顯示
2、上電自檢階段故障
3、安裝階段故障和現(xiàn)象
4、操作系統(tǒng)加載失敗
5、系統(tǒng)運(yùn)行階段故障
第二部分 服務(wù)器硬件故障處理幾例
硬件故障是指服務(wù)器硬件出現(xiàn)異常而導(dǎo)致的各類(lèi)錯(cuò)誤。由于服務(wù)器構(gòu)成比較復(fù)雜,因此在檢查的時(shí)候必須認(rèn)真、仔細(xì)。下面以一臺(tái)萬(wàn)全4500為例說(shuō)明。(例子,在實(shí)際問(wèn)題中如果遇到相似現(xiàn)象,也需要具體問(wèn)題具體分析,不要盲目套用)
有一臺(tái)萬(wàn)全4500,配有256M內(nèi)存,使用一個(gè)PIII XEON 500帶2M高速緩存的處理器。開(kāi)機(jī)后沒(méi)有任何顯示,但系統(tǒng)日志上提示了一條CPU電壓為0伏的信息,系統(tǒng)指示燈三燈不停在閃爍(指示燈三燈閃爍是服務(wù)器的另一種報(bào)警方式,我會(huì)在文后說(shuō)明)。這種錯(cuò)誤一般是處理器電壓調(diào)節(jié)模塊(VRM)出錯(cuò)或CPU出錯(cuò)或CPU與CPU板塊接觸不良,但也可能是CPU板塊出錯(cuò),這時(shí)情況就比較復(fù)雜了,必須經(jīng)過(guò)認(rèn)真慎重的思考。因?yàn)镃PU板塊在整個(gè)服務(wù)器中,占有舉足輕重的地位,如果它出錯(cuò)服務(wù)器是會(huì)報(bào)致命錯(cuò)誤的,并且在系統(tǒng)日志中會(huì)提示致命錯(cuò)誤,但報(bào)CPU電壓錯(cuò)的情況也有5%左右。我們立刻把CPU調(diào)換在另一CPU插槽中,開(kāi)機(jī)后依然是剛才的那種故障。所以在初步判斷中,可以排除是CPU板塊壞。
這時(shí),取出CPU仔細(xì)擦拭金手指,以及CPU板塊中與CPU接觸的地方后,開(kāi)機(jī)依然無(wú)顯示。
相對(duì)處理器壞的情況來(lái)說(shuō)處理器電壓模塊(VRM)出現(xiàn)故障的情況比較大。于是立即在另一臺(tái)萬(wàn)全4500中取下一個(gè)處理器電壓模塊,安裝在此服務(wù)器中。開(kāi)機(jī)后,服務(wù)器依然沒(méi)有任何顯示,系統(tǒng)日志上依然提示CPU電壓為0伏的信息,系統(tǒng)指示燈三燈依然不停在閃爍。這時(shí)的情況就比較明顯了。于是立即從另一臺(tái)萬(wàn)全 4500中取下一個(gè)CPU安裝后,開(kāi)機(jī)正常。
總結(jié):
在服務(wù)器的維修中,線索都會(huì)顯得撲朔迷離,一般來(lái)說(shuō)不可能一次就可以準(zhǔn)確地判斷出問(wèn)題的所在。這樣就要求相關(guān)人員要有信心及耐心。出現(xiàn)錯(cuò)誤一般的流程是通過(guò)系統(tǒng)日志上的信息來(lái)解決,如果沒(méi)有解決問(wèn)題再找出其它因素,然后再看日志信息。總之,服務(wù)器出錯(cuò)后,必須一步一步解決,沒(méi)有捷徑可言。
又如: