國內信息產業的高速發展,極大加速了服務器的應用規模,機群也已經走下象牙塔,被越來越多的行業所接受。隨著機群系統的發展,機群的規模越來越大。當機群的節點數達到幾百個以上時,由于機群系統結構松散、結點獨立性強、網絡連接復雜,造成機群系統管理不便,難以使用。我們有時候聽說企業的高性能計算機群中個別服務器死機后2-3個月才被發現,可能我們很多人會把這當作笑話,但這實際應用中卻屢見不鮮。
圖
如果沒有一套很好的系統對機群進行監控,有可能會極大降低高性能計算機群的使用效率,浪費大量資源,這在環保被高度重視的今天是不可接受的。如何對集群系統的節點進行實施有效的監控,及時發現問題,確保系統時刻處于高效狀態是每個服務器廠商在部署集群時首先要考慮的問題。
早在2006年,曙光開始著手解決機群監控管理的難題,并于當年推出了曙光的機群監控系統DCMM,幫助曙光用戶解決大規模機群管理的難題。DCMM的第2代產品已經在曙光4000A中得到了有效驗證。據曙光相關負責人介紹,隨曙光5000A的發布,曙光即將發布其DCMM的第3代產品。
曙光DCMM通過軟/硬件結合的方式監控整個集群服務器的軟硬件運行環境與狀態,如各節點網絡流量、CPU和內存的使用率,各節點的主板溫度與CPU溫度,機箱風扇轉速與CPU風扇轉速,主板電壓與CPU電壓等等,使系統管理員對全體節點的情況一目了然。同時DCMM還可以針對部分交換機和曙光磁盤陣列等其他設備的實時信息監控,進行全面監控,一網打盡。其安裝于機柜前方的顯示屏可以所有狀態直觀的顯示在機群的觸摸屏上,幫助用戶對機群進行管理。
圖
曙光DCMM同時提供報警功能,當出現故障點時(如溫度異常、風扇停止轉動等),或超過預值時,通過聲響和界面列表、彈出窗口、郵件報警等方式向系統管理員報警,及時提醒系統管理員進行處理,避免或減少系統故障和由其引起的用戶損失。系統規模越大,系統管理和監控的效率越高。
曙光DCMM可以對任意節點進行開機,重啟(冷啟動),自動順序開機等日常工作,使系統管理員可以在控制室監視整個機群系統的運行情況并可以對最大1024節點中的任意一臺節點進行類似本地的操作,而不需要進入機房。曙光DCMM還支持遠程訪問,管理員可以通過Modem遠程撥號對機群系統進行監控和管理。
曙光DCMM由于使用數據庫存儲監控的信息,能夠提供歷史數據供技術人員分析和查詢,便于管理員調整設備檢修時間,錯過系統使用的高峰期。
曙光DCMM系統的節點端軟件有Window操作系統和Linux操作系統兩種不同版本,為客戶考慮周全。
信息是一種重要的商業資產已經成為廣大企業的共識,如何保證信息的安全,確保系統的穩定是每個企業在信息化進程中首要考慮的問題,曙光DCMM監控系統的將為廣大企業打開一扇希望之窗!