物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

大規(guī)模計(jì)算給主流數(shù)據(jù)中心帶來的五大啟示

作者:本站采編
來源:搜狐
日期:2015-10-28 10:28:48
摘要:數(shù)據(jù)中心擴(kuò)大規(guī)模時(shí),大多數(shù)IT團(tuán)隊(duì)會(huì)尋求這樣一種管理控制臺(tái):能夠提供一種直觀、全面的視圖,從而簡化日常的管理任務(wù)。IT團(tuán)隊(duì)在管理超大規(guī)模的數(shù)據(jù)中心時(shí),還學(xué)會(huì)了尋找這樣一種控制臺(tái):可以調(diào)用如今的數(shù)據(jù)中心平臺(tái)帶來的細(xì)粒度數(shù)據(jù)。這包括每一個(gè)服務(wù)器、機(jī)架或整屋子計(jì)算設(shè)備的實(shí)時(shí)用電情況和溫度。

  數(shù)據(jù)中心擴(kuò)大規(guī)模時(shí),大多數(shù)IT團(tuán)隊(duì)會(huì)尋求這樣一種管理控制臺(tái):能夠提供一種直觀、全面的視圖,從而簡化日常的管理任務(wù)。IT團(tuán)隊(duì)在管理超大規(guī)模的數(shù)據(jù)中心時(shí),還學(xué)會(huì)了尋找這樣一種控制臺(tái):可以調(diào)用如今的數(shù)據(jù)中心平臺(tái)帶來的細(xì)粒度數(shù)據(jù)。這包括每一個(gè)服務(wù)器、機(jī)架或整屋子計(jì)算設(shè)備的實(shí)時(shí)用電情況和溫度。

  第一個(gè)經(jīng)驗(yàn):別忽視了“小”數(shù)據(jù)。

  整合能源管理中間件的管理控制臺(tái)可以把這些數(shù)據(jù)中心的數(shù)據(jù)點(diǎn)聚合到一覽無遺的熱相圖和電力圖,并將用于趨勢分析和容量規(guī)劃的所有數(shù)據(jù)記入日志。之后可以充分利用這些數(shù)據(jù),用于各種削減成本的實(shí)踐。比如說,數(shù)據(jù)中心的團(tuán)隊(duì)可以根據(jù)實(shí)際的耗電情況,更高效地配置機(jī)架。要是不了解實(shí)時(shí)模式,數(shù)據(jù)中心團(tuán)隊(duì)就只好依賴電源額定功率和靜態(tài)的實(shí)驗(yàn)室測試。

  一種示例性的使用場合表明了實(shí)時(shí)監(jiān)控與靜態(tài)計(jì)算之間的重大區(qū)別。配置4000瓦電量的機(jī)架時(shí),傳統(tǒng)的計(jì)算方法導(dǎo)致數(shù)據(jù)中心團(tuán)隊(duì)為每個(gè)機(jī)架安裝大約10臺(tái)服務(wù)器。(在這個(gè)例子中,服務(wù)器電源額定功率為650瓦,實(shí)驗(yàn)室測試表明400瓦對(duì)預(yù)期的配置而言是個(gè)穩(wěn)妥的數(shù)值。)

  同樣這個(gè)團(tuán)隊(duì)對(duì)耗電量執(zhí)行實(shí)時(shí)監(jiān)控后發(fā)現(xiàn),服務(wù)器的用電量很少超過250瓦。了解這個(gè)情況后,團(tuán)隊(duì)將為機(jī)架配置的服務(wù)器數(shù)量增加到16臺(tái),計(jì)算容量增加了 60%。萬一任何某一個(gè)機(jī)架中的服務(wù)器帶來的需求讓總耗電量超過機(jī)架閾值,以免造成破壞,數(shù)據(jù)中心團(tuán)隊(duì)同時(shí)為每個(gè)機(jī)架采取了保護(hù)性的電量封頂,這會(huì)在下面的第五個(gè)經(jīng)驗(yàn)中作更詳細(xì)的解釋。

  第二個(gè)經(jīng)驗(yàn):消除幽靈服務(wù)器。

  一旦數(shù)據(jù)中心團(tuán)隊(duì)有能力監(jiān)控實(shí)時(shí)耗電情況,評(píng)估工作負(fù)載在整個(gè)數(shù)據(jù)中心的分配狀況就成了一項(xiàng)簡單的工作。很容易發(fā)現(xiàn)通常未得到充分利用的服務(wù)器和機(jī)架。經(jīng)過一段時(shí)間后,數(shù)據(jù)中心管理人員就能確定可以合并或精簡哪些服務(wù)器。幽靈服務(wù)器是上了電但處于閑置狀態(tài)的系統(tǒng),可以讓它們處于節(jié)省電力的睡眠模式??梢圆扇≈T如此類的節(jié)能措施,避免能源浪費(fèi),因而可以縮短用電預(yù)算。實(shí)際情況表明,如果處理好幽靈服務(wù)器,無論規(guī)模大小,普通的數(shù)據(jù)中心可以將預(yù)算縮減15%到20%。

  第三個(gè)經(jīng)驗(yàn):選擇軟件而不是硬件。

  超大規(guī)模運(yùn)營常常橫跨分布在不同地區(qū)的多個(gè)數(shù)據(jù)中心,這樣一來遠(yuǎn)程管理顯得至關(guān)重要,以確保服務(wù)的日常連續(xù)性。當(dāng)前的全球經(jīng)濟(jì)氣候讓許多企業(yè)和機(jī)構(gòu)面臨同樣的情形,IT部門在設(shè)法高效地管理多個(gè)站點(diǎn),又不必將人手增加一倍,或?qū)r(shí)間浪費(fèi)在奔波于多個(gè)地方。

  遠(yuǎn)程鍵盤、視頻和鼠標(biāo)(KVM)技術(shù)在過去幾十年有了長足發(fā)展,可幫助IT部門與時(shí)俱進(jìn),但硬件KVM解決方案因而變得日益復(fù)雜起來。為了避免管理管理覆蓋系統(tǒng)(management overlay)本身,許多世界上最龐大、最復(fù)雜的基礎(chǔ)設(shè)施的操作人員在采用軟件KVM解決方案,最近還在采用虛擬化的KVM解決方案。

  即便對(duì)普通的數(shù)據(jù)中心而言,節(jié)省的成本也會(huì)迅速積少成多。IT團(tuán)隊(duì)?wèi)?yīng)該把任何現(xiàn)有的KVM切換器和適配器的成本以及相關(guān)的許可費(fèi)(切換器軟件、帶內(nèi)許可證和帶外許可證等)加起來。一套典型的硬件KVM切換解決方案其成本通常如下:切換器超過50萬美元,切換器軟件要12.5萬美元,帶內(nèi)和帶外節(jié)點(diǎn)許可證另外要50萬美元。連適配器也有可能超過25萬美元。另外,軟件KVM解決方案可以避免100多萬美元的硬件KVM成本。

  第四個(gè)經(jīng)驗(yàn):適當(dāng)調(diào)高溫度。

  世界上一些規(guī)模最大的數(shù)據(jù)中心在監(jiān)控和管理能源及熱量模式方面有著多年的豐富經(jīng)驗(yàn),它們率先采用了提高環(huán)境溫度的運(yùn)營模式。發(fā)布的數(shù)字表明,將數(shù)據(jù)中心的環(huán)境溫度調(diào)高1°C,就可以讓數(shù)據(jù)中心電費(fèi)減少2%。

  適當(dāng)調(diào)高數(shù)據(jù)中心的環(huán)境溫度后,經(jīng)常檢查局部熱點(diǎn),并實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)中心設(shè)備,這一步很重要。一旦有效的監(jiān)控實(shí)時(shí)到位,就可以逐步調(diào)整工作溫度,并且對(duì)照預(yù)算和容量規(guī)劃來評(píng)估節(jié)省了多少成本。

  第五個(gè)經(jīng)驗(yàn):別讓你的機(jī)架溫度過高。

  由于企業(yè)期望以及要求IT部門識(shí)別和避免原本會(huì)干擾關(guān)鍵業(yè)務(wù)運(yùn)營的故障,已在超大規(guī)模數(shù)據(jù)中心證實(shí)切實(shí)可行的任何主動(dòng)管理方法都應(yīng)該予以評(píng)估,看看有沒有可能適用于規(guī)模較小的數(shù)據(jù)中心。過高的工作溫度會(huì)給硬件帶來毀滅性后果,所以要密切關(guān)注這會(huì)給設(shè)備正常運(yùn)行時(shí)間和生命周期帶來怎樣的影響,這點(diǎn)很要緊。

  Hadoop 等許多HPC集群添置了冗余和動(dòng)態(tài)負(fù)載均衡機(jī)制,以便遇到故障后可以順暢恢復(fù)。有助于盡量降低超大規(guī)模能源需求的同一套基本的監(jiān)控、警報(bào)和自動(dòng)化控制機(jī)制也能幫助規(guī)模較小的數(shù)據(jù)中心識(shí)別和消除局部熱點(diǎn);而從長遠(yuǎn)來看,局部熱點(diǎn)會(huì)給設(shè)備的健康狀況帶來不利影響。電源和溫度方面采取統(tǒng)一的做法還有助于在數(shù)據(jù)中心保持更一致的環(huán)境,這最終可以避免損壞設(shè)備的溫度突增和電力尖峰。

  除了環(huán)境控制外,IT團(tuán)隊(duì)還可以充分利用最前沿的能源管理解決方案,它們提供了電力封頂功能。如果設(shè)置電力閾值,就能隨心所欲地配置機(jī)架,又不用擔(dān)心電力尖峰這個(gè)風(fēng)險(xiǎn)。在一些地區(qū),電力封頂對(duì)保護(hù)數(shù)據(jù)中心避免有干擾、不可靠的電源起到了重要的作用。

  向前看齊

  幸好,大多數(shù)數(shù)據(jù)中心在相比超大數(shù)據(jù)中心和超大規(guī)模計(jì)算環(huán)境風(fēng)險(xiǎn)低得多的規(guī)模下運(yùn)行。不過,任何規(guī)模的數(shù)據(jù)中心都應(yīng)該將減少能源成本、避免服務(wù)中斷視作一個(gè)優(yōu)先事項(xiàng)。如果采用成熟可靠的方法,并充分利用整個(gè)數(shù)據(jù)中心中的所有實(shí)時(shí)數(shù)據(jù),IT和設(shè)施部門就可以效仿超大規(guī)模數(shù)據(jù)中心,只需要投入比較少的前期成本和精力,就能獲得重大回報(bào)。

人物訪談