物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊

Platform助力氣象衛(wèi)星應用系統(tǒng)實現(xiàn)數(shù)據(jù)處理自動化

作者:Platform公司供稿
來源:來源網(wǎng)絡(luò)(侵權(quán)刪)
日期:2011-09-07 15:58:25
摘要:Platform Computing是全球領(lǐng)先的集群、網(wǎng)格、云中間件和云管理平臺提供商,幫助客戶以經(jīng)濟、高效的方式管理、分配和使用計算資源,為企業(yè)的業(yè)務(wù)創(chuàng)新和發(fā)展提供全面支持。目前,Platform Computing的集群、網(wǎng)格和云計算解決方案已經(jīng)廣泛用于制造、能源、金融、電信、航空航天等領(lǐng)域。
關(guān)鍵詞:Platform云計算中間件

  在全球氣候變暖的大背景下,極端天氣氣候事件的頻發(fā),將給人民群眾的生命和財產(chǎn)安全帶來威脅。為了應對氣候變化帶來的諸多挑戰(zhàn),各國氣象部門紛紛加強了綜合探測系統(tǒng)的建設(shè)。作為綜合探測系統(tǒng)的一支重要力量,我國氣象衛(wèi)星風云一號、二號、三號系列,猶如太空的“千里眼”,24小時監(jiān)測著地球上的“風云變化”。

  系統(tǒng)資源調(diào)動自動化是關(guān)鍵

  從衛(wèi)星上接收各種氣象遙感數(shù)據(jù)到輸出各種大氣、海洋、陸地圖像和定量應用產(chǎn)品,是一個非常復雜的過程,需要多臺服務(wù)器協(xié)同工作。要讓多臺服務(wù)器自動、有條有理、像流水線一樣井然有序地處理和運行,尤其是在多衛(wèi)星條件下,作業(yè)流程或作業(yè)序列的啟動和運行顯得更加復雜多變,單靠人工干預,基本上無法完成所需要的作業(yè)調(diào)度任務(wù),必須依靠自動化的負載調(diào)度系統(tǒng),自動分配計算資源,實現(xiàn)資源調(diào)度的自動化。

  根據(jù)風云氣象衛(wèi)星數(shù)據(jù)處理的特點,國家衛(wèi)星氣象中心認為負載調(diào)度子系統(tǒng)應該具備以下特點:實現(xiàn)衛(wèi)星數(shù)據(jù)處理總體流程調(diào)度、控制、管理。由于衛(wèi)星數(shù)據(jù)處理是以實時運行的作業(yè)為序列,負載調(diào)度子系統(tǒng)首先需要跳出單個作業(yè)的處理和控制,確保衛(wèi)星數(shù)據(jù)處理流程具有正確的調(diào)度序列和運行序列,同時也要確保流程運行的可控性、可見性和可管理性。

  實現(xiàn)單個作業(yè)在多處理器、多機環(huán)境的有效和有序調(diào)度。衛(wèi)星數(shù)據(jù)處理具有數(shù)據(jù)量大、運算量大等高性能計算的顯著特點,需要相當高的計算能力。負載調(diào)度子系統(tǒng)必須能根據(jù)當前計算機系統(tǒng)的運行情況以及需要運行的作業(yè)的情況,根據(jù)事先定義好的調(diào)度策略,迅速高效地調(diào)度相應作業(yè)的運行。

  通過對現(xiàn)有計算機系統(tǒng)使用效能和可擴展性分析,為業(yè)務(wù)系統(tǒng)的擴充以及現(xiàn)有系統(tǒng)的運行狀況的改進提供參考依據(jù)。

  Platform解決方案來助力

  為實現(xiàn)對風云氣象衛(wèi)星數(shù)據(jù)處理的調(diào)度、監(jiān)控、運行和管理,國家衛(wèi)星氣象中心與業(yè)界公認的分布式資源管理領(lǐng)域的領(lǐng)袖公司Platform合作,構(gòu)建基于Platform公司作業(yè)調(diào)度解決方案的負載調(diào)度子系統(tǒng),并將其作為了衛(wèi)星氣象中心運作的基礎(chǔ)支撐工具。國家衛(wèi)星氣象中心認為,Platform公司是集群系統(tǒng)管理軟件領(lǐng)域的領(lǐng)導者,其LSF系列負載調(diào)度軟件在國內(nèi)外具有眾多多的用戶案例,在國防、教育、航空、航天、氣象、電子等領(lǐng)域得到了廣泛的應用。的用戶案的用戶案例,在國防、教育、航空、航天、氣象、電子等領(lǐng)域得到了廣泛的應用。

  Platform作業(yè)調(diào)度解決方案包括Platform Process Manager、Platform LSF兩個模塊。

  Platform Process Manager是一套專業(yè)的工作流程管理系統(tǒng),提供可視化的工作流程創(chuàng)建、編輯、運行和監(jiān)控,極大地簡化了大型復雜工作流程的定義、運行和管理問題。Platform Process Manager能提供衛(wèi)星數(shù)據(jù)處理流程的定義、執(zhí)行、實時監(jiān)視和控制。用戶通過Process Manager的客戶端工具或用戶定制的工具,創(chuàng)建、觸發(fā)和管理衛(wèi)星數(shù)據(jù)的處理流程。Process Manager后端的流程處理服務(wù)器響應來自客戶端的請求,根據(jù)流程的觸發(fā)條件啟動流程,根據(jù)用戶的指令控制流程運行,同時維護流程中所有作業(yè)的相互依賴關(guān)系。當流程中作業(yè)的運行條件滿足時,Process Manager的服務(wù)將實際作業(yè)提交到LSF 管理的機群中。

  Platform LSF 是一套專門針對氣象、工程等高性能計算領(lǐng)域推出的機群管理系統(tǒng),支持異構(gòu)的、分布式Uinx/Linux,Windows計算環(huán)境,為用戶提供可靠的機群管理、負載共享、復雜的作業(yè)管理及調(diào)度功能和大規(guī)模并行計算的能力。LSF 既可單獨使用,也可以用作Platform Process Manager的資源管理和調(diào)度層,根據(jù)Process Manager的指令運行用戶流程中的作業(yè)。利用Platform LSF 可以實現(xiàn)單個作業(yè)在多處理器、多機環(huán)境的有效和有序調(diào)度。此外,Platform LSF 還提供了可靠的機群管理、負載共享、復雜的作業(yè)管理及調(diào)度功能。

  衛(wèi)星數(shù)據(jù)處理自動化成現(xiàn)實

  國家衛(wèi)星氣象中心利用Platform Process Manager實現(xiàn)了多衛(wèi)星數(shù)據(jù)處理的自動化,以及復雜流程和子流程的實時控制和管理,同時還利用Platform LSF實現(xiàn)了計算資源的共享和負載平衡,確保了計算資源的高可靠和高可用,提升了作業(yè)調(diào)度的效率和計算資源利用的效率。

  實現(xiàn)基于故障的容錯與恢復。Platform LSF 支持外部資源的定義,從而可與關(guān)鍵業(yè)務(wù)的高可用系統(tǒng)無縫集成,支持關(guān)鍵業(yè)務(wù)的高可用。Platform LSF 及Platform Process Manager支持主服務(wù)器的容錯功能,在主服務(wù)器故障時,可自動切換到備份服務(wù)器,并繼續(xù)調(diào)度作業(yè)的自動運行。在此其間,業(yè)務(wù)系統(tǒng)的運行不受影響。Platform LSF 及Platform Process Manager支持衛(wèi)星處理流程的故障自動處理與恢復。在流程中的某個作業(yè)運行失敗后,可以手動或自動地重新運行該作業(yè),并讓該流程繼續(xù)運行。當某個計算節(jié)點故障或宕機時,其上運行的作業(yè)能自動恢復在其它節(jié)點上運行,實現(xiàn)多機切換后流程接續(xù)、自動恢復等功能。

  實現(xiàn)“搶占式”的調(diào)度策略。Platform 支持“搶占式” 調(diào)度策略。在資源緊張時,高優(yōu)先級作業(yè)可以搶占正在運行的低優(yōu)先級作業(yè)使用的資源并啟動運行。低優(yōu)先級作業(yè)將被掛起,直到有可用的資源時再繼續(xù)運行。Platform LSF支持可定制的“搶占” 策略,管理人員可以根據(jù)任務(wù)的優(yōu)先級以及系統(tǒng)的運行情況,定制相應的調(diào)度策略,確保重要的作業(yè)優(yōu)先執(zhí)行,同時又不犧牲已經(jīng)運行作業(yè)的當前結(jié)果。Platform LSF根據(jù)系統(tǒng)負載情況和作業(yè)屬性動態(tài)地調(diào)度資源,保證高時效和高精度作業(yè)的按時完成,并保證系統(tǒng)資源的充分使用。

  實現(xiàn)基于流程的自動調(diào)度和處理。衛(wèi)星數(shù)據(jù)處理不僅數(shù)據(jù)量大、處理流程復雜,需要根據(jù)時間、事件的不同觸發(fā)不同的流程完成不同的任務(wù);同時還具有時效性,每一批數(shù)據(jù)都必須在規(guī)定時間內(nèi)完成,因此從某種意義上說,它還是一個實時系統(tǒng)。Platform Process Manager提供了可視化的工作流程創(chuàng)建、編輯、運行和監(jiān)控,極大地簡化大型復雜工作流程的定義、運行和管理問題。同時Platform Process Manager還可以根據(jù)時間、事件以及作業(yè)的不同狀態(tài)對作業(yè)流程或子流程進行觸發(fā),從而可以根據(jù)衛(wèi)星數(shù)據(jù)處理的不同情況進行不同的業(yè)務(wù)處理,實現(xiàn)生產(chǎn)流程處理的自動化。另一方面,Platform Process Manager 和Platform LSF的有機結(jié)合,可以充分利用Platform Process Manager提供的復雜流程定義、流程在線監(jiān)視和控制功能,同時利用Platform LSF 提供的靈活多樣的作業(yè)自動調(diào)度和處理,根據(jù)系統(tǒng)資源情況和作業(yè)優(yōu)先級,動態(tài)地調(diào)度作業(yè)運行,確保衛(wèi)星數(shù)據(jù)處理流程的實時、高效。

  實現(xiàn)基于時間窗的機器分組和多隊列管理。該衛(wèi)星數(shù)據(jù)處理平臺可用于監(jiān)測多個衛(wèi)星,要求能夠根據(jù)監(jiān)測衛(wèi)星的運行情況,提供基于時間窗的機器分組和多隊列管理,從而可以根據(jù)系統(tǒng)運行需要,合理地調(diào)配資源。Platform LSF提供了基于時間窗的機器分組和多隊列管理,可以根據(jù)系統(tǒng)運行的需要,比如可以根據(jù)監(jiān)測衛(wèi)星的數(shù)量、衛(wèi)星數(shù)據(jù)處理的不同階段配置不同的隊列資源和機器分組,從而實現(xiàn)動態(tài)地進行系統(tǒng)配置,優(yōu)化系統(tǒng)資源的使用,確保衛(wèi)星數(shù)據(jù)處理的實時、高效。

  實現(xiàn)基于數(shù)據(jù)分布的調(diào)度策略。衛(wèi)星數(shù)據(jù)處理的數(shù)據(jù)量非常大,因此需要將不同衛(wèi)星的數(shù)據(jù)分布在不同的機器上,在進行作業(yè)調(diào)度時,就需要根據(jù)不同機器上的數(shù)據(jù)分布情況進行相應的調(diào)度。Platform LSF支持機器分組,可以根據(jù)數(shù)據(jù)的分布動態(tài)地調(diào)度作業(yè)的運行,確保運行作業(yè)的分布與數(shù)據(jù)分布相一致。

  實現(xiàn)全面的負載監(jiān)控。Platform LSF能收集每臺機器各種負載信息,并支持負載信息擴展,可以根據(jù)系統(tǒng)總體情況和設(shè)計需要,動態(tài)地設(shè)置系統(tǒng)資源情況,包括磁盤訪問、主機情況、軟件的許可證,用戶數(shù)等。

  中國氣象局國家衛(wèi)星氣象中心副總設(shè)計師施進明表示,倘若離開了Platform LSF基于網(wǎng)格技術(shù)的自動化作業(yè)調(diào)度系統(tǒng),是難以做到有條不紊地處理大量的衛(wèi)星氣象數(shù)據(jù)、讓計算中心的計算資源利用率達到85%以上的。Platform LSF幫助國家衛(wèi)星氣象中心實現(xiàn)了計算資源的共享和負載平衡,確保了計算資源的高可靠和高可用。

  關(guān)于Platform Computing

  Platform Computing是全球領(lǐng)先的集群、網(wǎng)格、云中間件和云管理平臺提供商,幫助客戶以經(jīng)濟、高效的方式管理、分配和使用計算資源,為企業(yè)的業(yè)務(wù)創(chuàng)新和發(fā)展提供全面支持。目前,Platform Computing的集群、網(wǎng)格和云計算解決方案已經(jīng)廣泛用于制造、能源、金融、電信、航空航天等領(lǐng)域。了解詳情,請訪問http://www.platform.com.cn.

人物訪談