超級pos機(jī)平臺

 新聞資訊2  |   2023-08-04 14:14  |  投稿人:pos機(jī)之家

網(wǎng)上有很多關(guān)于超級pos機(jī)平臺,超級計算機(jī)計算資源調(diào)度優(yōu)化關(guān)鍵技術(shù)研究的知識,也有很多人為大家解答關(guān)于超級pos機(jī)平臺的問題,今天pos機(jī)之家(www.shbwcl.net)為大家整理了關(guān)于這方面的知識,讓我們一起來看下吧!

本文目錄一覽:

1、超級pos機(jī)平臺

超級pos機(jī)平臺

文|九鵬舉

編輯|九鵬舉

當(dāng)前世界各國均把超級計算機(jī)視為國家科技創(chuàng)新發(fā)展的重大驅(qū)動平臺,紛紛制定計劃研制各自的超級計算機(jī)系統(tǒng),將超級計算機(jī)的計算性能不斷推向新高。

2010年11月,我國研發(fā)的“天河一號”超級計算機(jī)首次奪得世界超級計算TOP500排名的桂冠,標(biāo)志著世界超級計算機(jī)從Tflops時代進(jìn)入Pflops時代。

2013年6月,同樣來自中國的“天河二號”超級計算機(jī),以54.9Pflops的性能再次奪得世界第一。

2016年6月,“太湖之光”研制成功,接棒“天河二號”成為新的世界第一,峰值性能達(dá)到了125Pflops,標(biāo)志著全球超級計算機(jī)的性能進(jìn)入百Pflops時代。

雖然2018年6月,美國能源部下屬的橡樹嶺國家實(shí)驗(yàn)室(OakRidgeNationalLaboratory)發(fā)布了新一代超級計算機(jī)“頂點(diǎn)”(Summit)。

其浮點(diǎn)運(yùn)算速度峰值達(dá)到了每秒20億億次(200PFlops),幫助美國問鼎闊別近5年之久的全球超級計算機(jī)500強(qiáng)榜單,但性能還處在百Pflpops規(guī)模。

而E級(百億億次)超級計算是當(dāng)前世界超級計算機(jī)領(lǐng)域公認(rèn)的“下一頂皇冠”,將有望在解決全球環(huán)境污染、能源危機(jī)以及氣候變化等重大難題上發(fā)揮巨大作用。

隨著美國、中國、歐盟、日本相繼發(fā)布E級超級計算機(jī)的研制計劃,超級計算機(jī)將從Pflops時代逐漸邁進(jìn)Eflpos時代。

超級計算機(jī)用戶行為和負(fù)載特征分析

當(dāng)前影響力最大的超級計算機(jī)開放日志集為希伯來大學(xué)的實(shí)驗(yàn)系統(tǒng)實(shí)驗(yàn)室開放的并行任務(wù)負(fù)載資料庫PWA,目前包含了來自全球39臺超級計算機(jī)的相關(guān)日志,已經(jīng)支持?jǐn)?shù)百篇相關(guān)研究工作。

學(xué)者Feitelson等人詳細(xì)介紹了該資料庫中十幾臺超級計算機(jī)作業(yè)的相關(guān)特征,并針對如何利用該日志集開展研究工作給出了一系列實(shí)用的研究建議,供其他研究人員參考。

PWA定義了作業(yè)負(fù)載記錄的標(biāo)準(zhǔn)格式SWF,包括作業(yè)的提交時間、開始時間、運(yùn)行時間、作業(yè)占用的核數(shù),用戶信息以及其他相關(guān)因素。

網(wǎng)格環(huán)境的公開日志集為GWA,主要包括一些網(wǎng)格環(huán)境下超級計算機(jī)的相關(guān)運(yùn)行日志。

GWA提供了基于SWF的擴(kuò)展作業(yè)格式GWF,該格式大部分字段和SWF格式相同,只是補(bǔ)充了部分網(wǎng)格環(huán)境下適用的字段。

這兩種超級計算機(jī)的數(shù)據(jù)集暫時還未包含目前10Plops以上的超級計算機(jī),其中規(guī)模較大的超級計算機(jī)為來自法國的居里(Curie)超級計算機(jī),峰值計算能力2PFlops。

更大規(guī)模的超級計算機(jī)的用戶行為和負(fù)載特征等情況需要從其他相關(guān)研究中獲得。

國內(nèi)的研究人員在PWA的基礎(chǔ)上,針對國內(nèi)高性能計算機(jī)的特點(diǎn),梳理了上海超算中心、國家超級計算無錫中心、上海交通大學(xué)、中國科技大學(xué)等單位的超級計算機(jī)的歷史作業(yè)數(shù)據(jù),放入了中國超算任務(wù)負(fù)載資料庫,公開開放給相關(guān)研究人員使用。

目前該資料庫中,包括了上海超算中心的曙光5000A近3年的日志,國家超級計算無錫中心的一臺超級計算機(jī)4個月的日志(具體名稱未知),和來自上海交通大學(xué)和中國科技大學(xué)兩所高校的兩臺超級計算機(jī)各自2年的相關(guān)日志。

但從數(shù)據(jù)質(zhì)量上看,可能還需要進(jìn)一步整理,比如國家超級計算無錫中心的超級計算機(jī)日志中無效的數(shù)值(-1)較多,對分析效果影響較大。

超級計算機(jī)的資源調(diào)度和分配由資源管理系統(tǒng)負(fù)責(zé),目前應(yīng)用比較廣泛的資源管理系統(tǒng)包括Slurm,Torque,PBSpro,LSF等。

其中Slurm是一種在超級計算機(jī)上廣泛應(yīng)用的開源資源管理系統(tǒng),包括“天河一號”,“天河二號”等超級計算機(jī)均采用了Slurm資源管理系統(tǒng)。

Slurm資源管理系統(tǒng)主要由控制進(jìn)程、結(jié)點(diǎn)監(jiān)控進(jìn)程、作業(yè)管理進(jìn)程、記賬存儲進(jìn)程、命令工具等多個組成。

其中控制進(jìn)程slurmctld,負(fù)責(zé)資源分配、作業(yè)調(diào)度、作業(yè)管理控制等核心任務(wù)。

結(jié)點(diǎn)監(jiān)控進(jìn)程slurmd運(yùn)行在每個計算結(jié)點(diǎn)上,負(fù)責(zé)收集結(jié)點(diǎn)的資源狀態(tài)并向控制進(jìn)程報告。

同時slurmd接收來自控制進(jìn)程與用戶命令的請求,加載任務(wù)步或取消作業(yè)等。

作業(yè)管理進(jìn)程slurmstepd由slurmd在加載作業(yè)步任務(wù)或批處理作業(yè)時派生,該進(jìn)程管理結(jié)點(diǎn)上一個作業(yè)步的所有任務(wù),負(fù)責(zé)進(jìn)行任務(wù)的啟動、I/O轉(zhuǎn)發(fā)、信號傳遞、記賬信息收集等功能。

Slurm的sacct命令可以查看系統(tǒng)記賬日志或記賬數(shù)據(jù)庫中的作業(yè)與作業(yè)步的記賬數(shù)據(jù),以進(jìn)行分析。

超級計算機(jī)資源調(diào)度和優(yōu)化技術(shù)

通常資源管理系統(tǒng)負(fù)責(zé)超級計算機(jī)資源的調(diào)度和分配工作,資源管理系統(tǒng)基于選定的調(diào)度策略來調(diào)度和分配資源,典型調(diào)度策略包括FCFS,F(xiàn)irstFit,Backfilling等。

其中FCFS調(diào)度策略選擇作業(yè)隊列中的第一個作業(yè)進(jìn)行調(diào)度,從作業(yè)提交的順序角度來看,該方法比較公平,但是這樣的調(diào)度通常會表現(xiàn)出較低的資源利用率。

為了解決這個問題,學(xué)者們提出了多種基于回填機(jī)制的調(diào)度方法,包括保守的回填策略(ConservativeBackfilling)和簡單回填策略(EASYBackfilling)。

保守回填策略,通常選擇作業(yè)隊列中不會延遲它前面所有作業(yè)執(zhí)行的作業(yè)進(jìn)行資源分配,而簡單回填策略,則選擇作業(yè)隊列中不會延遲第一個作業(yè)執(zhí)行的作業(yè)進(jìn)行資源分配。

還有其他研究尋找更多的回填策略來優(yōu)化調(diào)度,包括松弛回填(SlackBackfilling)算法,該算法給每個作業(yè)設(shè)置一個允許延遲的閾值,針對緊急、重要的任務(wù)設(shè)置較短的閾值,在調(diào)度中只要作業(yè)被延遲調(diào)度的時間不超過該閾值即可。

選擇性回填算法(SelectiveBackfilling)是針對等待時間足夠長的作業(yè)設(shè)定一個資源預(yù)約來提升調(diào)度效率。

為了能夠進(jìn)行回填調(diào)度,用戶需要提前給出作業(yè)運(yùn)行時間的評估值,該值在資源調(diào)度中和實(shí)際作業(yè)運(yùn)行時間的準(zhǔn)確性非常關(guān)鍵。

如果低于作業(yè)的運(yùn)行時間,系統(tǒng)會將該作業(yè)在正常結(jié)束前提前中斷,因此用戶習(xí)慣于給出較高的作業(yè)運(yùn)行評估時間,而這又反過來影響了系統(tǒng)的實(shí)際的調(diào)度策略。

公平性也是在高性能計算和網(wǎng)格環(huán)境中的研究熱點(diǎn),但公平性的概念可以從不同的角度來理解。

當(dāng)前關(guān)于公平性的研究主要分為兩個維度:公平性調(diào)度(Fair-shedule)和公平性分配(Fair-share)。

公平性調(diào)度主要關(guān)注作業(yè)調(diào)度順序的公平性,晚提交的作業(yè)不能比早提交的作業(yè)先開始運(yùn)行。

一個作業(yè)j的公平開始時間,通過去除作業(yè)j后面的所有作業(yè),也就是把作業(yè)j作為隊列中的最后一個作業(yè)來進(jìn)行模擬調(diào)度,此時作業(yè)j的開始時間就是它的公平開始時間。

Ngubiri等人對比了不同的公平性度量,包括分布,開始時間,排隊時間等,考慮了多個工作流的共性調(diào)度,給出了工作流的減速比的定義,表示一個工作流在與其他工作流一起調(diào)度時從提交到完成所需的時間。

與僅有它一個工作流從提交到完成所需的時間的比值,通過該值來評估調(diào)度策略的公平性。

還有一些其他研究關(guān)注資源分配排隊的公平性,重點(diǎn)考慮作業(yè)的運(yùn)行、排隊等整體服務(wù)時間。

減速比排隊公平性基于用戶作業(yè)的等待時間要和它的服務(wù)時間成一定比例的要求,如果比例過高說明該作業(yè)的調(diào)度不夠公平。

實(shí)際上,在配額約束超級計算機(jī)上,由于用戶能夠清晰的知道他們的資源配額,并且知道他們超過配額的作業(yè)需要等待。

因此他們并不十分關(guān)心單個作業(yè)的等待時間,而是關(guān)心自己作業(yè)的等待時間和其他用戶作業(yè)的等待時間的不同,關(guān)注自己的作業(yè)是否被區(qū)別對待。

通過不同用戶的平均作業(yè)等待時間的均方差來表征這個方面的公平性,這里提出了基于保守回填方法的擴(kuò)展版本,來提升性能和公平性。

公平性分配主要關(guān)注資源分配的公平性,用戶需要公平的共享系統(tǒng)資源。

最基本的公平性為,在一個有N個用戶的系統(tǒng)中,每個用戶占用1/N的資源。

如果用戶的權(quán)重不同,資源會按照權(quán)重進(jìn)行分配,每個用戶獲得對應(yīng)權(quán)重比例的資源,最大最小值公平,是一個在系統(tǒng)中廣泛應(yīng)用的分配策略。

該方法的主要思想為,將資源按照每個用戶想要的可以滿足的最小需求進(jìn)行公平分配,然后將剩余的空閑資源均勻的分配給需要大資源的用戶。

它按照資源需求遞增的順序進(jìn)行分配,所有用戶得到的資源均不超過自己的需求,同時未得到滿足的用戶等價的分享資源。

例如在一個有4個用戶的集群中,每個用戶的資源需求(按照從大到小排列)分別為2,2.5,4,5,而系統(tǒng)的總資源為10。

則最大最小值公平分配的第一輪將資源分成4個2.5的份數(shù),因?yàn)?.5大于2,則第一個用戶分配得2,剩下的8個資源分成三等份2.66。

由于2.66大于2.5,則第二個用戶分配得2.5,剩下的5.5分成2份2.75,均小于用戶3和4的需求,則用戶3和4分別獲得2.75的資源。

當(dāng)用戶具有不同的權(quán)重比值的時候,資源分配按照權(quán)重的比例進(jìn)行。

由于最大最小值公平分配策略只能分配一種資源,而在系統(tǒng)中通常包含多種資源需求,比如CPU、內(nèi)存、I/O帶寬等。

然后通過將任務(wù)的多種資源需求中主要需求為分配關(guān)鍵點(diǎn),擴(kuò)展了最大最小值公平策略,并成為了眾多研究的熱點(diǎn)。

之后,有大量的研究基于DRF開展,衍生出了多種DRF的擴(kuò)展或普適化版本。

學(xué)者Wang等人]提出了一種任務(wù)共享公平策略來解決任務(wù)有特定分配要求的情況下的資源分配問題。

比如某些任務(wù)只能分配給大內(nèi)存的結(jié)點(diǎn),就可以增加了一個調(diào)節(jié)參數(shù)(knob),允許用戶通過它調(diào)節(jié)來尋求公平性和性能的平衡,同時提出了彈性多資源公平性分配方法來權(quán)衡CPU-GPU融合的架構(gòu)中的公平性和效率。

但這些研究都把資源看作和時間無關(guān)的參數(shù),實(shí)際上這在超級計算機(jī)上的資源調(diào)度中是不切實(shí)際的。

兩個用戶同樣占用100個計算結(jié)點(diǎn),一個用戶的作業(yè)運(yùn)行時間1小時,另外一個10小時,二者的資源消耗明顯不同,在按需付費(fèi)的超級計算機(jī)上,更是如此。

用戶根據(jù)資源消耗來付費(fèi),資源消耗指的是作業(yè)運(yùn)行時間和占用的結(jié)點(diǎn)數(shù)的乘積,這是和時間緊密相關(guān)的。

以上就是關(guān)于超級pos機(jī)平臺,超級計算機(jī)計算資源調(diào)度優(yōu)化關(guān)鍵技術(shù)研究的知識,后面我們會繼續(xù)為大家整理關(guān)于超級pos機(jī)平臺的知識,希望能夠幫助到大家!

轉(zhuǎn)發(fā)請帶上網(wǎng)址:http://www.shbwcl.net/newsone/93889.html

你可能會喜歡:

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 babsan@163.com 舉報,一經(jīng)查實(shí),本站將立刻刪除。