在上一篇中我們介紹了一個非常實用的工具 mpipool班眯,下面我們將簡要地介紹并行分布式線性代數(shù)運算工具 ScaLAPACK希停,然后我們會介紹在 python 中使用 ScaLAPACK 的工具 scalapy。
簡介
ScaLAPACK(Scalable LAPACK 簡稱)是一個并行計算軟件包署隘,適用于分布式存儲的 MIMD (multiple instruction, multiple data)并行計算機(jī)宠能。它是采用消息傳遞機(jī)制實現(xiàn)處理器/進(jìn)程間通信,因此使用起來和編寫傳統(tǒng)的 MPI 程序比較類似磁餐。ScaLAPACK 主要針對密集和帶狀線性代數(shù)系統(tǒng)违崇,提供若干線性代數(shù)求解功能,如各種矩陣運算诊霹,矩陣分解羞延,線性方程組求解,最小二乘問題脾还,本征值問題伴箩,奇異值問題等,具有高效荠呐、可移植赛蔫、可伸縮、高可靠性等優(yōu)點泥张,利用它的求解庫可以開發(fā)出基于線性代數(shù)運算的并行應(yīng)用程序呵恢。
ScaLAPACK 的主要思想是:
- 以一種塊狀循環(huán)分布的方式在各個進(jìn)程之間分布數(shù)據(jù)矩陣;
- 使用塊狀劃分的算法以盡量保證數(shù)據(jù)的重用性媚创;
- 設(shè)計良好的底層模塊使得使用高層模塊編寫的并行編程和普通串行串行基本一致渗钉。
軟件等級
ScaLAPACK 是建立在一系列軟件基礎(chǔ)之上的,其軟件等級如下:
上圖中在水平線以下標(biāo)記為 local 的軟件成分是單處理器/單進(jìn)程調(diào)用的钞钙,數(shù)據(jù)只存儲在單進(jìn)程上鳄橘;在水平線以上標(biāo)記為 global 的軟件成分一般是同步并行調(diào)用的,其數(shù)據(jù)(矩陣或向量)分布在多個處理器/多個進(jìn)程上芒炼。
其中的主要成分為:
- BLAS (Basic Linear Algebra Subprograms)瘫怜,包含很多常用的線性代數(shù)運算子程序,如向量點積本刽,矩陣和向量乘積鲸湃,矩陣和矩陣乘積等;
- LAPACK (Linear Algebra PACKage)子寓,包含一系列的程序暗挑,可以求解如線性方程組,最小二乘問題斜友,本征值問題炸裆,奇異值問題等,通過調(diào)用 BLAS 完成大部分工作以獲得高的運算性能鲜屏;
- BLACS (Basic Linear Algebra Communication Subprograms)烹看,是一個專門為線性代數(shù)運算而設(shè)計的消息傳遞庫国拇;
- PBLAS (Parallel BLAS),為 ScaLAPACK 而設(shè)計的一個分布式內(nèi)存 BLAS 庫听系。
進(jìn)程網(wǎng)格和塊狀循環(huán)分布
進(jìn)程網(wǎng)格類似于我們前面介紹過的虛擬進(jìn)程拓?fù)涞亩S笛卡爾拓?fù)浔雌妫瑢嶋H上是將各個進(jìn)程映射成一個 p × q 的二維數(shù)組(矩陣)虹菲,比如說由 8 個進(jìn)程創(chuàng)建一個 2 × 4 進(jìn)程網(wǎng)格靠胜,其排列如下:
在調(diào)用 ScaLAPACK 的相關(guān)例程進(jìn)行線性代數(shù)運算之前,需要將數(shù)據(jù)(矩陣或者向量)分布到進(jìn)程網(wǎng)格上毕源,數(shù)據(jù)是以一種塊狀循環(huán)的方式進(jìn)行分布的浪漠。下圖展示了將一個 8 × 8 的數(shù)據(jù)矩陣以塊狀循環(huán)方式分布到一個 2 × 3 進(jìn)程網(wǎng)格上的結(jié)果,可見分布后每個進(jìn)程本地的子數(shù)據(jù)矩陣是原整體矩陣的并不連續(xù)的部分霎褐,如進(jìn)程 P02 的本地數(shù)據(jù)是原整體矩陣的 1址愿,3,5冻璃,7 行和 3响谓,6 列。
使用步驟
使用 ScaLAPACK 求解線性代數(shù)問題一般分為以下幾個步驟:
- 初始化進(jìn)程網(wǎng)格省艳;
- 將數(shù)據(jù)(矩陣或向量)按照塊狀循環(huán)方式分布到進(jìn)程網(wǎng)格上娘纷;
- 調(diào)用 ScaLAPACK 求解例程;
- 釋放進(jìn)程網(wǎng)格跋炕。
以上非常簡要地介紹了 ScaLAPACK 軟件赖晶,更多的內(nèi)容可以參考 Netlib 的 ScaLAPACK 或 Intel MKL 的 ScaLAPACK 介紹。雖然 ScaLAPACK 在設(shè)計上作了很多工作使其方法接口與 LAPACK 盡量保持一致辐烂,但是直接使用 Fortran 或 C 語言按照以上步驟使用 ScaLAPACK 仍然是一件比較麻煩和容易出錯的事情遏插,就好比我們使用 numpy.linalg 或 scipy.linalg (在底層調(diào)用 BLAS 和 LAPACK)中的相關(guān)函數(shù)比直接調(diào)用 BLAS 和 LAPACK 中的相關(guān)例程要容易和方便的多,我們也希望使用一個 Python 包裝之后的 ScaLAPACK纠修,在下一篇中我們就將介紹這樣一個工具 scalapy胳嘲。