(十四)GeoSpark源碼解析(三)

GeoSpark源碼解析(三)

本節(jié)我們在來看一個SpatialRDD的成員indexedRawRDD

public class SpatialRDD<T extends Geometry>
        implements Serializable
{
    /**
     * The raw spatial RDD.
     */
    public JavaRDD<T> rawSpatialRDD;
    /**
     * The spatial partitioned RDD.
     */
    public JavaRDD<T> spatialPartitionedRDD;
    
    ...
 }}

分區(qū)可以說是Spark的一個重要特性怨酝,幸運的是傀缩,GeoSpark自定義了分區(qū)策略,以支持空間對象分區(qū)农猬。rawSpatialRDDspatialPartitionedRDD的區(qū)別就是spatialPartitionedRDD保存的是rawSpatialRDD分區(qū)后的RDD赡艰。我們來看下GeoSpark是如何實現(xiàn)自定義分區(qū)策略的。

我們首先從SpatialRDDspatialPartitioning方法看斤葱,這里首先要傳入一個SpatialPartitioner對象慷垮。

public void spatialPartitioning(SpatialPartitioner partitioner)
{
    this.partitioner = partitioner;
    this.spatialPartitionedRDD = partition(partitioner);
}

SpatialPartitioner是一個抽象類揖闸,繼承了Spark中的Partitioner方法,可以看到料身,若想自定義分區(qū)策略汤纸,那么只需要實現(xiàn)這兩個函數(shù),第一個函數(shù)是告訴Spark要分成多少區(qū)芹血,第二個函數(shù)是將對象與分區(qū)ID對應起來贮泞。

image.png
abstract class Partitioner extends Serializable {
  def numPartitions: Int
  def getPartition(key: Any): Int
}

GeoSpark實現(xiàn)了三種分區(qū)策略,分別是QuadTreePartitioner,KDBTreePartitioner,FlatGridPartitioner幔烛。在選定分區(qū)策略后啃擦,Geospark就開始調(diào)用private JavaRDD<T> partition(final SpatialPartitioner partitioner)方法來進行分區(qū),它是一個私有方法饿悬,我們來看他的實現(xiàn)(這里截取了實現(xiàn)的上半部分)

private JavaRDD<T> partition(final SpatialPartitioner partitioner)
    {
        return this.rawSpatialRDD.flatMapToPair(
                new PairFlatMapFunction<T, Integer, T>()
                {
                    @Override
                    public Iterator<Tuple2<Integer, T>> call(T spatialObject)
                            throws Exception
                    {
                        return partitioner.placeObject(spatialObject);
                    }
                }
        ).partitionBy(partitioner)
        ...
    }

因為Spark的paritionBy需要一個PairRDD(實際上令蛉,Spark的paritionBy函數(shù)也就是將PariRDD的第一個值傳給partitioner獲得一個分區(qū)ID),所以GeoSpark就先將RDD轉(zhuǎn)為PairRDD狡恬,這里注意placeObject這個方法

 @Override
    public <T extends Geometry> Iterator<Tuple2<Integer, T>> placeObject(T spatialObject)
            throws Exception
    {
        Objects.requireNonNull(spatialObject, "spatialObject");
        final int overflowContainerID = grids.size();
        final Envelope envelope = spatialObject.getEnvelopeInternal();
        Set<Tuple2<Integer, T>> result = new HashSet();
        boolean containFlag = false;
        for (int i = 0; i < grids.size(); i++) {
            final Envelope grid = grids.get(i);
            if (grid.covers(envelope)) {
                result.add(new Tuple2(i, spatialObject));
                containFlag = true;
            }
            else if (grid.intersects(envelope) || envelope.covers(grid)) {
                result.add(new Tuple2<>(i, spatialObject));
            }
        }
        if (!containFlag) {
            result.add(new Tuple2<>(overflowContainerID, spatialObject));
        }
        return result.iterator();
    }

以第12行為例珠叔,partitioner會首先建好格網(wǎng),然后對格網(wǎng)進行遍歷弟劲,若這個格網(wǎng)范圍包含或與這個Geometry相交祷安,那就將這格網(wǎng)ID和Geometry構(gòu)造成一個Tuple并返回,這里的格網(wǎng)ID就是分區(qū)ID了函卒。

然后再將PairRDD轉(zhuǎn)為RDD辆憔,就完成了分區(qū)操作撇眯。

那這里有個問題报嵌,就是partitioner中的格網(wǎng)是如何構(gòu)建的?并且我們常常調(diào)用的是public void spatialPartitioning(GridType gridType, int numPartitions)這個方法熊榛,那GeoSpark是如何根據(jù)GridType和numPartitions構(gòu)建格網(wǎng)呢锚国? 我們下節(jié)再來分析。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末玄坦,一起剝皮案震驚了整個濱河市血筑,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌煎楣,老刑警劉巖豺总,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異择懂,居然都是意外死亡喻喳,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進店門困曙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來表伦,“玉大人谦去,你說我怎么就攤上這事”暮撸” “怎么了鳄哭?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長纲熏。 經(jīng)常有香客問我妆丘,道長,這世上最難降的妖魔是什么赤套? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任飘痛,我火速辦了婚禮,結(jié)果婚禮上容握,老公的妹妹穿的比我還像新娘宣脉。我一直安慰自己,他們只是感情好剔氏,可當我...
    茶點故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布塑猖。 她就那樣靜靜地躺著,像睡著了一般谈跛。 火紅的嫁衣襯著肌膚如雪羊苟。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天感憾,我揣著相機與錄音蜡励,去河邊找鬼。 笑死阻桅,一個胖子當著我的面吹牛凉倚,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播嫂沉,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼稽寒,長吁一口氣:“原來是場噩夢啊……” “哼禾锤!你這毒婦竟也來了空镜?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤浆熔,失蹤者是張志新(化名)和其女友劉穎蚓土,沒想到半個月后宏侍,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡蜀漆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年谅河,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡旧蛾,死狀恐怖莽龟,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情锨天,我是刑警寧澤毯盈,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站病袄,受9級特大地震影響搂赋,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜益缠,卻給世界環(huán)境...
    茶點故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一脑奠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧幅慌,春花似錦宋欺、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至骂租,卻和暖如春祷杈,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背渗饮。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工但汞, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人互站。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓私蕾,卻偏偏與公主長得像,于是被迫代替她去往敵國和親云茸。 傳聞我的和親對象是個殘疾皇子是目,可洞房花燭夜當晚...
    茶點故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容