最近在給xgboost添加一些接口解总,便于從稀疏向量數(shù)組增量構(gòu)造DMatrix(在實(shí)際業(yè)務(wù)場(chǎng)景中可以避免數(shù)組拼接)春寿。DMatrix源碼中有一個(gè)構(gòu)造函數(shù)是這樣的:
DMatrix* DMatrix::Create(std::unique_ptr<DataSource>&& source,
const std::string& cache_prefix) {
if (cache_prefix.length() == 0) {
return new data::SimpleDMatrix(std::move(source));
} else {
#if DMLC_ENABLE_STD_THREAD
return new data::SparsePageDMatrix(std::move(source), cache_prefix);
#else
LOG(FATAL) << "External memory is not enabled in mingw";
return nullptr;
#endif
}
}
調(diào)用者創(chuàng)建一個(gè)DataSource,用unique_ptr包裝袁梗,然后move給Create函數(shù),自此調(diào)用者的source就不再可用(相當(dāng)于Rust中的transfer ownership)。Create拿到rvalue reference后再次move source創(chuàng)建一個(gè)SimpleMatrix铝穷。調(diào)用代碼如下:
std::unique_ptr<data::SimpleCSRSource> source(new data::SimpleCSRSource());
DMatrix::Create(std::move(source))
經(jīng)過(guò)層層move之后,source最終歸宿在SimpleMatrix的私有字段source_
// source data pointer.
std::unique_ptr<DataSource> source_;
創(chuàng)建過(guò)程實(shí)際上就是兩次transfer ownership佳魔,而且是向下傳遞曙聂,每次傳遞,調(diào)用者的指針就失效了鞠鲜。
在學(xué)習(xí)智能指針的過(guò)程中看到了《Smart Pointer Parameters》宁脊,其中精準(zhǔn)描述了這種場(chǎng)景,不過(guò)傳參方式有點(diǎn)不一樣:
// Passing unique_ptr by value means “sink.”
void f( unique_ptr<widget> ); (c)
這種pass by value強(qiáng)制調(diào)用者使用move語(yǔ)義贤姆,生動(dòng)展示了什么叫“最小且完整的接口”榆苞,把錯(cuò)誤的使用方式扼殺在搖籃里(編譯期)。
unique_ptr<widget> pw = ... ;
good_sink( pw ); // error: good!
good_sink( move(pw) ); // compiles: crystal clear what's going on
作者甚至為這種行為取了個(gè)很形象的名字sink/下沉庐氮,ownership由調(diào)用者下沉到被調(diào)用者的scope里语稠。
文章中也分析了pass by reference:
//Passing unique_ptr by reference is for in/out unique_ptr parameters.
void f( unique_ptr<widget>& );
文章說(shuō)這種方式最好用于修改unique_ptr,不要用于修改里面的object弄砍。對(duì)于參數(shù)是智能指針的函數(shù)仙畦,操作最好只限于指針(lifetime 管理),而不去觸碰里面的object音婶。如果要觸碰最好直接傳指針或reference:
//Prefer passing parameters by * or &.
void f( widget* );
void f( widget& );
但是這里有個(gè)問(wèn)題是慨畸,如果在被調(diào)用函數(shù)在執(zhí)行過(guò)程中對(duì)象被改變了怎么辦(多線程環(huán)境)?文章說(shuō)不用擔(dān)心
Thanks to structured lifetimes, by default arguments passed to f in the caller outlive f‘s function call lifetime, which is extremely useful (not to mention efficient) and makes non-owning * and & appropriate for parameters.
這里的意思是調(diào)用者會(huì)保證對(duì)象在調(diào)用過(guò)程中的有效性衣式。
回到xgboost寸士,由于不太了解rvalue reference是否會(huì)有前面提到的問(wèn)題,不太好評(píng)價(jià)碴卧,但是就直觀性來(lái)說(shuō)弱卡,Create函數(shù)聲明采用call by value更合適。另外還有一點(diǎn)住册,既然soure一旦move進(jìn)SimpleMatrix就獨(dú)占不再暴露給外界婶博,那么是否可以去掉unique_ptr這層封裝呢?這樣語(yǔ)義更準(zhǔn)確荧飞。
文章的開(kāi)頭還探討了傳share_ptr value對(duì)性能的影響:
void f( shared_ptr<widget> );
通篇讀下來(lái)各種醍醐灌頂凡人,sink語(yǔ)義這個(gè)提法感觸最深名党。編程就是精準(zhǔn)表達(dá)(最小且完整)語(yǔ)義,學(xué)習(xí)過(guò)程中多積累這種best practices挠轴,遇到合適的場(chǎng)景就知道該用什么(pattern match)传睹。
雖然這些知識(shí)點(diǎn)很有趣,但是在開(kāi)發(fā)過(guò)程中時(shí)常需要考慮這么多東西岸晦,就有點(diǎn)傷神了欧啤。C++還是適合邏輯已經(jīng)分析很透徹的情況下使用,如果要敏捷開(kāi)發(fā)快速迭代還是太累人了委煤。
這里就要提到Java了堂油,GC說(shuō):“隨便寫(xiě),有我兜底”碧绞;還有Rust,編譯器說(shuō):“隨便寫(xiě)吱窝,編譯過(guò)了讥邻,算我輸”。
思考題:Java能否實(shí)現(xiàn)move語(yǔ)義呢院峡?