MongoDB技術(shù)分享

MongoDB技術(shù)分享

  1. MongoDB簡介

1.1 基本介紹
MongoDB是一個基于分布式文件存儲的數(shù)據(jù)庫。由C++語言編寫虱咧。旨在為WEB應(yīng)用提供可擴展的高性能數(shù)據(jù)存儲解決方案贡未。MongoDB是一個介于關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫(nosql)之間的產(chǎn)品种樱,是非關(guān)系數(shù)據(jù)庫當(dāng)中功能最豐富,最像關(guān)系數(shù)據(jù)庫的俊卤。

https://db-engines.com/en/ranking

1.2 MongoDB與MySQL術(shù)語對比

MongoDB MySQL
database database
collection table
column field

1.3 MongoDB數(shù)據(jù)類型


MongoDB數(shù)據(jù)類型

1.4 適用場景

應(yīng)用特征 Yes / No
應(yīng)用不需要事務(wù)及復(fù)雜 join 支持 必須 Yes
新應(yīng)用嫩挤,需求會變,數(shù)據(jù)模型無法確定消恍,想快速迭代開發(fā) 岂昭?
應(yīng)用需要2000-3000以上的讀寫QPS(更高也可以)
應(yīng)用需要TB甚至 PB 級別數(shù)據(jù)存儲 ?
應(yīng)用發(fā)展迅速狠怨,需要能快速水平擴展 ?
應(yīng)用要求存儲的數(shù)據(jù)不丟失 ?
應(yīng)用需要99.999%高可用 ?
應(yīng)用需要大量的地理位置查詢约啊、文本查詢 邑遏?

如果上述有1個 Yes,可以考慮 MongoDB恰矩,2個及以上的 Yes记盒,選擇MongoDB絕不會后悔。

1.5 mongodb數(shù)據(jù)demo

MongoDB的每一條數(shù)據(jù)類似于JSON的BSON格式

{
    "_id" : ObjectId("59e3f69aec98545db2fbc3b7"),
    "broker_name" : "張盼盼",
    "volume_30days" : "30天成交1套",
    "property_fee" : "0.73至2.16元/平米/月",
    "house_count" : "1176戶",
    "community_type" : "塔樓",
    "price" : "64495",
    "community_id" : "1111027375451",
    "image_urls" : [ 
        "https://image1.ljcdn.com/hdic-resblock/ad796c0a-07b6-4c2f-90ec-0f9dc507386a.jpg.710x400.jpg", 
        "https://image1.ljcdn.com/hdic-resblock/0b993852-1794-46dc-a39b-67662f0e0e08.jpg.710x400.jpg", 
        "https://image1.ljcdn.com/hdic-resblock/8d2ac32c-9a06-4da8-aa1c-d5a9f519abb8.jpg.710x400.jpg", 
        "https://image1.ljcdn.com/hdic-resblock/230be09f-f12a-4930-aa5e-eaf4890d6709.jpg.710x400.jpg", 
        "https://image1.ljcdn.com/hdic-resblock/4fd63cc5-46da-4c40-b5a3-d212aec2e2b8.jpg.710x400.jpg", 
        "https://image1.ljcdn.com/hdic-resblock/ebc9a3cf-bd3b-40ee-ac69-b38d4b505fb9.jpg.710x400.jpg", 
        "https://image1.ljcdn.com/hdic-resblock/99b19300-07a9-49de-8379-0c6e8ea6b8a1.jpg.710x400.jpg", 
        "https://image1.ljcdn.com/hdic-resblock/043132e8-0aa8-4cb3-8739-e0b39a6d70de.jpg.710x400.jpg"
    ],
    "zones" : "太平橋",
    "community_name" : "華源二里",
    "building_count" : "5棟",
    "broker_id" : "1000000020201316",
    "crawl_time" : ISODate("2017-10-16T08:00:26.759Z"),
    "address" : "(豐臺太平橋)華源二里",
    "saling_count" : "4",
    "property_name" : "北京首科萬業(yè)物業(yè)管理有限公司",
    "developer" : "北京華世房地產(chǎn)開發(fā)公司",
    "city" : "北京",
    "rent_count" : "0套正在出租",
    "district" : "豐臺",
    "complete_time" : "2002年建成 ",
    "url" : "https://bj.lianjia.com/xiaoqu/1111027375451/",
    "longitude" : "116.32284",
    "latitude" : "39.882471"
}

1.6 談?wù)刴ongodb中的_id

_id 是mongodb自動生成12個字節(jié)24位長度的字符串外傅,類似于MySQL的主鍵概念纪吮,用于唯一標(biāo)識數(shù)據(jù)。

ObjectID.png

舉個栗子

ObjectID('59e3f69aec98545db2fbc3b7')
"crawl_time" : ISODate("2017-10-16T08:00:26.759Z")

59e3f69a 轉(zhuǎn)為10進制時間戳 1508112026 ->北京時間 2017/10/16 8:0:26
ec9854 -> 機器主機名的散列值
5db2 -> 轉(zhuǎn)為10進制的進程號 23986
fbc3b7 -> 自增流水 16499639

如果在1臺機器上同一個進程同1秒同時寫入256^3以內(nèi)的數(shù)據(jù)萎胰,是絕對不會重復(fù)的碾盟!

1.7 事務(wù)
在MongoDB4.0之前是不支持事務(wù)的,MongoDB 4.0 支持副本集多文檔事務(wù)奥洼,并計劃在 4.2 版本支持分片集群事務(wù)功能巷疼。

with client.start_session() as s:
    s.start_transaction()
    collection_one.insert_one(doc_one, session=s)
    collection_two.insert_one(doc_two, session=s)
    s.commit_transaction()
  1. MongoDB常用操作

2.1 數(shù)據(jù)庫操作

# 創(chuàng)建數(shù)據(jù)庫
use test
# 查看已存在的數(shù)據(jù)庫
show dbs
# 刪除數(shù)據(jù)庫(刪完跑路??????)
db.dropDatabase()

2.2 表操作

# 創(chuàng)建表
db.createCollection('test')
# 查看表
show collections / show tables
# 刪除表
db.getCollection('test').drop()

2.3 插入數(shù)據(jù)

# 插入單條數(shù)據(jù)
db.test.insert({
    'name': '張三',
    'age': 18,
    'birthday': new Date('2000-01-01T00:00:00Z'),
    'hobby': ['lol', 'dota'],
    'friends': {
        'boy': ['Tom', 'Harry'],
        'girl': ['tracy']
    }
})

# 插入多條數(shù)據(jù)
db.test.insertMany(
[{
        'name': '趙四',
                'age':10,
        'sex': 'male',
        'hobby': ['王者農(nóng)藥'],
    },
    {
        'name': '喬杉',
        'age': 18,
        'hobby': ['大保健'],
    }
]
)

2.4 刪除數(shù)據(jù)

db.test.remove({'name':'張三'})

2.5 更新數(shù)據(jù)
由于MongoDB是沒有表結(jié)構(gòu)的晚胡,所以更新數(shù)據(jù)和關(guān)系型數(shù)據(jù)庫有一些區(qū)別灵奖。update共有4個參數(shù)

  • 篩選條件
  • 修改后的內(nèi)容
  • 如果不存在update的記錄,是否插入objNew,true為插入估盘,默認(rèn)是false瓷患,不插入。
  • 是否允許更新多條數(shù)據(jù)
# 更新1條數(shù)據(jù),給趙四做個變性手術(shù)
db.test.update({'name':'趙四'},{'$set':{'sex':'famale'}},false,false)
# 更新多條數(shù)據(jù)
db.test.update({'age':18},{'$set':{'age':19}},false,true)
# 添加字段
db.test.update({'age':19},{'$set':{'home':'東北'}},true,true)
# 刪除字段
db.test.update({},{'$unset':{'home':1}},true,true)

# 列表中添加元素
# 去重
db.test.update({},{'$addToSet':{'hobby':'python'}},false,true)
# 不去重
db.test.update({},{'$push':{'hobby':'python'}},false,true)

# 列表中移除元素

# $pop操作符移除數(shù)組中的第一個或者最后一個元素(1為最后一個元素遣妥,-1為第一個元素)
db.test.update({'name':'張三'},{'$pop':{'hobby':1}})

# $pull操作符從現(xiàn)有數(shù)組中移除與指定條件匹配的值或值的所有實例
db.test.update({'name':'張三'},{'$pull':{'hobby':'python'}})

2.6 查詢數(shù)據(jù)

# 普通查詢
db.getCollection('test').find()
# 查詢指定字段
db.getCollection('test').find({},{'name':1,'age':1})
# 查詢數(shù)量
db.getCollection('test').find({'age':19}).count()
# 查詢friends字段為object的數(shù)據(jù)
db.test.find({'friends':{'$type':3}})
# 去重
db.getCollection('test').distinct('name',{'age':19})
# 排序 1升序 -1降序
db.getCollection('test').find({},{'name':1,'age':1}).sort({'age':-1})
# 分頁 注:mongodb數(shù)據(jù)量較大時擅编,skip慎用,效率很差
db.getCollection('test').find({},{'name':1,'age':1}).skip(1).limit(2)
# 條件查詢 $gte>= $lte <=  $gt > $lt <  $exists:字段是否存在
db.getCollection('test').find({'$or':[{'age':{'$gt':19}},{'birthday':{'$exists':1}}]})

2.7 pipeline管道

英文文檔中是aggregation pipeline箫踩,直譯為聚合管道爱态,它可以對數(shù)據(jù)文檔進行變換和組合。聚合管道是基于數(shù)據(jù)流概念境钟,數(shù)據(jù)進入管道經(jīng)過一個或多個stage锦担,每個stage對數(shù)據(jù)進行操作(篩選,投射慨削,分組洞渔,排序,限制或跳過)后輸出最終結(jié)果缚态。

pipeline.png

按城市聚合房源量

db.getCollection('danke_house_2018-09-28').aggregate([
        {
            "$project": {"_id": 0,"city":1,"house_id": 1,"price":1,"district":1}
        },
        {
            "$match":{"city":{"$exists":1},"district":{"$exists":1}}
        },
        {
            "$group": {
                "_id": "$city",
//                 "_id": {city:"$city",district:"$district"},
                "num": {"$sum": 1}
            }
        },
        {
            "$sort": {"num": -1}
        },
        {
            "$limit":5
            }
        ])
/* 1 */
{
    "_id" : "北京",
    "num" : 9533.0
}

/* 2 */
{
    "_id" : "深圳",
    "num" : 4679.0
}

/* 3 */
{
    "_id" : "上海",
    "num" : 3314.0
}

/* 4 */
{
    "_id" : "杭州",
    "num" : 2774.0
}

/* 5 */
{
    "_id" : "武漢",
    "num" : 2195.0
}
  1. MongoDB索引

3.1 創(chuàng)建索引

# 創(chuàng)建索引單字段索引
db.getCollection('danke_house_2018-09-28').ensureIndex({'city':1},{'background':true})

# 創(chuàng)建唯一索引
db.test.ensureIndex({'name':1},{'unique':true})

# 創(chuàng)建復(fù)合索引
db.getCollection('danke_house_2018-09-28').ensureIndex({'city':1,'district':-1})

# 創(chuàng)建地理位置索引
# 經(jīng)緯度字段需要使用[lon,lat] 或者{'lon':lon,'lat':lat}的方式存儲數(shù)據(jù)
db.getCollection('danke_house_2018-09-28').createIndex({'loc':"2d"})

# 查看索引
db.test.getIndexes()

# 查詢距離華控大廈最近的10條房源
db.getCollection('danke_house_2018-09-28').find({'loc':{'$near':[116.307753,40.06118]}}).limit(10)

mongodb空間索引

3.2 索引的原理
創(chuàng)建索引的時候需要指定順序磁椒,1代表升序,-1代表降序玫芦。

對于單索引來說{’a‘:1},那么sort {’a‘:1}或者{'a':-1}都會生效
對于復(fù)合索引來說{'a':1,'b':1},那么sort{'a':1,'b':1}或者{’a‘:-1,'b':-1}都會生效浆熔,但是{'a':1,'b':-1} 和{'a':-1,'b':1}不會生效

3.3 執(zhí)行計劃
和MySQL類似,通過explain可以查看Mongodb的執(zhí)行計劃

db.getCollection('danke_house_2018-09-28').find({'city':'北京'}).explain()
  1. 程序連接MongoDB
  • python 代碼
# coding=utf-8
import pymongo

# 創(chuàng)建連接
conn = pymongo.MongoClient(host='127.0.0.1', port=27017)
# 選擇庫表
collection = conn['test']['test']
result = list(collection.find())
print result
  1. 數(shù)據(jù)遷移
    5.1 mongoexport
    mongoexport命令可以將mongodb的數(shù)據(jù)導(dǎo)出為JSON或者CSV
# 導(dǎo)出數(shù)據(jù)為CSV
mongoexport --host=127.0.0.1:27017 -d test -c danke_house_2018-09-28 --type=csv -o danke.csv -f city,district,zone
# 導(dǎo)出數(shù)據(jù)為JSON
mongoexport --host=127.0.0.1:27017 -d test -c danke_house_2018-09-28 --type=json -o danke.json -q "{'city':'北京'}"

5.2 mongodump
mongodump命令會將數(shù)據(jù)導(dǎo)出為mongodb的BSON格式桥帆,如果有索引医增,索引文件也會被導(dǎo)出师郑。

# 數(shù)據(jù)備份
mongodump --host=127.0.0.1:27017 -d test -c danke_house_2018-09-28 -o danke

5.3 mongoimport

# 導(dǎo)入CSV
mongoimport --host=127.0.0.1:27017 -d test2 -c danke_csv --type csv --file danke.csv --headerline
# 導(dǎo)入JSON
mongoimport --host=127.0.0.1:27017 -d test2 -c danke_json --type json --file danke.json

5.4 mongorestore

cd danke2;
mongorestore --host=127.0.0.1:27017 -d test2 --dir test
  1. 自己踩的坑
  • 當(dāng)數(shù)據(jù)量較大的時候,讀取數(shù)據(jù)不能一次性都加載到內(nèi)存中调窍,需要分頁讀取宝冕。使用skip和limit進行分頁嗎?too young to simple! 隨著數(shù)據(jù)量增大邓萨,skip的效率會指數(shù)下降地梨,怎么辦?
  • 一個很巧妙的方法缔恳,利用_id的索引進行排序宝剖,雖然mongodb沒有自增ID的概念,但是_id可以充當(dāng)自增ID的功能歉甚。例如遍歷1000萬數(shù)據(jù)万细,每次讀取1萬條數(shù)據(jù),然后我們記錄下1萬條數(shù)據(jù)的最后1條數(shù)據(jù)的_id纸泄,然后取大于該_id的數(shù)據(jù)limit(10000)即可

上代碼

def data_gen(self, page_size=10000):
    '''
    數(shù)據(jù)生成器
    :return:
    '''
    data_count = self.collection.count()
    page_count = int(math.ceil(data_count / float(page_size)))
    last_id = None
    for i in range(page_count):
        if i == 0:
            page_data = list(self.collection.find().sort([('_id', 1)]).limit(page_size))
        else:
            page_data = list(self.collection.find({'_id': {'$gt': last_id}}).sort([
                ('_id', 1)]).limit(page_size))
        if page_data:
            last_id = page_data[-1].get('_id')
        yield page_data
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末赖钞,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子聘裁,更是在濱河造成了極大的恐慌雪营,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,692評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件衡便,死亡現(xiàn)場離奇詭異献起,居然都是意外死亡,警方通過查閱死者的電腦和手機镣陕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評論 3 392
  • 文/潘曉璐 我一進店門谴餐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人呆抑,你說我怎么就攤上這事岂嗓。” “怎么了理肺?”我有些...
    開封第一講書人閱讀 162,995評論 0 353
  • 文/不壞的土叔 我叫張陵摄闸,是天一觀的道長。 經(jīng)常有香客問我妹萨,道長年枕,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,223評論 1 292
  • 正文 為了忘掉前任乎完,我火速辦了婚禮熏兄,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己摩桶,他們只是感情好桥状,可當(dāng)我...
    茶點故事閱讀 67,245評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著硝清,像睡著了一般辅斟。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上芦拿,一...
    開封第一講書人閱讀 51,208評論 1 299
  • 那天士飒,我揣著相機與錄音,去河邊找鬼蔗崎。 笑死酵幕,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的缓苛。 我是一名探鬼主播芳撒,決...
    沈念sama閱讀 40,091評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼未桥!你這毒婦竟也來了笔刹?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,929評論 0 274
  • 序言:老撾萬榮一對情侶失蹤钢属,失蹤者是張志新(化名)和其女友劉穎徘熔,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體淆党,經(jīng)...
    沈念sama閱讀 45,346評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,570評論 2 333
  • 正文 我和宋清朗相戀三年讶凉,在試婚紗的時候發(fā)現(xiàn)自己被綠了染乌。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,739評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡懂讯,死狀恐怖荷憋,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情褐望,我是刑警寧澤勒庄,帶...
    沈念sama閱讀 35,437評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站瘫里,受9級特大地震影響实蔽,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜谨读,卻給世界環(huán)境...
    茶點故事閱讀 41,037評論 3 326
  • 文/蒙蒙 一局装、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦铐尚、人聲如沸拨脉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽玫膀。三九已至,卻和暖如春爹脾,著一層夾襖步出監(jiān)牢的瞬間匆骗,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評論 1 269
  • 我被黑心中介騙來泰國打工誉简, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留碉就,地道東北人。 一個月前我還...
    沈念sama閱讀 47,760評論 2 369
  • 正文 我出身青樓闷串,卻偏偏與公主長得像瓮钥,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子烹吵,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,647評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 關(guān)于Mongodb的全面總結(jié) MongoDB的內(nèi)部構(gòu)造《MongoDB The Definitive Guide》...
    中v中閱讀 31,928評論 2 89
  • 第一章:操作系統(tǒng)引論 計算機系統(tǒng)是由硬件和軟件兩部分組成碉熄。操作系統(tǒng)是配置在計算機硬件上的第一層軟件,是對硬件系統(tǒng)的...
    溪的風(fēng)閱讀 1,233評論 0 0
  • 《Docker環(huán)境下的前后端分離部署與運維》課程腳本 [TOC] 一肋拔、Docker虛擬機常用命令 先更新軟件包yu...
    mingminy閱讀 600評論 0 0
  • 《分權(quán)制衡:銀行貨幣信用體系》優(yōu)秀作業(yè) 問題:任何金融現(xiàn)象锈津、金融市場的背后,都有一個歷史演化的過程凉蜂。思考為什么P2...
    卓越的表現(xiàn)閱讀 375評論 0 0
  • 我要改標(biāo)題我要改標(biāo)題我要改標(biāo)題我要改標(biāo)題我要改標(biāo)題我要改標(biāo)題我要改標(biāo)題eeeeeee44455222 32rff...
    Emily_chen_2閱讀 190評論 0 0