NoSQL概念
?隨著web2.0的快速發(fā)展贿条,非關(guān)系型雹仿、分布式數(shù)據(jù)存儲得到了快速的發(fā)展,它們不保證關(guān)系數(shù)據(jù)的ACID特性整以。NoSQL概念在2009年被提了出來胧辽。NoSQL最常見的解釋是“non-relational”,“Not Only SQL”也被很多人接受悄蕾。(“NoSQL”一詞最早于1998年被用于一個輕量級的關(guān)系數(shù)據(jù)庫的名字票顾。)
NoSQL被我們用得最多的當數(shù)key-value存儲,當然還有其他的文檔型的帆调、列存儲奠骄、圖型數(shù)據(jù)庫、xml數(shù)據(jù)庫等番刊。在NoSQL概念提出之前含鳞,這些數(shù)據(jù)庫就被用于各種系統(tǒng)當中,但是卻很少用于web互聯(lián)網(wǎng)應(yīng)用芹务。比如cdb蝉绷、qdbm、bdb數(shù)據(jù)庫枣抱。
傳統(tǒng)關(guān)系數(shù)據(jù)庫的瓶頸
?傳統(tǒng)的關(guān)系數(shù)據(jù)庫具有不錯的性能熔吗,高穩(wěn)定型,久經(jīng)歷史考驗佳晶,而且使用簡單桅狠,功能強大,同時也積累了大量的成功案例轿秧。在互聯(lián)網(wǎng)領(lǐng)域中跌,MySQL成為了絕對靠前的王者,毫不夸張的說菇篡,MySQL為互聯(lián)網(wǎng)的發(fā)展做出了卓越的貢獻漩符。
?在90年代,一個網(wǎng)站的訪問量一般都不大驱还,用單個數(shù)據(jù)庫完全可以輕松應(yīng)付嗜暴。在那個時候,更多的都是靜態(tài)網(wǎng)頁议蟆,動態(tài)交互類型的網(wǎng)站不多闷沥。
?到了最近10年,網(wǎng)站開始快速發(fā)展咪鲜。火爆的論壇撞鹉、博客疟丙、sns颖侄、微博逐漸引領(lǐng)web領(lǐng)域的潮流。在初期享郊,論壇的流量其實也不大览祖,如果你接觸網(wǎng)絡(luò)比較早,你可能還記得那個時候還有文本型存儲的論壇程序炊琉,可以想象一般的論壇的流量有多大展蒂。
Memcached+MySQL
?后來,隨著訪問量的上升苔咪,幾乎大部分使用MySQL架構(gòu)的網(wǎng)站在數(shù)據(jù)庫上都開始出現(xiàn)了性能問題锰悼,web程序不再僅僅專注在功能上,同時也在追求性能团赏。程序員們開始大量的使用緩存技術(shù)來緩解數(shù)據(jù)庫的壓力箕般,優(yōu)化數(shù)據(jù)庫的結(jié)構(gòu)和索引。開始比較流行的是通過文件緩存來緩解數(shù)據(jù)庫壓力舔清,但是當訪問量繼續(xù)增大的時候丝里,多臺web機器通過文件緩存不能共享,大量的小文件緩存也帶了了比較高的IO壓力体谒。在這個時候杯聚,Memcached就自然的成為一個非常時尚的技術(shù)產(chǎn)品。
?Memcached作為一個獨立的分布式的緩存服務(wù)器抒痒,為多個web服務(wù)器提供了一個共享的高性能緩存服務(wù)幌绍,在Memcached服務(wù)器上,又發(fā)展了根據(jù)hash算法來進行多臺Memcached緩存服務(wù)的擴展评汰,然后又出現(xiàn)了一致性hash來解決增加或減少緩存服務(wù)器導(dǎo)致重新hash帶來的大量緩存失效的弊端纷捞。當時,如果你去面試被去,你說你有Memcached經(jīng)驗主儡,肯定會加分的。
Mysql主從讀寫分離
?由于數(shù)據(jù)庫的寫入壓力增加惨缆,Memcached只能緩解數(shù)據(jù)庫的讀取壓力糜值。讀寫集中在一個數(shù)據(jù)庫上讓數(shù)據(jù)庫不堪重負,大部分網(wǎng)站開始使用主從復(fù)制技術(shù)來達到讀寫分離坯墨,以提高讀寫性能和讀庫的可擴展性寂汇。Mysql的master-slave模式成為這個時候的網(wǎng)站標配了。
分表分庫
?隨著web2.0的繼續(xù)高速發(fā)展捣染,在Memcached的高速緩存骄瓣,MySQL的主從復(fù)制,讀寫分離的基礎(chǔ)之上耍攘,這時MySQL主庫的寫壓力開始出現(xiàn)瓶頸榕栏,而數(shù)據(jù)量的持續(xù)猛增畔勤,由于MyISAM使用表鎖,在高并發(fā)下會出現(xiàn)嚴重的鎖問題扒磁,大量的高并發(fā)MySQL應(yīng)用開始使用InnoDB引擎代替MyISAM庆揪。同時,開始流行使用分表分庫來緩解寫壓力和數(shù)據(jù)增長的擴展問題妨托。這個時候缸榛,分表分庫成了一個熱門技術(shù),是面試的熱門問題也是業(yè)界討論的熱門技術(shù)問題兰伤。也就在這個時候内颗,MySQL推出了還不太穩(wěn)定的表分區(qū),這也給技術(shù)實力一般的公司帶來了希望医清。雖然MySQL推出了MySQL Cluster集群起暮,但是由于在互聯(lián)網(wǎng)幾乎沒有成功案例,性能也不能滿足互聯(lián)網(wǎng)的要求会烙,只是在高可靠性上提供了非常大的保證负懦。
MySQL的擴展性瓶頸
?在互聯(lián)網(wǎng),大部分的MySQL都應(yīng)該是IO密集型的柏腻,事實上纸厉,如果你的MySQL是個CPU密集型的話,那么很可能你的MySQL設(shè)計得有性能問題五嫂,需要優(yōu)化了颗品。大數(shù)據(jù)量高并發(fā)環(huán)境下的MySQL應(yīng)用開發(fā)越來越復(fù)雜,也越來越具有技術(shù)挑戰(zhàn)性沃缘。分表分庫的規(guī)則把握都是需要經(jīng)驗的躯枢。雖然有像淘寶這樣技術(shù)實力強大的公司開發(fā)了透明的中間件層來屏蔽開發(fā)者的復(fù)雜性,但是避免不了整個架構(gòu)的復(fù)雜性槐臀。分庫分表的子庫到一定階段又面臨擴展問題锄蹂。還有就是需求的變更,可能又需要一種新的分庫方式水慨。
?MySQL數(shù)據(jù)庫也經(jīng)常存儲一些大文本字段得糜,導(dǎo)致數(shù)據(jù)庫表非常的大,在做數(shù)據(jù)庫恢復(fù)的時候就導(dǎo)致非常的慢晰洒,不容易快速恢復(fù)數(shù)據(jù)庫朝抖。比如1000萬4KB大小的文本就接近40GB的大小,如果能把這些數(shù)據(jù)從MySQL省去谍珊,MySQL將變得非常的小治宣。
?關(guān)系數(shù)據(jù)庫很強大,但是它并不能很好的應(yīng)付所有的應(yīng)用場景。MySQL的擴展性差(需要復(fù)雜的技術(shù)來實現(xiàn))侮邀,大數(shù)據(jù)下IO壓力大缆巧,表結(jié)構(gòu)更改困難,正是當前使用MySQL的開發(fā)人員面臨的問題豌拙。
NOSQL的優(yōu)勢
- 易擴展
?NoSQL數(shù)據(jù)庫種類繁多,但是一個共同的特點都是去掉關(guān)系數(shù)據(jù)庫的關(guān)系型特性题暖。數(shù)據(jù)之間無關(guān)系按傅,這樣就非常容易擴展。也無形之間胧卤,在架構(gòu)的層面上帶來了可擴展的能力唯绍。 - 大數(shù)據(jù)量,高性能
?NoSQL數(shù)據(jù)庫都具有非常高的讀寫性能枝誊,尤其在大數(shù)據(jù)量下况芒,同樣表現(xiàn)優(yōu)秀。這得益于它的無關(guān)系性叶撒,數(shù)據(jù)庫的結(jié)構(gòu)簡單绝骚。一般MySQL使用Query Cache,每次表的更新Cache就失效祠够,是一種大粒度的Cache压汪,在針對web2.0的交互頻繁的應(yīng)用,Cache性能不高古瓤。而NoSQL的Cache是記錄級的止剖,是一種細粒度的Cache,所以NoSQL在這個層面上來說就要性能高很多了落君。 - 靈活的數(shù)據(jù)模型
?NoSQL無需事先為要存儲的數(shù)據(jù)建立字段穿香,隨時可以存儲自定義的數(shù)據(jù)格式。而在關(guān)系數(shù)據(jù)庫里绎速,增刪字段是一件非常麻煩的事情皮获。如果是非常大數(shù)據(jù)量的表,增加字段簡直就是一個噩夢朝氓。這點在大數(shù)據(jù)量的web2.0時代尤其明顯魔市。 - 高可用
?NoSQL在不太影響性能的情況,就可以方便的實現(xiàn)高可用的架構(gòu)赵哲。比如Cassandra待德,HBase模型,通過復(fù)制模型也能實現(xiàn)高可用枫夺。