ML 簡介 在ML問題中串塑,當給定一批數(shù)據(jù)集黔寇,我們所要做的就是找到一個函數(shù)(或者一個分布),使得當給定一個新的輸入X時签孔,可以得出一個準確輸出Y照激。在機器學習中趋箩,有三要素分別是:模...
ML 簡介 在ML問題中串塑,當給定一批數(shù)據(jù)集黔寇,我們所要做的就是找到一個函數(shù)(或者一個分布),使得當給定一個新的輸入X時签孔,可以得出一個準確輸出Y照激。在機器學習中趋箩,有三要素分別是:模...
今天主要想寫一下DeepLearning 中BatchNorm着绊,文章主要主要的大綱為: BN 什么 為什么提出BN BN 的具體細節(jié)是什么 BN 的改進 BN數(shù)學表達式 BN...
對于做NLP的新人來說第一個接觸到的模型大概就是RNN,RNN 應該算是NLP任務中Hello World了又沾。對于業(yè)界一般說使用RNN指的的LSTM弊仪,而并非是RNN熙卡,因為LS...
在制作Docker 鏡像時,很有可能會遇到下載速度慢励饵,超時等情況驳癌,這種情況其實和Anaconda 超時的原因一樣,都是由于需要從國外網(wǎng)站下載執(zhí)行鏡像役听。類似Anaconda加速...
Anaconda 對于做數(shù)據(jù)挖掘的同學說是一個非常重要的工具包颓鲜,其中包括了很多數(shù)據(jù)挖掘工具,但是Anaconda默認下載是從國外下載典予,一般情況是非常慢的這讓很對同學很是痛苦啊...
隨著數(shù)據(jù)挖掘和人工智能的興起甜滨,Python語言逐漸火爆起來,鑒于現(xiàn)在大量流式數(shù)據(jù)瘤袖,Python作為一門熱門語言自然要對接Kafka衣摩。 依賴包安裝 Python如果要接入kaf...
Transformer 模型是谷歌大腦在2017年發(fā)表論文 《Attention is all you need 》中所提出的 Seq2Seq 模型。 為什么要使用Trans...
Transformer-XL是為了解決Transformer 對于Long-term 依賴問題而提出來了捂敌,那么Transformer對于Long-term dependenc...
wordvector NLP 任務中最基本的運算單元應該是詞了艾扮,處理的所有詞組成在一起就行成了詞庫,但是詞庫是稀疏的占婉,所以我們需要將詞轉(zhuǎn)換成計算所熟知的實數(shù)栏渺,這種表示方式就是...
很多時候數(shù)據(jù)量大了声搁,特別是有幾億條數(shù)據(jù)的時候,可能你會懵逼的發(fā)現(xiàn)捕发,跑個搜索怎么一下 5~10s疏旨,坑爹了。 第一次搜索的時候爬骤,是 5~10s充石,后面反而就快了,可能就幾百毫秒。 ...
ES如何處理并發(fā)問題 其實這個問題問的是悲觀鎖和樂觀鎖骤铃,以及在ES中的應用 悲觀鎖 悲觀鎖就是只要操作就加鎖(不太嚴謹)拉岁,比如線程A讀取數(shù)據(jù),則線程A此時就對A進行加鎖惰爬,知道...
如何理解ES是分布式喊暖、可伸縮、高可用 ES 是基于Lucene實現(xiàn)的分布式搜索引擎撕瞧,其目的是擴展單機性能問題 ES 可以橫向或者縱向擴展陵叽,一般都選擇橫向擴展,這樣性價比更好丛版,...
特征分解 概念 特征分解是矩陣的分解的一種巩掺,目的是將一個矩陣拆分成幾個矩陣乘積的形式,就好像是我們對標量(scalar)做因式分解一樣页畦。 目的 之所以要做特征分解胖替,一方面是要...
多線程的目的 提到多線程就只有一個目錄,更好的利用CPU資源豫缨,我們讓CPU同時處理多個任務独令,縮短計算和處理時間。 在實現(xiàn)多線程之前好芭,首先了解一個下多線程的一些概念: 多線程:...