f47a802b35d4 - 簡書

發(fā)簡信

f47a802b35d4

13
關注
1
粉絲
0
文章
0

字數(shù)
0

收獲喜歡
1

總資產

IP屬地：北京

f47a802b35d4

【轉】RStudio+Markdown+Pandoc的中文配置
原文地址之前的博客有寫到過Markdown輕量級標記語言又跛，也提到過RStudio巧还，還有神奇的Pandoc。今天就介紹一下用RStudio來搭配Markdown的寫作環(huán)境，并利...

趙禾禾
6929 0 14
f47a802b35d4

零基礎學Python
iLester 編蔽氨，60 篇文章玉雾，10 人關注

f47a802b35d4

iLester
寫了 136398 字，被 188 人關注右钾，獲得了 560 個喜歡

教師蚁吝、撰稿人、培訓師舀射。
f47a802b35d4

Praat 語音標注
Praat 語音學軟件窘茁，原名Praat: doing phonetics by computer，通常簡稱 Praat脆烟，是一款跨平臺的多功能語音學專業(yè)軟件山林，主要用于對數(shù)字化的...

MayJin
17606 4 8
f47a802b35d4

Python大數(shù)據(jù)：jieba分詞，詞頻統(tǒng)計
實驗目的學習如何讀取一個文件學習如何使用DataFrame 學習jieba中文分詞組件及停用詞處理原理了解Jupyter Notebook 概念中文分詞在自然語言處...

_黑冰_
67518 18 66 2
f47a802b35d4

python 詞云模塊：wordcloud
參考：生成詞云之python中WordCloud包的用法https://amueller.github.io/word_cloud/https://github.com/am...

領悟悟悟
9764 0 7
f47a802b35d4

中文分詞原理及常用Python中文分詞庫介紹
轉自進擊的Coder 公眾號原理中文分詞浩淘，即 Chinese Word Segmentation捌朴，即將一個漢字序列進行切分，得到一個個單獨的詞张抄。表面上看砂蔽，分詞其實就是那...

Epiphron
11565 2 56

f47a802b35d4

ICTCLAS中文分詞器（現(xiàn)在叫nlpir）
ICTCLAS（現(xiàn)在叫nlpir）是中科院張華平博士開發(fā)中文分詞器。NLPIR分詞系統(tǒng)前身為2000年發(fā)布的ICTCLAS詞法分析系統(tǒng)署惯，從2009年開始左驾，為了和以前工作進行大...

sennchi
6046 0 1
f47a802b35d4

機器學習筆記-文本分類（四）代碼實現(xiàn)
在學習文本分類的時候發(fā)現(xiàn)主要有以下幾個步驟，借助代碼說明（代碼大多參考：機器學習算法原理與編程實戰(zhàn)极谊，不過發(fā)現(xiàn)給的語料有些編碼問題诡右，并且本人用的是Python3.6+windo...

sf705
10862 6 12
f47a802b35d4

機器學習筆記-文本分類（三）TF-IDF
TF-IDF簡介 TF（Term Frequency）是指詞頻，就是一個詞在文本中出現(xiàn)的詞數(shù)轻猖，常用標準化處理 IDF（Inverse Document Frequency）是...

sf705
5211 2 4
f47a802b35d4

機器學習筆記-文本分類（一）概述
最近在看機器學習的書籍和視頻帆吻，主要有：統(tǒng)計學習方法李航西瓜書周志華python機器學習實戰(zhàn)機器學習算法原理與編程實戰(zhàn) 鄭捷（本文主要參看這本書，有代碼咙边，不過做本文做了稍...

sf705
3058 2 6
f47a802b35d4

python中使用OCR 技術進行《文字識別》
安裝tesseract-ocr-setup-3.02.02 并配置環(huán)境變量鏈接：https://pan.baidu.com/s/1c3vIslq 密碼：px5g 打開CMD...

OldKe
1785 0 1

f47a802b35d4

Python+Tesseract實現(xiàn)圖片文字識別
導語圖片文字識別也是有點意思哈猜煮，苦于現(xiàn)在用Python實現(xiàn)圖片中文識別的方法很有限，不知死活的胖子打算記錄一下自己揮淚的實現(xiàn)過程…… 1. 工具準備筆者使用的是Tesse...

一個不知死活的胖子
19649 3 15
f47a802b35d4

使用Tesseract+python進行圖片轉文字記錄
先把Tesseract的基礎部分放上來败许。由于對游戲的文案非常感興趣王带，所以希望可以將游戲中圖片截圖，識別圖片上的文字轉成txt市殷，基于此記錄一下學習過程愕撰，簡單記錄。環(huán)境說明： ...

進擊的程序茗
8620 0 6
f47a802b35d4

Python--文字識別--Tesseract
1.介紹 Tesseract 是一個 OCR 庫,目前由 Google 贊助(Google 也是一家以 OCR 和機器學習技術聞名于世的公司)。Tesseract 是目前公認...

ztfdeveloper
1500 0 6
f47a802b35d4

python進階：字符串和文本處理
字符串是一種重要的數(shù)據(jù)形式搞挣，有價值的程序都會涉及到對于字符串的處理带迟。幸運的是，強大的python內置了很多函數(shù)囱桨，來幫助我們解析和處理字符串邮旷。本文會涉及到字符串編碼，簡單的字符...

天涯待歸客
4930 0 2
f47a802b35d4

Python文本處理筆記
讀取數(shù)據(jù) 過濾非ASC字符過濾數(shù)字去停用詞從HTML中提取純文本

CrossCode
351 0 1

f47a802b35d4

Python教程0-3:第三方編輯器推薦
聊聊優(yōu)秀編輯器的特點 Python官方安裝包提供的兩種代碼編輯工具對于調試與運行Python程序雖然已經夠用蝇摸，但為了提升代碼編寫的效率以及體驗，我還是強烈建議大家使用一些第三...

iLester
1025 0 7
f47a802b35d4

數(shù)據(jù)清洗經驗
平時習慣了在某些特定的數(shù)據(jù)集合上做實驗办陷，簡單的tokenization貌夕、預處理等步驟就足夠了。但是在數(shù)據(jù)越來越大的年代民镜，數(shù)據(jù)清洗越來越重要啡专，也越來越復雜≈迫Γ看到Philip J...

三萬_chenbing
1062 1 4