今天給朋友處理數(shù)據(jù)能真,性狀等用漢字赁严。分析時漢字總有各種問題,所以需要轉(zhuǎn)成字母/數(shù)字粉铐。量大時手動轉(zhuǎn)換耗時費力疼约,用程序轉(zhuǎn)換勢在必行。檢索到有
R
包pinyin可供使用蝙泼。列幾條用法程剥。
#調(diào)包
library(tidyverse)
library(pinyin)
# 主函數(shù)是py()
py("漢字")
# 漢字
# "hàn_zì"
默認參數(shù)給的拼音帶聲調(diào)。不需要聲調(diào)呢汤踏?
#調(diào)字典
py("漢字", dic = pydic(dic = c("pinyin2")))
# 漢字
#"han4_zi4"
字間用下橫線連接织鲸,聲調(diào)用數(shù)字表示,跟在每個字的拼音后溪胶。這時想要去掉數(shù)字就簡單了搂擦。
py("漢字", dic = pydic(dic = c("pinyin2"))) %>% str_remove_all("\\d{1,}")
#"han_zi"
輸出的拼音字符也可以只保留首字母。
py("漢字", dic = pydic(only_first_letter =T,dic = c("pinyin2"))) %>% str_remove_all("\\d{1,}")
"h_z"
完