一、工具介紹
pinyin4j 是一個(gè)支持將簡體和繁體中文轉(zhuǎn)換到成拼音的Java開源類庫镰矿;
1. 功能
- 支持同一漢字有多個(gè)發(fā)音
- 還支持拼音的格式化輸出,比如第幾聲之類的脐帝,
- 同時(shí)支持簡體中文誊稚、繁體中文轉(zhuǎn)換為拼音…使用起來也非常簡單刁憋。下面是其官方網(wǎng)址欺抗,其中提供了下載:
- pinyin4j的官方下載地址
2. 目錄結(jié)構(gòu)及說明
- doc : pinyin4j的api文檔
- lib : pinyin4j的jar包
- src: pinyin4j的源代碼
- CHANGELOG.txt : pinyin4j的版本更新日志
- COPYING.txt : LICENSE說明
- README.txt : pinyin4j的概要介紹
3. 原理
pinyin4j使用了一個(gè).txt的文本文件(uicode_to_hanyu_pinyin.txt)用來存儲(chǔ)漢字unicode編碼與拼音的對(duì)應(yīng)關(guān)系审胚,通過讀取該配置文件達(dá)到轉(zhuǎn)換的目的视事。該屬性文件存儲(chǔ)信息的基本格式如下:89E3 (jie3,jie4,xie4) //(對(duì)應(yīng)漢字"解")89E3 是漢字對(duì)應(yīng)的unicode編碼的16進(jìn)制數(shù)胆萧,(jie3,jie4,xie4)是該漢字對(duì)應(yīng)的三種讀音(在漢語里有多音字),說明pinyin4j支持多音字的處理pinyin4j的處理過程是這樣的:根據(jù)String的toCharArray方法得到每個(gè)字符(得到"解"字的unicode編碼俐东,實(shí)際上是35299跌穗,由于java中char和String都是unicode編碼的可以直接轉(zhuǎn)為int型的編碼數(shù)據(jù)35299),然后利用Integer.toHexString(c1).toUpperCase()將其轉(zhuǎn)換成16進(jìn)制數(shù)[也就是89E3]虏辫,通過讀取配置文件得到“解”字的拼音(jie3,jie4,xie4)蚌吸,那么這里有三個(gè)拼音,pinyin4j的默認(rèn)取值為第一個(gè)砌庄,也就是jie3[表示讀jie羹唠,聲調(diào)是三聲]
二、pinyin4J 使用
pinyin4j 提供的工具類為PinyinHelper
,里邊提供了靜態(tài)方法
-
toHanyuPinyinString()
(過時(shí)) toHanyuPinyinStringArray()
pinyin4j 中有四個(gè)輔助類分別是:
- HanyuPinyinCaseType
- HanyuPinyinToneType
- HanyuPinyinVCharType
- HanyuPinyinOutputFormat
具體功能和用法見一下代碼:
HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
// 控制大小寫
// UPPERCASE:大寫 (ZHONG)
// LOWERCASE:小寫 (zhong)
defaultFormat.setCaseType(HanyuPinyinCaseType.UPPERCASE);
// WITHOUT_TONE:無音標(biāo) (zhong)
// WITH_TONE_NUMBER:1-4數(shù)字表示英標(biāo) (zhong4)
// WITH_TONE_MARK:直接用音標(biāo)符(必須WITH_U_UNICODE否則異常) (zhòng)
defaultFormat.setToneType(HanyuPinyinToneType.WITH_TONE_NUMBER);
// WITH_V:用v表示ü (nv)
// WITH_U_AND_COLON:用"u:"表示ü (nu:)
// WITH_U_UNICODE:直接用ü (nü)
defaultFormat.setVCharType(HanyuPinyinVCharType.WITH_U_UNICODE);
// oHanyuPinyinStringArray如果傳入的字符不是漢字不能轉(zhuǎn)換成拼音娄昆,那么會(huì)直接返回null佩微。
String[] pinyin = PinyinHelper.toHanyuPinyinStringArray('重', defaultFormat);
for(String str: pinyin){
System.out.println(str);
}
結(jié)果:
ZHONG4
CHONG2
其他工具類
獲取獲得漢語拼音首字母
將字符串中的中文轉(zhuǎn)化為拼音,英文字符不變
/**
* 獲得漢語拼音首字母
*
* @param chines
* 漢字
* @return
*/
public static String getAlpha(String chines) {
String pinyinName = "";
char[] nameChar = chines.toCharArray();
HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
defaultFormat.setCaseType(HanyuPinyinCaseType.UPPERCASE);
defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
for (int i = 0; i < nameChar.length; i++) {
if (nameChar[i] > 128) {
try {
pinyinName += PinyinHelper.toHanyuPinyinStringArray(
nameChar[i], defaultFormat)[0].charAt(0);
} catch (BadHanyuPinyinOutputFormatCombination e) {
e.printStackTrace();
}
} else {
pinyinName += nameChar[i];
}
}
return pinyinName;
}
/**
* 將字符串中的中文轉(zhuǎn)化為拼音,英文字符不變
*
* @param inputString
* 漢字
* @return
*/
public static String getPingYin(String inputString) {
HanyuPinyinOutputFormat format = new HanyuPinyinOutputFormat();
format.setCaseType(HanyuPinyinCaseType.LOWERCASE);
format.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
format.setVCharType(HanyuPinyinVCharType.WITH_V);
String output = "";
if (inputString != null && inputString.length() > 0
&& !"null".equals(inputString)) {
char[] input = inputString.trim().toCharArray();
try {
for (int i = 0; i < input.length; i++) {
if (java.lang.Character.toString(input[i]).matches(
"[\\u4E00-\\u9FA5]+")) {
String[] temp = PinyinHelper.toHanyuPinyinStringArray(
input[i], format);
output += temp[0];
} else
output += java.lang.Character.toString(input[i]);
}
} catch (BadHanyuPinyinOutputFormatCombination e) {
e.printStackTrace();
}
} else {
return "*";
}
return output;
}
/**
* 漢字轉(zhuǎn)換為漢語拼音首字母,英文字符不變
*
* @param chines
* 漢字
* @return 拼音
*/
public static String converterToFirstSpell(String chines) {
String pinyinName = "";
char[] nameChar = chines.toCharArray();
HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
defaultFormat.setCaseType(HanyuPinyinCaseType.UPPERCASE);
defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
for (int i = 0; i < nameChar.length; i++) {
if (nameChar[i] > 128) {
try {
pinyinName += PinyinHelper.toHanyuPinyinStringArray(
nameChar[i], defaultFormat)[0].charAt(0);
} catch (BadHanyuPinyinOutputFormatCombination e) {
e.printStackTrace();
}
} else {
pinyinName += nameChar[i];
}
}
return pinyinName;
}