Python 中文排序

最近項目需要對一些條目進行排序盏浙,這些條目都是漢字詞組眉睹,使用Python傳統(tǒng)的.sort,或sorted都失敗了,原因很簡單废膘,漢字編碼和字母編碼根本就不是一回事竹海,漢字的編碼順序并非按照拼音和筆畫順序大小排序。因此在排序時需要借助拼音編碼對照表筆畫對照表丐黄。

基本原理

假設(shè)輸入為漢字字符串?dāng)?shù)組斋配,還是按照最簡單的排序原理。這里的的大小依據(jù)是就是拼音對照表中的編碼值和筆畫對照表中的編碼值孵稽。先按拼音比較许起,如果拼音編碼值相等,則比較其筆畫編碼菩鲜。對于兩個多漢字單詞的比較园细,先比較首單詞,若相同在比較第二個單詞接校,以此類推猛频。

直接上代碼狮崩,附注釋

# coding: utf-8 

# 建立拼音辭典
dic_py = dict()

with open('./py.txt','r',encoding = 'utf8') as f:
    content_py = f.readlines()

    for i in content_py:
        i = i.strip()
        word_py, mean_py= i.split('\t')
        dic_py[word_py]=mean_py


# 建立筆畫辭典
dic_bh = dict()
with open('./bh.txt','r',encoding = 'utf8') as f:
    content_bh = f.readlines()

    for i in content_bh:
        i = i.strip()
        word_bh, mean_bh = i.split('\t')
        dic_bh[word_bh]=mean_bh

###############################
# 辭典查找函數(shù)
def searchdict(dic,uchar):
    # 一    齚
    if  u'\u4e00' <= uchar <=u'\u9fa5':   
        value=dic.get(uchar)
        if value == None:
            value = '*'
    else:
        value = uchar
    return value
    
#比較單個字符
def comp_char_PY(A,B):
    if A==B:
        return -1
    pyA=searchdict(dic_py,A)
    pyB=searchdict(dic_py,B)

    # 比較拼音
    if pyA > pyB:
        return 1
    elif pyA < pyB:
        return 0

    # 比較筆畫
    else:
        bhA=eval(searchdict(dic_bh,A))
        bhB=eval(searchdict(dic_bh,B))
        if bhA > bhB:
            return 1
        elif bhA < bhB:
            return 0
        else:
            return "拼音相同,筆畫也相同鹿寻?"

#比較字符串
def comp_char(A,B):

    n=min(len(A),len(B))
    i=0
    while i < n:
        dd=comp_char_PY(A[i],B[i])
        # 如果第一個單詞相等睦柴,就繼續(xù)比較下一個單詞
        if dd == -1:
            i=i+1
            # 如果比較到頭了
            if i==n:
                dd=len(A)>len(B)
        else:
            break
    return dd
    
# 排序函數(shù)
def cnsort(nline):
    n = len(nline)
    lines="\n".join(nline)

    for i in range(1, n):  # 插入法
        tmp = nline[i]
        j = i
        while j > 0 and comp_char(nline[j-1],tmp):
            nline[j] = nline[j-1]
            j -= 1
        nline[j] = tmp
    return nline

char=['衣','食','住','行','詩','酒','茶']
char = sorted(char)
print ('輸入:',char)
char=cnsort(char)
print ('輸出:',char)

結(jié)果:

image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市毡熏,隨后出現(xiàn)的幾起案子坦敌,更是在濱河造成了極大的恐慌,老刑警劉巖痢法,帶你破解...
    沈念sama閱讀 218,640評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件狱窘,死亡現(xiàn)場離奇詭異,居然都是意外死亡财搁,警方通過查閱死者的電腦和手機蘸炸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,254評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來尖奔,“玉大人搭儒,你說我怎么就攤上這事√嶙拢” “怎么了淹禾?”我有些...
    開封第一講書人閱讀 165,011評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長茴扁。 經(jīng)常有香客問我稀拐,道長,這世上最難降的妖魔是什么丹弱? 我笑而不...
    開封第一講書人閱讀 58,755評論 1 294
  • 正文 為了忘掉前任德撬,我火速辦了婚禮,結(jié)果婚禮上躲胳,老公的妹妹穿的比我還像新娘蜓洪。我一直安慰自己,他們只是感情好坯苹,可當(dāng)我...
    茶點故事閱讀 67,774評論 6 392
  • 文/花漫 我一把揭開白布隆檀。 她就那樣靜靜地躺著,像睡著了一般粹湃。 火紅的嫁衣襯著肌膚如雪恐仑。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,610評論 1 305
  • 那天为鳄,我揣著相機與錄音裳仆,去河邊找鬼。 笑死孤钦,一個胖子當(dāng)著我的面吹牛歧斟,可吹牛的內(nèi)容都是我干的纯丸。 我是一名探鬼主播,決...
    沈念sama閱讀 40,352評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼静袖,長吁一口氣:“原來是場噩夢啊……” “哼觉鼻!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起队橙,我...
    開封第一講書人閱讀 39,257評論 0 276
  • 序言:老撾萬榮一對情侶失蹤坠陈,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后捐康,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體畅姊,經(jīng)...
    沈念sama閱讀 45,717評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,894評論 3 336
  • 正文 我和宋清朗相戀三年吹由,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片朱嘴。...
    茶點故事閱讀 40,021評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡倾鲫,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出萍嬉,到底是詐尸還是另有隱情乌昔,我是刑警寧澤,帶...
    沈念sama閱讀 35,735評論 5 346
  • 正文 年R本政府宣布壤追,位于F島的核電站磕道,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏行冰。R本人自食惡果不足惜溺蕉,卻給世界環(huán)境...
    茶點故事閱讀 41,354評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望悼做。 院中可真熱鬧疯特,春花似錦、人聲如沸肛走。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,936評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽朽色。三九已至邻吞,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間葫男,已是汗流浹背抱冷。 一陣腳步聲響...
    開封第一講書人閱讀 33,054評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留梢褐,地道東北人徘层。 一個月前我還...
    沈念sama閱讀 48,224評論 3 371
  • 正文 我出身青樓峻呕,卻偏偏與公主長得像,于是被迫代替她去往敵國和親趣效。 傳聞我的和親對象是個殘疾皇子瘦癌,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,974評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 原文地址Python比較字符串大小時,根據(jù)的是ord函數(shù)得到的編碼值□尉矗基于它的排序函數(shù)sort可以很容易為數(shù)字和英...
    vola_lei閱讀 1,227評論 1 0
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,156評論 25 707
  • 1讯私、引言 數(shù)據(jù)庫設(shè)計過程中表、字段等的命名規(guī)范也算是設(shè)計規(guī)范的一部分西傀,不過設(shè)計規(guī)范更多的是為了確保數(shù)據(jù)庫設(shè)計的合理...
    SnowflakeCloud閱讀 41,001評論 0 48
  • 一斤寇、UIView常見屬性 1.frame 位置和尺寸(以父控件的左上角為原點(0,0)) 2.center 中點(...
    脫下國際籃化身程序猿閱讀 265評論 0 0
  • (第001筆) 現(xiàn)在拥褂,我無法控制自己對你的難以忘懷娘锁,但不再對你滿懷期待。大多數(shù)時候饺鹃,我們看似在懷念一個人莫秆,實際上只...
    清十四L閱讀 814評論 1 2