text2UCI工具

將文檔的分詞結(jié)果轉(zhuǎn)化為非嚴(yán)格的UCI格式控漠,即沒有前三行的統(tǒng)計信息洛波,因為這三行在LightLDA中沒有使用到巩搏。
分詞后結(jié)果的格式
doc1seqword1 word2 word3...
doc2seqword2 word3...
doc3seqword2 word3
seq是自定義的分割符扒秸,分割文檔名和文檔內(nèi)容的分詞結(jié)果播演,作為參數(shù)傳入函數(shù)

/**
 * 將文本文件轉(zhuǎn)化為UCI模式
 * @param seq  文檔與分詞結(jié)果的分隔符
 * @param filePath input 文本路徑
 * @param docwordPath  output 轉(zhuǎn)化后的文檔信息存放路徑
 * @param vocabPath    output 轉(zhuǎn)化后的詞匯信息存放路徑
 * @throws Exception
 */
public static void text2UCI(String seq, String filePath, String docwordPath, String vocabPath) throws Exception{
    //先將分詞結(jié)果中的各個詞打亂賦予id存放到單詞表中
    //再對文檔進行處理
    //文檔需要根據(jù)文檔id排序,wordid從1開始
    //單詞不能有空格或tab
    BufferedReader br = new BufferedReader(new FileReader(filePath));
    BufferedWriter vocab_bw = new BufferedWriter(new FileWriter(vocabPath));
    BufferedWriter doc_bw = new BufferedWriter(new FileWriter(docwordPath));

    HashSet<String> vocabs = new HashSet<>();

    String doc = null;
    while((doc = br.readLine()) != null){
        doc = doc.split(seq)[1];
        doc = doc.trim();
        if(doc.length() == 0){
            continue;
        }
        String[] words = doc.split(" +");  //按空格分組
        for(String word : words){
            vocabs.add(word);
        }
    }
    br.close();

    List<String> vocab_list = new ArrayList<>(vocabs);
    HashMap<String, Integer> vocab_id = new HashMap<>();
    int id = 1;
    for(String token : vocab_list){
        vocab_id.put(token, id++);
        vocab_bw.write(token);
        vocab_bw.newLine();
        vocab_bw.flush();  //寫入到詞匯表文件
    }
    vocab_bw.close();

    //防止文件過大伴奥,就不用mark和reset了
    br = new BufferedReader(new FileReader(filePath));
    int doc_id = 1;  //從1開始
    while((doc = br.readLine()) != null){
        doc = doc.split(seq)[1];
        doc = doc.trim();
        if(doc.length() == 0) continue;

        String[] words = doc.split(" +");  //按空格分組
        int[] ids = new int[words.length];
        for(int i = 0; i < words.length; ++i){
            ids[i] = vocab_id.get(words[i]);  //存放id
        }
        Arrays.sort(ids);
        HashMap<Integer, Integer> id_cnt = new HashMap<>();
        for(int word_id : ids){
            int value = id_cnt.containsKey(word_id) ? id_cnt.get(word_id) + 1 : 1;
            id_cnt.put(word_id, value);     //更新值
        }
        StringBuilder doc_info = new StringBuilder();
        doc_info.append(doc_id).append(" ").append(ids[0]).append(" ").append(id_cnt.get(ids[0])).append("\n");
        for(int i = 1; i < ids.length; ++i){
            if(ids[i] == ids[i-1]){
                continue;
            }
            doc_info.append(doc_id).append(" ").append(ids[i]).append(" ").append(id_cnt.get(ids[i])).append("\n");
        }
        doc_bw.write(doc_info.toString());
        doc_bw.flush();
        doc_id++;
    }
    br.close();
    doc_bw.close();

    System.out.println("vocab size : " + vocab_list.size());
    System.out.println("doc size: " + (doc_id - 1));
}
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末写烤,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子拾徙,更是在濱河造成了極大的恐慌洲炊,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異暂衡,居然都是意外死亡询微,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進店門狂巢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來撑毛,“玉大人,你說我怎么就攤上這事唧领≡宕疲” “怎么了?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵斩个,是天一觀的道長胯杭。 經(jīng)常有香客問我,道長受啥,這世上最難降的妖魔是什么做个? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮腔呜,結(jié)果婚禮上叁温,老公的妹妹穿的比我還像新娘。我一直安慰自己核畴,他們只是感情好膝但,可當(dāng)我...
    茶點故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著谤草,像睡著了一般跟束。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上丑孩,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天冀宴,我揣著相機與錄音,去河邊找鬼温学。 笑死略贮,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的仗岖。 我是一名探鬼主播逃延,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼轧拄!你這毒婦竟也來了揽祥?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤檩电,失蹤者是張志新(化名)和其女友劉穎拄丰,沒想到半個月后府树,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡料按,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年奄侠,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片站绪。...
    茶點故事閱讀 39,919評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡遭铺,死狀恐怖丽柿,靈堂內(nèi)的尸體忽然破棺而出恢准,到底是詐尸還是另有隱情,我是刑警寧澤甫题,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布馁筐,位于F島的核電站,受9級特大地震影響坠非,放射性物質(zhì)發(fā)生泄漏敏沉。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一炎码、第九天 我趴在偏房一處隱蔽的房頂上張望盟迟。 院中可真熱鬧,春花似錦潦闲、人聲如沸攒菠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽辖众。三九已至,卻和暖如春和敬,著一層夾襖步出監(jiān)牢的瞬間凹炸,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工昼弟, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留啤它,地道東北人。 一個月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓舱痘,卻偏偏與公主長得像变骡,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子衰粹,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內(nèi)容