語料庫盟步,去除停用詞
val model = word2vec.fit(v)
一執(zhí)行就報錯如題目錯誤,經(jīng)過google發(fā)現(xiàn),spark ml word2vec有一個參數(shù)
minCount: 表示輸入詞在輸入語料中至少出現(xiàn)多少次,才會進行向量轉化碴犬,少于該出現(xiàn)次數(shù)的次將會在輸入值中直接丟棄。 (>=0整數(shù)梆暮,默認值: 5)
恍然大悟服协,語料庫輸入有問題,我輸入了詞典當作語料庫啦粹,詞典種詞的出現(xiàn)次數(shù)當然小于5偿荷,發(fā)現(xiàn)了問題所在