- 我們首先需要快速建立一個可用的模型障癌,最后通過交叉驗證來檢驗數(shù)據(jù);
- 畫出學習曲線和檢驗誤差,然后再看我們的算法有什么問題(高方差or高偏差etc...)幽钢,然后決定下一步怎么做;
- 誤差分析常摧,系統(tǒng)缺陷是什么搅吁,如何提高。例如垃圾郵件分類:
通過手動分類落午,然后可以看出谎懦,系統(tǒng)缺陷,進而思考如何提高(通過選取更好的特征)溃斋。
提取詞干是否有用界拦,拿來用用看看就知道了。
通過使用交叉驗證集的誤差結(jié)果對比是否使用詞干的誤差率梗劫,從而知道提取詞干是否有用享甸。
是否區(qū)分大小寫是否有用。
梳侨。蛉威。。
通過嘗試不同的想法走哺,實現(xiàn)多版本的學習算法蚯嫌,從而選擇更好的。