參考其他人在Windows下配置nutch的過(guò)程出現(xiàn)了錯(cuò)誤立砸,服務(wù)器查詢功能正常,但是結(jié)果為0條患亿,半天不知道是哪里錯(cuò)誤商乎。下面修正一下http://blog.csdn.net/qq_29721419/article/details/53158207過(guò)程中的幾個(gè)問(wèn)題
一 ? 輸入./nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2 命令的時(shí)候可能會(huì)出現(xiàn)錯(cuò)誤,原因是命令中使用的是 ? weburl.txt ?可是之前設(shè)置的讀取鏈接文件是 ?url.txt ? ?所以程序找不到文件申尼。改其中一個(gè)應(yīng)該就可以了垮卓。
二? 在tomcat啟動(dòng)以后打開(kāi)http://localhost:8080/nutch-0.9/網(wǎng)頁(yè)出現(xiàn)nutch-0.9 search.jsp 152行錯(cuò)誤。參考http://www.reibang.com/p/c63f96fadbd2
三 ?最神奇的錯(cuò)誤 原文如下...?
錯(cuò)誤的表現(xiàn)是程序的正常的爬網(wǎng)頁(yè)师幕,服務(wù)器可以正常運(yùn)行粟按,http://localhost:8080/nutch-0.9/也可以打開(kāi),輸入查詢語(yǔ)句以后返回0條結(jié)果霹粥。原因是由于直接復(fù)制了其他人在網(wǎng)頁(yè)上的配置文件的代碼灭将,導(dǎo)致此配置文件中夾帶有網(wǎng)頁(yè)的代碼。如上圖所示<span>就是夾帶的網(wǎng)頁(yè)的代碼后控。很不明顯的錯(cuò)誤宗侦。把這個(gè)標(biāo)簽去掉就行了。
另外忆蚀,@@
雖然整個(gè)過(guò)程我都沒(méi)有見(jiàn)到crawled文件矾利,但是我試過(guò)把配置文件里的crawled去掉,證明是程序是不能查詢的馋袜。以上就是信息檢索實(shí)驗(yàn)?zāi)承┢孑忮e(cuò)誤男旗。