火車頭采集時(shí)(采網(wǎng)址--重復(fù)網(wǎng)址的臨時(shí)解決方法)
大家好,今天小悅來為大家解答以上問題?;疖囶^采集時(shí),采網(wǎng)址--重復(fù)網(wǎng)址的臨時(shí)解決方法很多人還不知道,現(xiàn)在讓我們一起來看看吧!
商業(yè)版用戶的采集后的網(wǎng)址都存儲(chǔ)在 PageUrl 目錄里面的,一個(gè)任務(wù)對(duì)應(yīng)一個(gè)db3.大家可以從最上面的任務(wù)往下數(shù)第一個(gè),對(duì)應(yīng)的就是Site_*.db3.這樣大家可以先備份一下,然后清空也不怕了,到時(shí)候直接還原用戶名既可以,如果怕出錯(cuò),全部保存,一會(huì)恢復(fù)即可。
如圖:
如果想更進(jìn)一步的查看,這個(gè)db3其實(shí)就是sqlite數(shù)據(jù)庫格式的文件,可以用db3數(shù)據(jù)庫編輯器 查看修改。根據(jù)jobid查看,有朋友問不知道jobid怎么辦,呵呵,大家可以到 Data 目錄查看 3-新浪國內(nèi)新聞 后面的新浪國內(nèi)新聞就是你自定義的網(wǎng)站欄目名稱。這個(gè)跟jobid對(duì)應(yīng)上即可。
如圖:
最后大家備份好數(shù)據(jù)庫以后就可以(需要備份在 PageUrl 與 Data目錄的你的任務(wù)名對(duì)應(yīng)的文件夾,最好是全部以防萬一,采集完就可以覆蓋下。)
后來從網(wǎng)站也看到了如下文件,跟我的這篇大同小異。大家可以參考下。
火車頭是一個(gè)不錯(cuò)的采集軟件,“盜亦有道”,看你如何利用了。
Linker以前也偶爾研究下火車頭采集軟件,只是一直沒有購買商業(yè)版本,想想,現(xiàn)在的版本遠(yuǎn)沒有以前的1.x和2.x版本來得爽快。
一位兄弟,昨晚說他的火車頭采集軟件(企業(yè)版本的哦,有錢人!),總是提示任務(wù)地址庫重復(fù),研究了下,比較簡(jiǎn)單,告訴了他處理的方法,另外,經(jīng)過搜索發(fā)現(xiàn),火車頭的3.0 sp1版本有過這個(gè)bug,清除不掉任務(wù)地址庫,但管理員已經(jīng)在sp2版本中解決掉這個(gè)問題了。
后來這位朋友又問火車頭采集軟件的任務(wù)地址庫是哪個(gè)文件?怎么樣保存任務(wù)地址庫?怎么樣手動(dòng)清理任務(wù)地址庫文件?據(jù)Linker所知,編輯任務(wù)地址庫,需要是商業(yè)版本了,如果想手動(dòng)來處理,可以發(fā)現(xiàn),手動(dòng)地址庫文件是在火車頭根目錄下的pageurl目錄中,每一個(gè)任務(wù)對(duì)應(yīng)一個(gè)地址庫文件,mdb格式的,打開可以發(fā)現(xiàn),具體地址是被加密了?;疖囶^也有些太商業(yè)了,嘿嘿!
既然知道任務(wù)地址庫的位置和文件了,手動(dòng)清理任務(wù)地址庫,自然就簡(jiǎn)單了。刪除讓火車頭重復(fù)(刪除后,編輯該任務(wù),再保存),或者直接刪除該庫里面的記錄,都可以。想另存為其他任務(wù)所用,重命令為其它任務(wù)的id就行了。
簡(jiǎn)單測(cè)試通過。 原創(chuàng)文章。
本文到此結(jié)束,希望對(duì)大家有所幫助。