福州SEO優化公司

火車頭工具怎么用?火車頭工具的用法

瀏覽:/ 2020-05-27

軟文營銷.jpg

 1、火車頭介紹

 
2、什么是信息采集
3、什么是火車頭
 
4、火車頭是干啥的
5、火車頭規則定制
6、規則編寫流程
7、采網址詳解
8、采內容詳解
9、注意事項
 
 
什么是火車頭?
 
 
 
 
我們打開一個網站,看到有一篇文章很不錯,于是我們就將文章的標題和內容復制了一下,將這篇文章轉到我們的網站上.我們的這個過程,就可以稱作一個采集,將別人網站上對自己有用的信息轉到自己網站上;互聯網上的內容,大多數都是通過復制-修改-黏貼的過程產生的,所以信息采集很重要,也很普遍,我們平臺發到網站上的文章,多數也是這樣的一個過程;為什么很多人感覺新聞更新很麻煩,因為這個工作是重復的,枯燥乏味的,浪費時間的;
 
 
火車頭是目前國內使用人數最多、功能最完善、網站程序支持最全面、數據庫支持最豐富的軟件產品;現在是大數據時代,它可以快速、批量、海量的獲取到互聯網上的數據,并按照我們需要的格式存儲起來;說的簡單一點,對我們來說有什么用?我們需要更新新聞,需要發商機,如果讓你準備1000篇文章,你要用多久?5個小時?在有規則的情況下,火車頭只需要5分鐘!前提是有規則,所以我們要先學寫規則,寫規則如果數量的話,一個規則幾分鐘就好了,但剛開始學的時候會比較慢;
 
 
 
 
名稱解釋與規則編寫流程
 
n以火車頭8.6版本為準  第1步:打開—登錄  第2步:新建分組
 
 
 
 
 
 
第3步:右擊分組,新建任務,填寫任務名;
 
 
 
 
seo圖.jpg
第4步:寫采集網址規則(起始網址和多級網址獲取)
 
 
 
 
 
第5步:寫采集內容規則(如標題、內容)
 
 
 
 
第6步:發布內容設置
勾選啟用方式二
(1)保存格式:一條記錄保存為一個txt;
(2)保存位置自定義;
(3)文件模板不用動;
(4)文件名格式:點右邊的倒立筆型選[標簽:標題];
(5)文件編碼可以先選utf-8,如果測試時數據正常,但保存下來的數據有亂碼則選gb2312;
 
 
 
 
 
第7步:采集設置,都選100;
 a.單任務采集內容線程個數:同時可以采集幾個網址;
 b.采集內容間隔時間毫秒數:兩個任務的間隔時間;
 c.單任務發布內容線程個數:一次保存多少條數據;
 d.發布內容間隔時間毫秒數:兩次保存數據的時間間隔;
 
 
 
 
附注:如果網站有防屏蔽采集機制(如數據很多但只能采集一部分下來,或提示多久才能打開一次頁面),則適當調小a值和調大b的值;
 
 
第8步:保存、勾選并開始任務(如果是同一分組的,可以在分組上批量選中)
 
 
 
 
以前的方式:比如我要準備n篇文章,要先找到這個文章是在哪個網站上的(如是采集同行A還是同行B),是在其哪個欄目下的(如是產品信息還是新聞信息),在這個欄目下有n條信息,我要選哪一條,然后進去后把標題復制下來,把內容復制下來再進到另一個頁面把標題內容復制下來,以此類推,然后同樣的流程我要執行n遍;
 
怎么轉換:怎么把這個流程轉化為軟件操作呢?我要準備n篇新聞,這就表明要n個標題+對應的內容,要n個新聞鏈接,這n個新聞鏈接是從一個網站的新聞欄目上找的,而這個網站的新聞欄目有可能是很多頁,比如10頁,這個時候再從同行A的網站—欄目—內頁;即先找到要采集的網站,打開這個網站的欄目頁(確定好是采集新聞還是產品),寫網址規則采集欄目下的所有新聞鏈接,然后寫內容規則采集所有新聞鏈接中的標題和內容,最后保存下來;
 
 
采網址詳解-具體操作
 
 
 
 
 
找到要采集網址的欄目頁,如新聞欄目
復制欄目的第一頁鏈接url,起始網址右側中點添加,在單條網址中黏貼欄目的第一頁鏈接后點添加,如
用右邊的(*)代替,因為第1頁已經添加了,還剩9頁,這時在等差數列那一行把項數改成9,首項是2(因為第2頁的鏈接是,然后點添加-完成;
 
 
 
 
 
1、點對應右側的添加,然后如下圖所示是示例,右側大圖是說明;
 
 
 
 
2、點擊保存后點右下角的
看看是否能采集到新聞網址,
如果能采集到則正確,雙擊一個新聞網址進到下一步;如果采集到的不正確,返回修改直到成功;網址過濾可以自己觀察其對應的規律;
 
 
 
 
1、到采集內容規則這里后,把作者、時間、出處都選中后刪掉,如右面第一張圖,因為這些標簽正常情況下都用不到;
2、選中標題標簽點修改,或直接雙擊該標簽,進入編輯界面;
 
 
 
3、進入后標簽名的“標題”別改,改過后是要改對應的模板的;
4、下面的數據提取方式:前后截取和開始結束字符串,也盡量用默認的,在不熟練的情況下不要改;
5、點擊下面數據處理的添加—內容替換,如右圖;
6、內容替換將標題后面的都替換為空,如果不替換的話采集的是頁面title,這時需要打開兩個新聞頁面,看看這兩個新聞頁面的公共部分是什么,把公共部分替換掉
 
 
 
例:如下面兩個標題,“ - 頂尖SEO團隊”是公共部分,即把其替換為“空”;
【圖文】你知道螺旋加料機的加工方法嗎 螺旋加料機原理你了解嗎
【圖文】氣動式加料機的優點是什么 你知道粉末加料機工作原理嗎
 
 
 
 
例:如下面的則需要把“-健康網”替換成“空”;
例:如下面的則需要把“-健康網”替換成“空”;
我喜歡吃西瓜-健康網
蘋果好吃嗎?-健康網
 
 
 
1、選中內容點編輯,或直接雙擊進入到內容標簽編輯界面,標簽名千萬別改;
2、寫開始和結束字符串,就是找能把所有新聞都包裹起來的,在所有新在所有新聞頁面中都是聞頁面中都有的,且是唯一的一段字符串;即這個頁面模板中的唯一代碼串;
 
 
 
 
舉例:采集內容的時候,需要選擇內容區域,因為要采集的可能是n篇,如100篇,這個時候就需要想法怎么能寫一個采集到全部的,方法就是打開兩個新聞鏈接如,查看第一篇新聞的源文件,找到新聞正文,然后向上找離新聞第一句話最近的,在這個頁面中是唯一的一段代碼(如果不唯一,軟件能知道從第幾個開始嗎?),但又不是新聞中的內容,如<div id=“zoom”>,復制后在第二篇新聞頁面源文件中搜一下看看有沒有,如果有,則可采用;同理找到新聞最后一句話,向下找離其最近的頁面中唯一的一段代碼,復制后在第二篇新聞頁面源文件中搜一下看看有沒有,如果有,則可采用;數據處理:因為采集的是其他網站的信息,里面有可能有其他網站的資料,如公司名、聯系方式、品牌等信息,也可能有其他網站的超鏈接等信息,這個時候就需要對信息進行過濾處理;數據處理—添加—下面對應的參數HTML標簽過濾:滾動軸橫向拉到最后,在所有標簽前面打鉤后點確定;內容替換:將這個網站的信息替換成自己的,原則是先整后拆,有公司名、電話號(拆分)、手機號(拆分)、郵箱、公司地址(拆分)、品牌名、網址(拆分);其中拆分的意思是對這個數據進行拆解替換,這個時候就需要做如下替換:因為在新聞中,,這是時候就需要對其拆解替換才能替換干凈,可以多看一下他的新聞中,可能會用什么樣的格式;
 
 
注:數據處理還有很多技巧,需要自己在使用的過程中琢磨,更是采集的核心,如果處理不好,有可能是為他人做嫁衣,所以一定要仔細觀察,考慮全面,如果處理好了,采集下來的文章甚至可以直接就發布(非自己企業站)
 
 
注意事項()
1、右擊分組:會出現如下圖菜單,正常都能用到;
 
 
新建任務:在此分組上新建任務;
運行該分組下所有任務:顧名思義;
新建任務:在該分組下再建分組;
編輯/刪除分組:編輯/刪除當前分組;
導入/導出分組規則:可以導出當前分組下的所有任務,并導入到同版本火車頭上;
導入任務至該分組:將導出的單個任務導入到該分組下面;
黏貼任務到該分組下:要復制過任務后此項才出現,可以黏貼多個同樣的任務,然后再黏貼后的任務上進行編輯即可;
 
 
 
 
 
開始任務:和菜單欄上的開始一樣;
編輯任務:編輯已經寫好的任務;
導出任務:可以將當前規則導出,在其他同版本工具上導入,但導入數據時需重復上面的第6步-發布內容設置,必須要重新選/填一遍;
復制任務到黏貼板:復制后,選擇一個任務分組并右擊,可以黏貼不同數量的任務到那個分組中,這樣就避免同一個任務多次編寫了;
清空任務所有采集數據:新如果之前采集過任務想重新采集的,則需求先清空;
 
 
 
 
3、其他設置:頂部菜單欄中點擊工具—選項,配置全局選項和默認選項;
全局選項:可以調整下同時運行任務最大個數,正常是5即可,可不調;
默認選項:是否忽略大小寫點是;

閱讀"火車頭工具怎么用?火車頭工具的用法"的人還閱讀

上一篇:網站內鏈如何布局?SEO內鏈布局方法與好處

下一篇:返回列表

福彩3d开奖号码