火車
采集器是一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析,挖掘軟件,多
數(shù)據(jù)庫支持,用戶可以對(duì)Access/
MySQL/MsSQL/Sqlite/Oracle多種類型的數(shù)據(jù)庫保存及發(fā)布,功能豐富實(shí)用操作簡單,支持各種文件數(shù)據(jù)格式,圖片、壓縮文件、
視頻等任意格式的文件都能輕松
下載,兼容性極強(qiáng),適用于各種微軟系統(tǒng),運(yùn)行流暢,完美匹配。多個(gè)搜索引擎,強(qiáng)大數(shù)據(jù)搜索能力,業(yè)界領(lǐng)先,用戶不需要再下載其他搜索軟件,今天小編就為大家?guī)砹嘶疖嚥杉�,�?biāo)簽編輯使用教學(xué),幫助大家更好的使用這一款軟件!
火車采集器標(biāo)簽編輯
對(duì)數(shù)據(jù)內(nèi)容標(biāo)簽進(jìn)行編輯定義,數(shù)據(jù)的獲取方式有
A).從源碼中獲取數(shù)據(jù)
B).生成固定格式的數(shù)據(jù)
C).已有標(biāo)簽組合
A).從源碼中獲取數(shù)據(jù):可精確地設(shè)置標(biāo)簽的來源是從默認(rèn)頁的源碼、返回頭信息和網(wǎng)頁地址中,
或者是分頁、循環(huán)分塊、多頁中。
其數(shù)據(jù)提取方式包括:
A.a).前后截取
A.b).正則提取
A.c).正文提取
A.d).Xpath提取
A.e).JSON 提取
B).生成固定格式的數(shù)據(jù):可生成固定的字符串、系統(tǒng)時(shí)間、隨機(jī)字符串、隨機(jī)數(shù)字、系統(tǒng)時(shí)間戳、隨機(jī)抽取信息
C).已有標(biāo)簽組合:可通過組合已有的標(biāo)簽,來生成新的標(biāo)簽內(nèi)容
A.a).前后截取
通過設(shè)置開始字符串和結(jié)束字符串,來獲取中間的字符,可以在開始和結(jié)束字符串中設(shè)置通配符(*)
A.b).正則提取
支持兩種正則,一個(gè)純正則,一個(gè)參數(shù)正則。
先介紹純正則,舉個(gè)例子,
如:前字符串 (?<content>[\s\S]*?)后字符串,這個(gè)正則其實(shí)效果跟前后截取一樣,
如需要獲取全部代碼,則為^(?<content>[\s\S]*?)$ ,此功能運(yùn)用需有一定的正則基礎(chǔ)。
關(guān)于參數(shù)正則,是通過參數(shù)組合,來生成內(nèi)容。
比如說要匹配標(biāo)題為“新用戶注冊(cè)”和作者“神秘嘉賓”,代碼如下:
<div class="content">
<h2>新用戶注冊(cè)</h2>
<div id="tools">【作者:神秘嘉賓】【字號(hào):<a href="#" class="fontSize">大</a>
設(shè)置如圖:
火車采集器標(biāo)簽編輯使用教學(xué)圖2
需要獲取的字段用參數(shù)表示,不需要的字段或空格用星號(hào)代替;在組合結(jié)果里可以對(duì)多個(gè)參數(shù)進(jìn)行組合。
A.c).正文提取
注意這種方式只適合格式較為規(guī)則的多文字?jǐn)?shù)據(jù)提取,例如新聞文章。
它不需要設(shè)置復(fù)雜的規(guī)則,可智能分析提取文章正文,文章標(biāo)題,以及發(fā)布時(shí)間。
火車采集器標(biāo)簽編輯使用教學(xué)圖3
A.d).Xpath提取
通過Xpath表達(dá)式來獲取數(shù)據(jù),比如//div[@id=’content’],
就是獲取id為content的div可指定要獲取html節(jié)點(diǎn)的屬性,
比如 Innerhtml、Outerhtml、Innertext、Href屬性。
(注意:這種有一定的局限性,對(duì)于部分html標(biāo)簽不規(guī)范的頁面無法解析。)
A.e).JSON提取
通過對(duì)JSON形式的數(shù)據(jù)格式化操作,寫表達(dá)式來獲取其節(jié)點(diǎn)數(shù)據(jù)。
- 軟件性質(zhì):國產(chǎn)軟件
- 授權(quán)方式:免費(fèi)版
- 軟件語言:簡體中文
- 軟件大�。�23789 KB
- 下載次數(shù):4414 次
- 更新時(shí)間:2021/1/14 13:22:40
- 運(yùn)行平臺(tái):WinAll...
- 軟件描述:火車采集器是使用人數(shù)比較多的互聯(lián)網(wǎng)數(shù)據(jù)挖掘軟件。能采集99%的網(wǎng)頁,就算網(wǎng)頁需要... [立即下載]