火車采集器是一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析,挖掘軟件,自定義用戶cms系統(tǒng)模塊,不管你的
網(wǎng)站是什么系統(tǒng),都有可能使用上火車采集器,支持采集數(shù)據(jù)直接入庫和模仿手工發(fā)布等許多功能特點,能夠解析文件真實地址并且
下載,擁有強大的采集功能,能夠采集那些需要登陸才能查看的內容信息,能夠快速的對網(wǎng)頁上數(shù)據(jù)信息進行規(guī)范性的采集,完善采集包括文本、圖片、文件等信息,以完成您在
瀏覽器內能看到的各類信息的提取,json提取關于數(shù)字轉換為科學計數(shù)法問題處理,需要的朋友趕緊下載體驗吧!
功能特點
1: 自動獲取cookie功能優(yōu)化
3: 數(shù)據(jù)轉換速度優(yōu)化(針對Mysql和SqlServer數(shù)據(jù)庫的導入), 同時去除網(wǎng)址庫的清空邏輯
4: html標簽處理錯誤問題處理
5: json提取關于數(shù)字轉換為科學計數(shù)法問題處理
6: 發(fā)布測試時,圖片上傳無效的問題處理
7: 采集內容頁處理錯誤時,增加對于當前出錯標簽的提示,以便快速定位出錯標簽
8: 任務批量編輯,增加可操作范圍
數(shù)據(jù)處理教學
1)提取內容為空:如果提取內容為空,則使用正則匹配從原始頁面中再次提取
2)內容替換/排除:將采集到的內容進行字符串替換,如需排除,則替換為空字符串即可
3)html標簽過濾:過濾指定html標簽,比如<a ,<font
4)字符截�。和ㄟ^開始和結束字符串對內容進行截取
5)純正則替換:通過強大的正則表達式進行復雜的替換。
6)數(shù)據(jù)轉換:包括將結果簡轉繁、將結果繁轉簡、自動轉化為拼音和時間修正轉化
7)智能提�。喊ㄌ崛〉谝粡垐D片、智能提取時間、智能提取
郵箱、智能提取手機號碼、智能提取電話號碼
8)高級功能:包括自動摘要、自動分詞、Http請求、字符編碼轉換、同義詞替換、空內容缺省值、內容加前后綴、隨機插入、運行C#代碼、批量內容替換,統(tǒng)計標簽字符串長度等一系列功能。
9)補全單網(wǎng)址:將當前內容作為一個網(wǎng)址進行補全。
10)文件下載:可以自動探測并下載文件,可設置下載路徑和文件名樣式。
11)內容過濾:對于一些不符合條件的記錄,可以通過設置內容過濾來刪除或標記為未采。
內容分頁
內容分頁有2種列出模式:a.首頁全部列出,b.上下頁模式。
首頁全部列出模式適用于分頁地址全部顯示出來的情況,如下圖:
火車頭采集器數(shù)據(jù)處理圖文教學圖2
上下頁模式適用用分頁地址僅列出一部分的情況,如下圖
火車頭采集器數(shù)據(jù)處理圖文教學圖3
- 軟件性質:國產(chǎn)軟件
- 授權方式:免費版
- 軟件語言:簡體中文
- 軟件大�。�23789 KB
- 下載次數(shù):4570 次
- 更新時間:2021/3/5 9:09:39
- 運行平臺:WinAll...
- 軟件描述:火車采集器是使用人數(shù)比較多的互聯(lián)網(wǎng)數(shù)據(jù)挖掘軟件。能采集99%的網(wǎng)頁,就算網(wǎng)頁需要... [立即下載]