之前寫過一篇《巧用OutWit Hub light采集外鏈資源》,里面詳細介紹了OutWit Hub這個軟件在SEO中的一些用法,那么在這里我會對這一軟件做一個詳細的介紹。
OutWit Hub是一款用于信息收集和信息管理的軟件,由OutWit Technologies公司研發(fā)而成。OutWit Hub使用范圍很廣,可以用于網(wǎng)絡(luò)數(shù)據(jù)抓取整理的研究課題,商務(wù)網(wǎng)站的在線數(shù)據(jù)抓取,或者輔助SEO分析。
OutWit Hub大多功能都是免費的,能夠深入分析網(wǎng)站,自動收集整理組織互聯(lián)網(wǎng)中的各項數(shù)據(jù),并將網(wǎng)站信息分割開來,然后提取有效信息,形成可用的集合。但是要自動提取精確數(shù)據(jù)就需要付費版本了,同時免費版一次提取的數(shù)據(jù)量也是有限制的,如果需要大批量的操作,可以選擇購買專業(yè)版。
OutWit Hub目前的版本號為2.1.4.22,可以在windows、macosx、linux等多個平臺上使用,OutWit Hub擁有一個firefox的附加組件,能夠在firefox4.0到15.0的不同版本中使用。包括以下版本:
- Standalone application for Windows (installer)
- Standalone application for Windows (zip)
- Standalone application for MacOSX (Intel 32 bits)
- Standalone application for MacOSX (Intel 64 bits)
- Standalone application for Linux (32 bits)
- Standalone application for Linux (64 bits)
- Extension for Mozilla Firefox (all platforms)
OutWit Hub的界面非常直觀和簡潔,但能識別復(fù)雜的網(wǎng)頁數(shù)據(jù)結(jié)構(gòu),能夠解決各種網(wǎng)頁數(shù)據(jù)收集的需求。操作中無需掌握任何編程技術(shù)或者高端IT知識,用戶可以從一系列頁面中提取出頁面源代碼的文字、鏈接、圖像、電子郵件地址、RSS新聞、數(shù)據(jù)表等,也可以通過簡單的設(shè)置提取條件,將自己所需要的數(shù)據(jù)進行提取。提取出的數(shù)據(jù)會以數(shù)據(jù)表格的形式重新呈現(xiàn),這些數(shù)據(jù)也可以直接導(dǎo)出到CSV,HTML,Excel或者SQL數(shù)據(jù)庫中,而圖像等文件會直接保存到本地硬盤。
OutWit Hub被廣大seoer用于搜索引擎的數(shù)據(jù)采集,具體操作如下:
第一步,打開GOOGLE或百度,輸入你要的內(nèi)容;
第二步,點擊瀏覽器輸入框左邊的按鈕,打開主程序可以看到相關(guān)的功能,包括鏈接項,圖片,EMAIL,文本還有不同方式的排序等;
第三步,可以由軟件自動來采集識別,點擊GUESS可以自動把鏈接和標題分開;
第四步,手工分割scrapers,設(shè)定輸入需要顯示的內(nèi)容規(guī)則;
第五步,輸入規(guī)則完后保存點EXECUTE,回到DATA下的SCRAPED將顯示你要的內(nèi)容了;
第六步,查詢到內(nèi)容后要把它導(dǎo)出來方便統(tǒng)計與分析;
第七步,然后全選內(nèi)容,點周最上面的文件導(dǎo)出文件為EXCEL,CSV,HTML或者SQL形式;
最后導(dǎo)出的內(nèi)容就是你要查詢與采