垂直搜索引擎是針對某一個行業的專業搜索引擎,是搜索引擎的細分和延伸,是根據特定用戶的特定搜索請求,對網站(頁)庫中的某類專門信息進行深度挖掘與整合后,再以某種形式將結果返回給用戶。垂直搜索是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式,通過針對某一特定領域、某一特定人群或某一特定需求提供的、有特定用途的信息和相關服務。垂直搜索引擎的價值在于其占有的信息資源的數量,能否提供全面權威的行業信息,能否最大限度擁有行業資源是垂直搜索引擎發展的關鍵。從某種意義上講,行業門戶網站是垂直搜索引擎嫡親的父母,同時也是往往不能分割的有機整體。
垂直搜索引擎有哪些?
(1)聚焦、實時和可管理的網頁采集技術:
一般互聯網搜索面向全網信息,采集的范圍廣、數量大,但往往由于更新周期的要求,采集的深度或說層級比較淺,采集動態網頁優先級比較低,因而被稱為水平搜索。而垂直搜索帶有專業性或行業性的需求和目標,所以只對局部來源的網頁進行采集,采集的網頁數量適中。但其要求采集的網頁全面,必須達到更深的層級,采集動態網頁的優先級也相對較高。在實際應用中,垂直搜索的網頁采集技術能夠按需控制采集目標和范圍、按需支持深度采集及按需支持復雜的動態網頁采集,即采集技術要能達到更加聚焦、縱深和可管控的需求,并且網頁信息更新周期也更短,獲取信息更及時。
(2)從非結構化內容到結構化數據的網頁解析技術:
水平搜索引擎僅能對網頁的標題和正文進行解析和提取,但不提供其時間、來源、作者及其他元數據的解析和提取。由于垂直搜索引擎服務的特殊性,往往要求按需提供時間、來源、作者及其他元數據解析,包括對網頁中特定內容的提取。例如,在論壇搜索、生活服務、訂票服務、求職服務、風險信用、競爭情報、行業供需、產品比較等特定垂直搜索服務中,要求對于作者、主題、地區、機構名稱、產品名稱以及特定行業用語進行提取,才能進一步提供更有價值的搜索服務。
(3)精、準、全的全文索引和聯合檢索技術:
水平搜索引擎并不能提供精確和完整的檢索結果,只是給出預估的數量和排在前面部分的結果信息(TOPN),但響應速度是水平搜索引擎所追求的最重要因素。在文本索引方面,它也僅對部分網頁中特定位置的文本而不是精確的網頁正文全文進行索引,因而其最終檢索結果是不完全的。垂直搜索由于在信息的專業性和使用價值方面有更高的要求,因此能夠支持全文檢索和精確檢索,并按需提供多種結果排序方式,例如按內容相關度排序(與水平檢索的page rank不同)或按時間、來源排序。另外,一些垂直搜索引擎還要求按需支持結構化和非結構化數據聯合檢索,如結合作者、內容、分類進行組合檢索等。
(4)高度智能化的文本挖掘技術:
垂直搜索與水平搜索的最大區別是,它對網頁信息進行了結構化信息抽取加工,也就是將網頁的非結構化數據抽取成特定的結構化信息數據,好比網頁搜索是以網頁為最小單位,基于視覺的網頁塊分析是以網頁塊為最小單位,而垂直搜索是以結構化數據為最小單位。基于結構化數據和全文數據的結合,垂直搜索才能為用戶提供更加到位、更有價值的服務。整個結構化信息提取貫穿從網頁解析到網頁加工處理的過程。同時,面對上述要求,垂直搜索還能夠按需提供智能化處理功能,如自動分類、自動聚類、自動標引、自動排重,文本挖據等。這部分是垂直搜索乃至信息處理的前沿技術,雖然尚不夠成熟,但有很大的發展潛力和空間,并且目前在一些海量信息處理的場合已經能夠起到很好的應用效果
垂直搜索引擎的工作模式是什么?
就垂直搜索引擎的工作模式來說,很多垂直搜索引擎是依靠人工或者半人工的方式來提取結構化信息的,但近年智能化的非結構化信息提取技術取得了重大進展,在一些領域也得到了有效應用。具體而言,垂直搜索引擎的Spider更加專業化和可定制化,其能夠定向采集與垂直搜索范圍相關的網頁,對內容相關的以及適于進一步處理的網頁進行優先采集。其信息采集可以通過人工設定網址和網頁分析等方式共同進行,在定向分字段抽取出所需要的數據并處理后再以某種形式返回給用戶。比如,購物搜索引擎的整體工作流程大致如下:在Spider抓取網頁后,對網頁中的商品信息進行抽取,抽取出商品名稱、價格、簡介等信息,然后對信息進行比較、去重、分類,最后提供給用戶搜索,還可以通過分析挖掘為用戶提供市場行情報告。