基于搜索代理的紡織企業(yè)信息庫的自動獲取系統(tǒng)與通用搜索引擎不同的是,它用搜索代理替代了搜索引擎中的“網(wǎng)絡蜘蛛”軟件,該代理除了能完成網(wǎng)頁收集和自動“爬行”外,還能利用專業(yè)關鍵詞和用戶的反饋信息自動過濾相關網(wǎng)頁,這樣使收集來的頁面均與專業(yè)相關,較大地縮小了對存儲空間的要求。
此外還增加了反饋信息、專業(yè)信息數(shù)據(jù)庫,以及收集這些信息的代理模塊。
紡織企業(yè)信息的自動獲取系統(tǒng)的工作原理代理又稱Agent,是一個具有自治能力的實體,一般表現(xiàn)為由軟件支持下的系統(tǒng)。在所設計的系統(tǒng)中,搜索代理是一個面向特定專業(yè)領域的信息獲取引擎。
與一般搜索引擎相比,它使用自動獲得的專業(yè)特征信息(如專業(yè)關鍵字、專業(yè)信息資源、頁面結構信息等)、用戶反饋信息(如專業(yè)信息格式、用戶興趣等)知識進行網(wǎng)頁信息搜集、過濾,并將自動提取網(wǎng)頁基本結構信息。