Web Data Ming,Chapter6 Information Retrieval and Web Search
Web Mining
資料探勘技術,可以自動且準確的發現網路上的資訊
可以用三個方向來分析網頁資料
1.Web Structure Mining
To discover the link structure of the hyperlinks at the inter-documentlevel
2.Web Content Minng
text,image,audio,vedio,metadata and hyperlink
3.Web Usage Mining
web log mining,分析網(站)頁被使用的狀況
Information Retrieval
把文字像資料一樣來探勘,把文字(文章)變成可用的資料
3個模型
1.Boolean model
2.vector space model
3.statistical language model
Ranking:待續....
Text and Web Page pre-processing
1.Stopword Removal:移除一些較無義意的單字
2.Stemming:修改單字回原型,例如s es ing ed ies....
3.Other pre-processing task for text
Digits:數字一般都不會有義意
Hyphens:連接字
Punctuation:標點符號
Case of letters:轉換為一樣大小寫
4.Web Page Pre-Precessing
1.Identifying different text fields:網頁中較重要的TAG,如<h1><h2>
2.Identifying anchor text:超連結
3.Removing HTML tags:移除TAGS,但要小心rectangular block
4.Idemtifying main content block:分析出主要的網頁內文區塊
Partitioning base on visual cues:資料在網頁中的X和y軸來判斷
Tree matching:找出樣版
5.Duplicate Detection
MIRROR網站且產生的重複資料
1.hash:md5
2.n-grag:將字句分成N個一組來比較
2007年10月25日 星期四
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言