2007年10月25日 星期四

Web Mining Basics

Web Data Ming,Chapter6 Information Retrieval and Web Search

Web Mining
資料探勘技術,可以自動且準確的發現網路上的資訊
可以用三個方向來分析網頁資料
1.Web Structure Mining
To discover the link structure of the hyperlinks at the inter-documentlevel
2.Web Content Minng
text,image,audio,vedio,metadata and hyperlink
3.Web Usage Mining
web log mining,分析網(站)頁被使用的狀況

Information Retrieval
把文字像資料一樣來探勘,把文字(文章)變成可用的資料
3個模型
1.Boolean model
2.vector space model
3.statistical language model

Ranking:待續....

Text and Web Page pre-processing
1.Stopword Removal:移除一些較無義意的單字
2.Stemming:修改單字回原型,例如s es ing ed ies....
3.Other pre-processing task for text
Digits:數字一般都不會有義意
Hyphens:連接字
Punctuation:標點符號
Case of letters:轉換為一樣大小寫
4.Web Page Pre-Precessing
1.Identifying different text fields:網頁中較重要的TAG,如<h1><h2>
2.Identifying anchor text:超連結
3.Removing HTML tags:移除TAGS,但要小心rectangular block
4.Idemtifying main content block:分析出主要的網頁內文區塊
Partitioning base on visual cues:資料在網頁中的X和y軸來判斷
Tree matching:找出樣版
5.Duplicate Detection
MIRROR網站且產生的重複資料
1.hash:md5
2.n-grag:將字句分成N個一組來比較

沒有留言: