2007年10月29日 星期一

2007IBM開發者大會

與會者
台灣科技大學資訊管理系學院 盧希鵬
YAHOO執行總監
資策會 龔仁文
IBM

WEB2.0 到 WEB 3.0

WEB2.0是什麼?

盧希鵬
是自由與分享 可以完成的言論自由

YAHOO執行總監
心情新聞 YAHOO知識 (實務面)

龔仁文
如果成功不知道 失敗的例子到是有很多可以參考
要有Enter barrier
我為人人 人人為我的精神
Web 2.0是一個恐怖分子


什麼會是WEB 3.0

YAHOO
BLOG之類如何看到相關訊息(文章)
分享USER EXPERENCE

盧希鵬
書到用時方恨少->書到用時找得到(GOOGLE)->書到用時看不懂 如何看得懂是關鍵
誰是了解市場的人->大都是一群散沙(BLOG都是單獨一個) 如何集合他們的力量
大部份的團體都是近親繁殖 -> 台大幫 交大幫 ->所以大概都不出同一種思考模式
資料太多後->要如何收斂取得最有用的
WEB 1.0 是people -> machine
WEB 2.0 是people -> people
WEB 3.0 是mechine -> mechine (以字面上來猜)


龔仁文
多使用標準化API 例如GOOGLE和YAHOO
需要原創性
不要後知後覺

2007年10月25日 星期四

這學期應該要讀的資料

這學期修了4門課
1.高等計算機網路:有點像CCNA
2.社交網路探勘:集合了多種專業課程
3.人工智慧:可以增加思考的方法
4.計算機組織:組合語言,以前的工作所以不難

修了4門,還好有2門是以前有修過,所以重心都放在社交網路探勘

這學期除了上課用的教課書外,因為有所不足,還必需自己研讀
它們的優先順序大概如下
1.離散數學
2.研究方法
3.演繹法
4.統計學
5.線性代數


其中有些雖然學過,但是10多年沒有碰了,早就還給老師了

以前覺得沒有用到是沒有用的東西,現在要做研究了,一個一個都變得很重要

Web Mining Basics

Web Data Ming,Chapter6 Information Retrieval and Web Search

Web Mining
資料探勘技術,可以自動且準確的發現網路上的資訊
可以用三個方向來分析網頁資料
1.Web Structure Mining
To discover the link structure of the hyperlinks at the inter-documentlevel
2.Web Content Minng
text,image,audio,vedio,metadata and hyperlink
3.Web Usage Mining
web log mining,分析網(站)頁被使用的狀況

Information Retrieval
把文字像資料一樣來探勘,把文字(文章)變成可用的資料
3個模型
1.Boolean model
2.vector space model
3.statistical language model

Ranking:待續....

Text and Web Page pre-processing
1.Stopword Removal:移除一些較無義意的單字
2.Stemming:修改單字回原型,例如s es ing ed ies....
3.Other pre-processing task for text
Digits:數字一般都不會有義意
Hyphens:連接字
Punctuation:標點符號
Case of letters:轉換為一樣大小寫
4.Web Page Pre-Precessing
1.Identifying different text fields:網頁中較重要的TAG,如<h1><h2>
2.Identifying anchor text:超連結
3.Removing HTML tags:移除TAGS,但要小心rectangular block
4.Idemtifying main content block:分析出主要的網頁內文區塊
Partitioning base on visual cues:資料在網頁中的X和y軸來判斷
Tree matching:找出樣版
5.Duplicate Detection
MIRROR網站且產生的重複資料
1.hash:md5
2.n-grag:將字句分成N個一組來比較

2007年10月18日 星期四

我們為什麼要浪費時間睡覺

不睡覺是真的會死人~不是假的

為了要讓我們學會避開危險~這就是你做惡夢的原因

為了讓我們在練習一遍白天學會的東西~固化記憶

為了讓我們忘掉事情~不然千頭萬緒人一定會瘋

........

還不錯的書
有點冗長就是了~看不快


我們為什麼要浪費時間睡覺
作者:蘿柯
http://www.books.com.tw/exep/prod/booksfile.php?item=0010374095

2007年10月11日 星期四

Data Mining

資料探勘
所以它一定是跟"資料"有關
和資料相關的第一個一定是想到資料庫
探勘,一般也說是採擴,顧名思義,它的資料量一定很大
所以資料倉儲(data warehouse)是基礎課程

有了資料後
前置動作(Preprocessing)就是把要的資料留下來,不要的丟棄,不好不對的加以修正
如果資料量太大,還要用資料精簡方法讓SIZE小一點

資料有了統一的格式後
就可以來把資料分類,一般是以決策樹為基礎的分類法最為常見
分類好就可以使用測試樣本(test sample)來驗証分類法對不對

另還有一些群集分析(Cluster Analysis)用來切割資料
主要是要將資料記錄加以分群成數個群集,群集資料較有高的相似程度

2007年10月9日 星期二

隱藏的邏輯(好書一本)

推薦這一本好書--隱藏的邏輯

這是我們資工系老師推薦~原本想說理工老師推薦一定是理工世界的書
後來就又說侯文詠也有在電台上推薦這本書~還說這是全世界每個人都要看的書
心想又想:那一定是什麼文學之類的書吧

之後走到書店逛時還是忍不住去找這本書
這真是我的壞習慣~每次有人說什麼好書~我就忍不住會去買一本

花了一點時間把它看完~不長~不到300頁
快則一個晚上~慢則一個星期也應該看得晚
因為最近很忙~所以選擇一大用三十分鐘看一個章節~分次看完

這真的是一本很好的書~我想很多人看完~應該都會對這個世界有點改觀

為什麼餃子店比高級法國餐廳賺錢?

看書和讀書真的很不一樣
看書~可能看過就忘了~可能記得一二句名言
讀書就累人了~要逐字看~背的東西又超多

昨天去劃撥了學費5萬多
一個月的薪水又沒了
看來這個月的買書錢要節省一點了

管理會計~在學分班算的死去活來
結果最近多了一本書~用文章故事的方法來介紹~都沒有用到什麼公式
書名:為什麼餃子店比高級法國餐廳賺錢?
它講了管理會計中的八成概念