Archive for 十二月, 2003

如果C++可以在21天內學好的話!?

自學C++ for Linux 21天課程
嗯…….期末考將屆, 圖書館殘餘C++好書無幾, 嗯…..誰能”在21天的課程中精通C++ for Linux的技巧與觀念”……只有((天)才)知道!

發個留言

composite item {A, B, (A and B and me) , me}

今天在資料庫的課堂上,同學報告了關於如何對temporal database 去做association rule 的分析, 裡頭提到了關於composite item的觀念, 嗯….很有趣.
以{A, B, (A and B and C) , C}這個item set 來說, 其中(A and B and C)就是個composite item.我開始想像像這樣子型態的資料是否曾在我的腦海閃過, 這種資料要怎麼儲存在RDBM裡頭呢? 還是需要另闢儲存途徑? 這跟web mining base on association rule 可以結合在一起嗎?

胡思亂想…如果這些 item都是常常和我去爬山的朋友的列表, 其中A and B 曾是地下男女朋友然後C是當時掩人耳目用的電燈泡, 針對過去爬山的人員組合當作transactions 來做分析, 或許就可以找出這些人之間的相互關係, 包括電燈泡是否曾被AB使用過, 如果答案是肯定的話, 那這樣的經歷是不是電燈泡爬山歷程中的小小片段? (或許L1就可以知道了):>

發個留言

在厚重的棉被裡入眠也是一種幸福.

離開淡水太久, 偶而回來, 不過是在咖啡店裡逗留或是在長堤上走走, 然而淡水的雨和冷的記憶, 現在終於隨著寒流歸來了.

還記的以前還在新埔唸書的時候, 寒風從海上刮來, 偎縮在大衣裡頭, 手指頭凍的分不清楚口袋中上的究竟是鑰匙還是零錢, 一大早從田心子走到學校的路上, 滿腦子都是翹課的念頭…..

來淡江唸大學時, 一個睡袋就打發掉, 也沒覺得什麼不好, 現在再次回到淡水唸書, 換了一個新睡袋, 只是寒流來襲, 這次回家不知道是年紀大還是怎麼了, 窩在厚重的棉被裡入眠, 一覺醒了, 竟覺得很幸福, 不想起床, 也不想回淡水……

發個留言

Web Mining Survey by Colley

Web Mining :Information and Pattern Discovery on the World Wide Web
By R.Colley, B. Mobasher, and J. Srivastava

Abstract

Web mining has been used in two distinct ways.
First, Web content mining, is the process of information discovery from source across the World Wide Web.

Second, Web usage mining, is the process of mining for user browsing and access patterns.

1 Introduction
With the explosive growth of information sources available on the World Wide Web, it has become increasingly necessary for users to utilize automated tools in find the desired information resource, and to track and analyze their usage patterns.

World wide web 資料成長很快, 實有需要一個能夠自動尋找符合使用者需求資料的工具.

Web mining can be broadly defined as the discovery and analysis of useful information from the World Wide Web.

Web mining 可以概括的定義為能夠從WWW發掘和分析出有用的資料

There are several important issues, unique to the Web paradigm. That comes into play if sophisticated types of analyses are to be done on server side data collections. There include integrating various data sources such as server access logs, referrer logs, user registration or profile information…….

特別是Web, 我們開始的時候都會假設在server side 所收集到的資料是否具有一定 的複雜度. 這包括的整合不同的資料來源像是 server access log, referrer log, user registration or profile information. 解析這些資料的難度在於在沒有足一辨別使用者的id下, 去區分出不同的使用者. 在這篇論文裡頭我們會分別去探討這些相關的問題與研究方向….

2. A Taxonomy of Web Mining

2.1 Web Content Mining

The lack of structure that permeates the information sources on the World Wide Web makes automated discovery of Web-based information difficult.

因為結構的不完整而讓在 World Wide Web 上面去擷取資訊變的困難(以Search Engine 為例).

2.1.1 Agent-Base Approach.

Intelligent Search Agents
針對特定的領域(Domain)來尋找相關資料
Information Filtering/Categorization
使用各種的Information retrieve 技術還有超文件(Hypertext Web document)的特徵來自動的取得(retrieve)過濾(filter) 和分類(categorize) 資料.
Personalized Web Agents
這一類的agent會學習使用者的偏好並且依照這些偏好或是不同但是相類似的(using collaborative filtering)來尋找出Web 的資料.

2.1.2 Database Approach.

Database approaches to Web mining have focused o techniques for organizing the semi-structured data on the Web into more structured collections of resources, and using standard database querying mechanisms and data mining techniques to analyze it.
Multilevel Database:
把semi-structured information 當作是資料庫的最底層儲存在不同的地方(repository), 較上層則儲存著從semi-structured information 產生出來的structured information (例如relational or object-oriented database.)
Web Query Systems:
Many Web-based query systems and languages utilize standard database query languages such as SQL, structural information about Web documents, and even natural language processing for the queries that are used in World Wide Web searches.

2.2 Web Usage Mining
Web usage mining is the automatic discovery of user access patterns from Web Servers.
(Referrer logs which contain information about the referring pages for each page reference, and user registration or survey data gathered via CGI scripts.)

2.2.1 Pattern Discovery Tools
運用AI, data mining, psychology, and information theory 來採掘資料.
相關的技術
1. Association rule
2. Sequential patterns form server access logs.
3. MFR (Maximal forward references) LRS(Large reference sequences)
4. Pirolli use information foraging theory to combine path traversal patterns, Web page typing, and site topology information to categorize page for easier access by users.
2.2.2 Pattern Analysis Tools.
一旦access pattern 已經被取得, 分析的工作就需要適切的工具和技術去了解, 視覺化, 解釋這些模式(pattern).

3. Pattern Discovery from Web Transactions

發個留言