只是捷運日記

關於部落格
在[食夢黑貘] 的 [捷運日記]外, 還有甚麼呢?



  • 105260

    累積人氣

  • 0

    今日人氣

    0

    訂閱人氣

從資料到資訊

       當然我知道我的第一要務是把上班的工作做好後,
    才有餘力做自己的事, 而關鍵字合併是能夠讓關鍵字
    變得有意義的最重要工作, 只是後來想出所謂的子字
    串向下合併後, 這工作節省了兩個月.
   
        事實上最後用這個方法的原因, 最主要也是曾經
    實驗過用 google 搜尋數目, 來作兩個關鍵字的關係
    比對, 但結果只覺得有 8 成準確, 還不如子字串來得
    有意義.
   
        只是子字串要如何切, 就變得是切字的問題了,
    這是我最不願意碰及覺得沒有必要碰的原因, 因為既
    然是關鍵字, 使用者在概念上自然會去切割, 而沒必
    要像分析語意那樣切割.
   
        所以就乾脆用最簡單的去用空白等 "stop word"
    去做切割, 如空白, 分行, 逗號, ... 等等的字元來
    做縮短關鍵字最十拿九穩的方法.
   
        但這問題還是很多, 因為很容易就讓較少字元的
    字去併掉不該併的字串, 而最後是想到一個有趣的概
    念, 就是雖然必然是由子字串去併更長的字串, 只是
    必須這個字串必須是更常被使用才行.
   
        就像是 "變型金鋼" 或 "桌布" 雖然比 "變型金
    鋼桌布" 是屬於子字串, 但若 "變型金剛" 或 "桌布"
    次數比後者少, 就無法合併, 這個在概念上是沒問題
    的, 更強的字串本來就不應該被併.
   
        但若 "桌布" 若併掉 "桌布下載", 又吃掉 "電影
    桌布" 後比 "變型金鋼桌布" 數目還要大時, 在概念
    上他就有權力去併下後者了.
   
        所以昨天風痕影看到自己的關鍵字還是一堆 "無
    名" 類的在前 10 名, 完全沒有合併, 但我說合併只
    會在數量多才有意義, 若是屬於一天的資料, 我是覺
    得合併的價值不高, 而很明鮮的他只有一天的資料,
    所以連合併都合併不了.
   
        只是這動作是相當複雜的, 若是有 1 萬個字串,
    基本上就是要做 1 萬 * (1+1萬)/2 次的計算, 也就
    是 5千萬次的比對, 然後經過一次合併後, 因為小的
    會變大的後, 還要繼續再做這樣的動作.
   
        而每次做通常會少個 2 成, 1 成左右, 而須要
    做這動作 5 到 10 次, 最後可能剩 6千 個關鍵字,
    但此時是約做 5億次的比對, 須要 5 到 10 分鐘左
    右才能做完.
   
        但之後出來的資訊就是有意義的, 不是像我之前
    的文章, 前 10 名有 9 個都是星光幫, 就失去資訊的
    價值了.

    [連結]
   
    1. 林宥嘉/楊宗緯/蕭敬騰 到底有多熱? (一個錯誤示範)
      
http://geneoralspeaking.blogspot.com/2007/06/blog-post_06.html
   
    2. 關鍵字之後
      
http://blog.roodo.com/genehong/archives/3718471.html
      
    3. door 與 semantic web
      
http://blog.yam.com/genehong/article/10785044
      
    4. 甚麼是TAG?
http://www.ithome.com.tw/plog/index.php?op=ViewArticle&articleId=4642&blogId=410
      
    5. 資料探勘實用是因為小技術
      
http://blog.roodo.com/genehong/archives/3675143.html  
      
    [TAG]wood, door, urs.tw, keywords, 部落格觀察
   
    ***********************************************
   
    *前
        2007/7/26 下午 02:02:01, 過關渡站, 只是想到
    許多事, 總覺得有點沉重罷了.
   
    *後
        2007/7/26 下午 02:42:21, 快到了, 停筆.
相簿設定
標籤設定
相簿狀態