只是捷運日記

關於部落格
在[食夢黑貘] 的 [捷運日記]外, 還有甚麼呢?



  • 105260

    累積人氣

  • 0

    今日人氣

    0

    訂閱人氣

部落格的關連分析

        部落格觀察有三個初始的目標, 有一個在我的定
    義中是用來找出部落格的關係.
   
        而這些方法都有各自的觀點, 並不全面, 但也有
    自己的方向與意義, 且各自有不同的架構, 也有一些
    是用資料探勘的 Relation Analysis 關連分析來做.
   
        目前已經做過的如下:
   
    1. 有多少人同時提及:
       這個是最早做的, 用的是 google 兩個網址的並陳,
       看有那些網頁同時出現這兩個網址, 這個是很有意義,
       但很快就不能用, 因為若是以現在部落格觀察的規模,
       要做完一次須要 7 萬乘上 7 萬對 google 的查詢,
       也就是 50 億次的查詢, 這個雖然有效, 但不合理.
      
    2. 部落格好友與推薦:
       這個是讓 Blogger 自己建立自己的關係, 經過自
       己的設定然後串起來, 但這個並沒有很認真去推,
       畢竟這種須要使用者來輸入的東西, 不是我想做的.
      
    3. 部落格足跡:
       這個是由部落格讀者來決定的部落格關係, 也就是
       用 IP 與 Blog 用 Relation Analysis 做出來的
       結果, 這個雖然是算做出來, 但介面還沒有完善,
       只是已經放在部落格觀察的連結了.
      
    4. 宅度計的麻吉度:
       這個很單純的是以關鍵字八大分類屬性分數來計算
       出來, 並參考分數最高的關鍵字, 來算出部落格之
       間的關係.
   
    5. 宅度計的配對度:
       這參考的是包含追加分類的各類主要關鍵字的結果,
       應該會比麻吉度更準一點, 但有時會讓一些分類的
       關係出不來.
   
    6. 宅度計的關係度:
       雖然在 "部觀門" 的確要做出類似以搜尋的關鍵字
       為主關係度, 但還沒做出來之前就先用宅度計的內
       容分析來去做, 這也是宅度計中最好的計算方式了.
      
        這個議題我從 1996 年就開始做了, 當時要算的
    是個人版之間的關係, 所以花了很多時間去研究演算法.
    事實上去博客來之前就有三四個計劃, 有些已經進行到
    一半了, 例如一個是原本要從魅力站的資料來算電子報
    的關係與推薦, 另一個就是歐茲的 "終級交友系統".

        當然上面這六個也只是個開始, 像部關門的搜尋
    關連分析到現在還沒開始做, 這個說不定會較有意義些,
    接下來就是第 2 項是最有人的因素這點, 本來就是必
    須要有活動與介面來搭配才行.
   
        甚至應該想辦法把這些做一個統整介面, 畢竟包
    含我自己在看這些結果, 我有些覺得點頭, 有些覺得
    搖頭, 雖然我相信這個的 "準確度" 與價值, 但這個
    計算的方向到底是不是有意義的.
   
        就像是宅度計雖然很有價值, 但大家看前面 30
    名的文章, 很多很明顯就不是寫給人看的, 人幾乎不
    太能夠閱讀, 擺明就是寫給搜詢引擎看的 SEO 用的,
    所以若是能夠扣掉這一層就準確多了, 但更大的問題
    還是在於每一個系統都不太一樣的問題.
   
        畢竟部落格觀察在一開始有三點目標, 有誰還記
    得嗎? 尤其其中一點是: 協助讀者找到自己想要閱讀
    的部落格, 做這些只是要做到這個部份而已.
   
        當然, Data Mining 資料探勘這種系統最有趣與
    最麻煩的地方就是之後的調校, 畢竟這個不是算出來
    就好, 而是要有意義, 甚至是有影響或 KPI 才行,
    這個過程就比做出來還更漫長了.
   
        2008-05-12 14:46:29, 這篇有一半是 "Online"
    寫的 "不是捷運日記", 所以就兩邊都貼吧.
   
    [連結]
   
    1. 部落格觀察的三點目標
      
http://blog.yam.com/genehong/article/9520697
      
    2. [宅度計] 關係榜上線
      
http://lookdoor.blogspot.com/2008/05/blog-post_11.html
      
    3. 這個站的 "有多少人同時提及"
      
http://look.urs.tw/join.php?BlogID=1
   
    4. 這個站的 "部落格推薦"
      
http://look.urs.tw/showrelation.php?BlogID=1
   
    5. 這個站的 "部落格足跡"
      
http://foot.url.com.tw/blogprofile.php?BlogID=1
   
    6. 這個站的 "麻吉榜"
      
http://otaku.datamining.tw/relation.php?BlogID=1
   
    7. 這個站的 "配對榜"
      
http://otaku.datamining.tw/match.php?BlogID=1
   
    8. 這個站的 "關係榜"
      
http://otaku.datamining.tw/dump.php?BlogID=1
      
    [Keywords]部落格觀察, 資料探勘, Data Mining ,
      關連分析, Relation Analysis
     
    [編按]這篇雖然前半是在離線時寫的, 但也有一半是
          "Online"寫的 "不是捷運日記", 所以就兩邊
          都貼吧.
     
    **********************************************
   
    *前
        2008-05-11 14:11:24, 現在經過北投站.    
       
    *後
        2008-05-12 14:46:29, 這篇有一半是 "Online"
    寫的 "不是捷運日記", 所以就兩邊都貼吧.

相簿設定
標籤設定
相簿狀態