只是捷運日記

關於部落格
在[食夢黑貘] 的 [捷運日記]外, 還有甚麼呢?



  • 105147

    累積人氣

  • 0

    今日人氣

    0

    訂閱人氣

甚麼不是資料探勘?

    *1

        跟我最沒有緣份的科系, 一個是物理, 因為我的
    目標都是物理系所但都沒考上, 而另一個更沒緣份的
    是數學.

        要算我考上過的數學相關系所可多了, 從成大數
    學, 政大應數, 東吳商數, 淡江數學, 且這些不乏考
    上一次以上, 加上原本想考統計所但後來作罷.

        因為我一直認為從數學或物理可以找到一些模型
    與答案, 但事實上這兩門學門所受的思考限制才是更
    多的.

        尤其是我從 1996 開始接觸所謂的 Information
    Retrieval 的資訊獲取的一些想法與技術時, 其中有
    一支就是我現在投入最深的 Data Mining (資料探勘).

        而在當時的教科書中, 有一半的方法都是在統計
    學上著墨, 我也跟著相信統計學的更上層存在一種可
    能解與方法, 所以我研究所花了不少去念多變量, 時
    間序列等等的學科.

        當然在 199X 最熱門的兩個題目, 一個是 Fuzzy
    (模糊數學), 一個是 Nerual Network (類神經網路),
    而我也很相信這可能是答案.
     
        只是開始實作時, 我發現這些方法雖然是合理的,
    但卻發現事實上問題都不在這邊, 而是其他技術面與
    人的政治面.

        這人的政治面有時最麻煩的不是其他人, 而是唸
    統計或唸行銷的人, 對所謂資料探勘有既成的印像,
    而這邊我在之前的文章有說過了.

        所以我才刻意說出幾種說法:

    1. 資料探勘是一種逆行銷, 不以行銷者的觀點作出
       發, 而是從消費者為中心出發.

    2. 資料探勘與統計相違背, 因為統計學常有 "母體"
       或 "抽樣" 的假設, 但資料探勘是計算即時發生
       的所有行為.

        甚至我還很偏頗的說: 只要是 "抽樣", 只要是
    "一個時間區間", 那些是統計的說法, 不是資料探勘
    的範籌去做區隔.

        事實上只要是能夠 "挖掘" 出答案的就是好的方
    法, 而何必去管是否是資料探勘或不是呢? 只是常面
    對一些令我不知如何挑戰, 我都會心理很阿 Q 的如
    此滴咕著.

        因為與其是區分何謂資料探勘或不是, 來判別甚
    麼是好的方法還是壞的方法, 還不如去探討質性與量
    化的研究優缺點, 這是很無聊的事, 甚至事實上這些
    說不定都比不上神秘經驗.

        但的確所謂的 "即時性" 及 "完整性" 是資料探
    勘與一般統計學常用的立論基礎是不一樣的, 甚至我
    都開玩笑的說: "統計學不是從數學分支, 因為數學
    家不認為這是合理的", 相較之下說不定: "資料探勘
    不是從統計分支, 因為統計學家都不認為這是合理的".

        當我悟出這道理後, 我更發現從一些理論物理/
    量子力學, 數值方法/演算法, 發現一些更另我吃驚
    的結果, 甚至發現原來我原本想要從統計學去趨近是
    錯誤的, 這些是工具, 但最後往往不是路逕.

        有一天我跟某 Cxh 聊說, 只要給我 20M 到 50M,
    我可以有 80% 以上的準確度來預測股市, 而來讓那
    些明嘴打嘴巴, 他說我這句話讓他心有所種感悟後,
    我發現或許要打敗所謂金錢遊戲, 或許我該下場讓那
    些機制運作失效.

        所以我在想有沒有可能是用 500K 到 2M 來作一
    些初步的運算, 而且是立即可用的, 不是那種只是我
    現在的空口說話而已, 但就我的 Priority 而言, 這
    個大概還很遠吧,  甚至是現在跟本沒必要去想這個.
    
        但為甚麼會這樣想與說呢? 以後再說好了.

    *2

    [連結]

    1. 事後諸葛這個模型
http://www.ithome.com.tw/plog/index.php?op=ViewArticle&articleId=9622&blogId=410

    2. 購買機率與相似度
       http://blog.yam.com/genehong/article/6345472

    3. 不只是捷運日記 的 資料探勘分類
       http://blog.roodo.com/genehong/archives/cat_170471.html

    [TAG]資料探勘, DataMining,  

    *********************************************

    *1
        05/14/07 02:26 pm, 過竹圍準備到關渡, 看完
    二手 Upapaer, 但只是紙張是二手, 內容無所謂二手,
    因為大都是三四手以上了.

    *2
        05/14/07 02:58 pm, 已經到古亭站了, 也來不
    及說了.
相簿設定
標籤設定
相簿狀態