只是捷運日記

關於部落格
在[食夢黑貘] 的 [捷運日記]外, 還有甚麼呢?



  • 105260

    累積人氣

  • 0

    今日人氣

    0

    訂閱人氣

資料探勘實用是因為小技術

    *1

        昨天我在跟 anny 講說我當時是怎麼設計一套預
    測系統的, 事實上我本來以為一些大的進化與改變是
    很重要的, 但在回溯之前寫的程式時, 發現一些看似
    不怎樣的小技巧確是影響很大的東西.
    
        一個簡單的外插法, 由與取樣的方式就會有很大
    的變化, 當時只是一個很簡單的預測當日業積, 我就
    用當日來計算, 但一下子就發現一個很大的問題:
    "當一天開始的時候, 此時的樣本就太少".
    
        當樣本太少的時候, 這些樣本的小小變化就會造
    成很大的變動, 所以每次要到下午 2:00 到 4:00 時
    才會收斂到近乎直線.
    
        在第二次改版時, 我就想說保持 24 小時的樣本,
    而當時已經引進我當時所想的最適經驗法則, 只是因
    為為了要計算那個是最適經驗時, 就要做很多中間表,
    且為了要保持 24 小時的樣本數, 可讓中間表膨漲很
    大且並沒有提高準確度.
    
        事實上當時的問題不在這個, 而是我發現最適解
    本身因為每次計算可能都不一樣, 因此結果也是跳來
    跳去, 而我嘗試著用各種平均也找不到答案, 所以最
    後是畫出了兩個曲線, 一條叫做: "好像還沒那麼終極
    的終極預測", 以及 "希望會好一點的終極預測".
    
        看這兩個名字就知道, 這是一個失敗的案子, 雖
    然我對於所謂的最適經驗法則有信心, 但最大的問題
    就是取樣的方式以及最後結果的計算.
    
        而我在寫部落格觀察時, 此時就面臨一個更大的
    挑戰, 我要與預測不是一條曲線, 而是上萬條曲線,
    所以每次去展開樣本空間去做很多中間表是不可能的,
    我就用了一個欺騙的技巧.
    
        就是不去預測今天的點閱數, 而是用這兩天的資
    料與上週或平均的資料去預測這兩天的點閱數, 而由
    於昨天的點閱數是已知了, 自然剩下的就是今天的預
    測點閱數.
    
        這個小技巧使得建中間表變的更簡單, 且能夠保
    證不只是 24 小時的資料, 而是必然超過 24 小時的
    資料, 因此準確度自然提高了, 這也是我當時沒有想
    到的方式.
    
        當然這個也是說反正是個時間序列的曲線, 之前
    我過於強調 Sliding Window 的區間來看資料, 來算
    平均, 甚至也過於強調要保持這個這區間的大小寬度,
    反而在面對這個問題忘了取其中.
    
        接著就是最後算出來時, 要如何處理, 而之前一
    直知道若要解決乖離的資料, 必須要有某種 Data-
    Cleaning 的步驟, 但有時我也過於迷信資料存在必
    然有用, 不要放棄任何自由度.
    
        但事實上捨棄資料本身不見得會讓自由度變少,
    尤其是在這資料如何捨棄或化成某種機制, 此時才會
    在我當時說預測的區間可能是存在於中位數與平均值
    這個非常詭異的經驗論.
    
        只是我剛好遇到一個有趣的命題, 就是: "為甚麼
    部落格觀察死都要提供最終的綜合排行榜", 因此我也
    要擠出一個數字來做結果, 因此我嘗試著把中位數與
    與平均再取平均.
    
        但這個在理論上是完全沒有依據的, 所以我一直
    覺的不妥, 在某個睡夢中之前, 我想到了平均若是個
    面積的觀點, 為甚麼不用 Fuzzuy (模糊) 來去計算
    最終數字, 且能夠保持某種不會有乖離的現像呢?
    
        因此最後終於找到一個有趣的解答方式:
        
    1. 最適經驗法則
    2. 彈性的 Sliding Windows
    3. Fuzzy 的面積法
    
        這些這些都不是甚麼了不起的想法, 甚至是覺得
    相當合理且習以為常的東西, 但有時有趣的是如何兜
    在一起, 且兜在一起的動機與理由都是多變的, 幾乎
    都是在不同的環境與刺激出來的結果.
    
        所以該怎說呢? 我唯一會 Quote 的話是: "一個
    只是經濟學家的經濟學家, 絕不是一個好的經濟學家",
    此時的經濟學家可以換成任何領域的單一專家吧.

    *2
    
    [連結]
    
    1. Anny
       http://anny325.blogspot.com/
       
    2. 資料清理 (Data Cleaning)
       http://blog.roodo.com/genehong/archives/3649845.html
    
    3. 從業績預測開始(上)
       http://blog.yam.com/genehong/article/7613295
       
    4. 資料探勘所須的背景
       http://blog.yam.com/genehong/article/8195330
       
    [TAG]資料探勘, DataMining,     

    **********************************************

    *1
        2007/7/17 下午 01:25:20, 過忠義站, 嗯, 剩下
    20 分鐘可以寫了.
    
    *2    
        2007/7/17 下午 01:56:48, 坐在古亭站月台結尾.
相簿設定
標籤設定
相簿狀態