只是捷運日記

關於部落格
在[食夢黑貘] 的 [捷運日記]外, 還有甚麼呢?



  • 105260

    累積人氣

  • 0

    今日人氣

    0

    訂閱人氣

資料清理 (Data Cleaning)


    *1

        在資料探勘的這個議題除了我們算出實際結果出來
    的這個範籌中, 事實上還有兩個很重要的領域, 一個是
    稱為 Data Presentation 的資料呈現, 及清除有問題
    資料的 Data Cleaning.
    
        而雖然我常說, 資料探勘與統計最不一樣的原因是
    樣本空間, 在資料探勘拿到的是所有的母體, 所以理論
    上不太會有錯誤的資料, 所以在資料清除這塊是意義最
    小的, 讓自由度保持最高反而是最好的, 所以不要放棄
    任何資料.
    
        但若牽涉到預測, 有時也是只有往一個大方向走去,
    所以在所謂的 Data Cleaning 的排除有問題的資料,
    最簡單的就是用平均, 有時我就會很懶墮的用平均數與
    中位數來做預測區間.
    
        在點閱數的外插法中, 最簡單的就是用五筆資料來
    找中位數與平均, 甚至擔心會有跳脫的數值時, 就取中
    間三筆來做平均就可以了, 而中位數本身就不用擔心所
    謂有問題資料所造成的 Noise (噪音).
    
        而我採取的樣本空間則是:
        
    1. 上週同期
    2. 七日移動平均
    3. 兩週前同期
    4. 昨天(或最適曲線)
    5. 上週平均(或同週最適曲線)
    
        只是所謂的最適曲線就是要經過選擇判斷的, 說真
    是很吃資源的, 而基本上就要做最佳化才能真的實用,
    所以說要短時間寫出來也沒那麼簡單.
    
        事實上我也不是沒算過所謂的最適曲線, 但當時用
    的是找到五條曲線做平均, 但因為這個五條的變化太大
    了, 所以到最後反而因為變動的離散太高, 因此在沒有
    人維護後就沒了.
    
        而當時發現的幾個問題:
        
    1. 若是每天重新取最新的樣本, 往往一天的開始會有樣
       本不足造成乖離太嚴重的現像, 所以應該放大樣本,
       例如包含昨天的樣本.
       
    2. 在取最適解的最佳化中, 就是做取樣的降冪, 例如是
       用 5 分鐘以下的取樣瀕率, 甚至最好是以計算週期
       做為取樣頻率.
       
    3. 當時並沒有做 Data Cleaning 的手續, 雖然若是用
       最適解的話, 事實上任何例外都是經驗, 但若非這種
       方式的話, 很容易造成資料扭曲到預測失準.
       
    *2
        
        但事實上 Data Cleaning 最困難的是要用甚麼方式
    去區隔所謂有問題的資料, 或只是樣本數不足罷了, 甚
    至若是會發生這樣的限象, 必然是一個因子, 在經驗上
    的重覆使用更不應該排除.
    
        只是這個社會很習慣的看整體共同點, 基本上是放
    棄例外或比較突兀的數字, 當然到底要如何去面對這些
    數字又是另一個觀點.
    
        無論如何, 能夠更準確的預測所想要知道的東西,
    用甚麼奇怪的方法都是對的, 畢竟是數字去找人, 而不
    要人去配合這些數字, 只是人的行為是可以被預測的嗎?
    或許是說一個人較難預測, 但群體行為就可以嗎?
    
        這條路還很漫長, 所以這些形而上的社會影響與哲
    思還可以慢慢想, 但也不能不想.

    *3

    [連結]
    
    1. 事後諸葛這個模型
http://www.ithome.com.tw/plog/index.php?op=ViewArticle&articleId=9622&blogId=410

    2. 甚麼不是資料探勘?
       http://blog.yam.com/genehong/article/10571840
       
    3. 資料探勘所須的背景
       http://blog.roodo.com/genehong/archives/2728749.html

    4. 從業績預測開始(下)
       http://blog.roodo.com/genehong/archives/2656200.html
       
    [TAG]資料探勘, DataMining, DataCleaning, 預測
    
    ************************************************

    *1
        2007/7/12 下午 01:20:46, 也是因為等開機, 一
    直到竹圍才開始寫, 這種 Timestamp 用的是 Sony
    PCG-C1MZX 這台.
    
    *2
        2007/7/12 下午 01:55:41, 轉板南線, 繼續寫.
    
    *3    
        2007/7/12 下午 02:05:53, 過永春了, 就寫當這邊.
相簿設定
標籤設定
相簿狀態