[筆記] 資料科學的第一堂課 – 什麼是資料科學

陳昇瑋

課前閱讀:

台灣資料科學教父:好奇心比程式能力重要 (今周刊)
http://www.appledaily.com.tw/realtimenews/article/new/20151029/721370/

Gogolook 怎麼快速累積新台幣 5.29 億的價值?專訪中研院陳昇瑋談「如何培養資料科學家」
http://buzzorange.com/techorange/2013/12/30/interview-with-data-scientist/

投影片

http://www.slideshare.net/swchen11/ss-52517363

為什麼介紹這門課程?
"Let’s solve this problem by using the BIG DATA none of use have the slightest idea what to do with"

因著BIG DATA名詞的流行,想跟上資料分析的浪潮,但往往卻不知到該怎麼做。

定義Science 與 Data Science

Science
科學性的方法,可以反覆驗證被檢驗

Data Science
從資料中獲取知識的科學性方法

為什麼學資料科學?

資料科學是工具,幫助我們去更好更快速拿到知識的方法

Data Science是從數學,統計開始發展的領域,包含Pattern Recognition, Data Mining, Machine Learning, AI, Neural Networks, EDA, …

值得注意的一點:Big Data是DS的subset, 只有在符合某種條件下的資料,才算是Big Data

DS範例:
Street2shop, ICCV 2015

美國台灣做個人化車險, 藉由量測駕駛行為估計保費, 對個人省保費, 保險公司更能精算保費, 資料回饋到售車公司 三贏

台灣過去注重硬體, 很少做軟體, 普遍對資料的敏感度較低

HIPPO-driven to data-driven

為什麼資料科學很紅?
  • BIG DATA符合下列任一條件
    • Volume: 多大叫做大?
      • 傳統方法無法處理: E.g. mysql: 超過10TB就會非常慢, r,python: 超過1T
      • 資料儲存 / 資料分析
    • Velocity
      • 資料量輸入越來越快
      • 傳統資料是batch模式, 現在real time需求在某些情況更重要
    • Variety
      • 多樣性的資料帶來價值 (異質性)
        • 牛肉麵店 + 氣溫
        • twitter + 地震
      • 多樣性在格式上面 (computer vision/video, image)
      • Target’s Pregnancy Index (2012 個人化DM) 台灣目前還沒看過, 還停在很粗淺的敘述統計
  • Data Discovery
    • BI vs Data Discovery
      • BI: 企業本來就知道的問題 + 企業大概知道的答案 = 報表 (Data Analyst)
        • 智慧在於人的腦袋
      • DD: 企業不知道的問題 + 不知道的答案 (Data Scientist)
        • 先用資料來回答 問題在哪裡?
        • 難在於有能力列出假設
        • 還需要創意, 商業分析, 等等…

Relation -> NoSQL(Relation不能用時, 或是需要快速寫入) -> Hadoop(50TB)

靈魂人物:資料科學家

門檻高

  • 技能
    • 數學統計
    • 程式能力
    • Domain Knowledge+Soft skills
    • 溝通能力/視覺化能力
  • 心態
    • 好奇心強
    • 創意
    • 科學性做事方法

Leave a comment

Your email address will not be published. Required fields are marked *