陳昇瑋
課前閱讀:
台灣資料科學教父:好奇心比程式能力重要 (今周刊)
http://www.appledaily.com.tw/realtimenews/article/new/20151029/721370/
Gogolook 怎麼快速累積新台幣 5.29 億的價值?專訪中研院陳昇瑋談「如何培養資料科學家」
http://buzzorange.com/techorange/2013/12/30/interview-with-data-scientist/
投影片
http://www.slideshare.net/swchen11/ss-52517363
為什麼介紹這門課程?
"Let’s solve this problem by using the BIG DATA none of use have the slightest idea what to do with"
因著BIG DATA名詞的流行,想跟上資料分析的浪潮,但往往卻不知到該怎麼做。
定義Science 與 Data Science
Science
科學性的方法,可以反覆驗證被檢驗
Data Science
從資料中獲取知識的科學性方法
為什麼學資料科學?
資料科學是工具,幫助我們去更好更快速拿到知識的方法
Data Science是從數學,統計開始發展的領域,包含Pattern Recognition, Data Mining, Machine Learning, AI, Neural Networks, EDA, …
值得注意的一點:Big Data是DS的subset, 只有在符合某種條件下的資料,才算是Big Data
DS範例:
Street2shop, ICCV 2015
美國台灣做個人化車險, 藉由量測駕駛行為估計保費, 對個人省保費, 保險公司更能精算保費, 資料回饋到售車公司 三贏
台灣過去注重硬體, 很少做軟體, 普遍對資料的敏感度較低
HIPPO-driven to data-driven
為什麼資料科學很紅?
- BIG DATA符合下列任一條件
- Volume: 多大叫做大?
- 傳統方法無法處理: E.g. mysql: 超過10TB就會非常慢, r,python: 超過1T
- 資料儲存 / 資料分析
- Velocity
- 資料量輸入越來越快
- 傳統資料是batch模式, 現在real time需求在某些情況更重要
- Variety
- 多樣性的資料帶來價值 (異質性)
- 牛肉麵店 + 氣溫
- twitter + 地震
- 多樣性在格式上面 (computer vision/video, image)
- Target’s Pregnancy Index (2012 個人化DM) 台灣目前還沒看過, 還停在很粗淺的敘述統計
- 多樣性的資料帶來價值 (異質性)
- Volume: 多大叫做大?
- Data Discovery
- BI vs Data Discovery
- BI: 企業本來就知道的問題 + 企業大概知道的答案 = 報表 (Data Analyst)
- 智慧在於人的腦袋
- DD: 企業不知道的問題 + 不知道的答案 (Data Scientist)
- 先用資料來回答 問題在哪裡?
- 難在於有能力列出假設
- 還需要創意, 商業分析, 等等…
- BI: 企業本來就知道的問題 + 企業大概知道的答案 = 報表 (Data Analyst)
- BI vs Data Discovery
Relation -> NoSQL(Relation不能用時, 或是需要快速寫入) -> Hadoop(50TB)
靈魂人物:資料科學家
門檻高
- 技能
- 數學統計
- 程式能力
- Domain Knowledge+Soft skills
- 溝通能力/視覺化能力
- 心態
- 好奇心強
- 創意
- 科學性做事方法