Skip to content
資料團隊的建立
- 三個出發方向:資訊,數學統計,該問題領域
- 個人特質:
- 好的成員可以耳濡目染學習其他面向
- 好的領導者可以把不同面向的成員組合起來
- 最小團隊組成
- PM
- Data Scientist
- Data Engineer * 2
- Visual Designer
最小工作平台
- command-line tools can be 235x faster than your hadoop cluster
- most of time, workstation + R/Python is enough
- Except: deep learning – 十億筆
- Its not how much data you process, how much insight you analysis is key
- BIG DATA, BIG MODEL往往不是重點
資料必須是一等公民
- 資料不只是debug用途
- 資料收集, 保存, 提供也是系統規格的一部份
- 資料團隊在第一代就必須進行檢視log, 定義資料收集spec
讓資料成為企業資產,非部門資產
- 所有資料由單一團隊統一管理
- 資料團隊為戰略編組,高層火力支援
- 提高資料重要性層級
永遠從簡單的資料分析開始
- 複雜的model都是由簡單的開始
- draft zero, end to end 做好再慢慢refine
企業導入資料科學團隊具有一定難度
- 涉及paradigm shift
- 經驗 -> 測量
- 定義 -> 探索
- 私有 -> 開放