[筆記] 資料科學的第一堂課 – 資料團隊的建立

資料團隊的建立
  • 三個出發方向:資訊,數學統計,該問題領域
    • 專精兩項很少
  • 個人特質:
    • 細心
    • 溝通能力
    • 富創意
  • 好的成員可以耳濡目染學習其他面向
  • 好的領導者可以把不同面向的成員組合起來
  • 最小團隊組成
    • PM
    • Data Scientist
    • Data Engineer * 2
    • Visual Designer
最小工作平台
  • command-line tools can be 235x faster than your hadoop cluster
  • most of time, workstation + R/Python is enough
  • Except: deep learning – 十億筆
  • Its not how much data you process, how much insight you analysis is key
  • BIG DATA, BIG MODEL往往不是重點
資料必須是一等公民
  • 資料不只是debug用途
  • 資料收集, 保存, 提供也是系統規格的一部份
  • 資料團隊在第一代就必須進行檢視log, 定義資料收集spec
讓資料成為企業資產,非部門資產
  • 所有資料由單一團隊統一管理
  • 資料團隊為戰略編組,高層火力支援
  • 提高資料重要性層級
永遠從簡單的資料分析開始
  • 複雜的model都是由簡單的開始
  • draft zero, end to end 做好再慢慢refine
企業導入資料科學團隊具有一定難度
  • 涉及paradigm shift
  • 經驗 -> 測量
  • 定義 -> 探索
  • 私有 -> 開放

Leave a comment

Your email address will not be published. Required fields are marked *