Blog – Chin-Hui Chen

AI (Deep Learning) 2017 五大預測

今天細讀 MIT Technology Review 的 AI 2017 年預測，主要提到五點趨勢，摘錄如下：

增強式學習

2016 年是 Deep Reinforcement Learning 大放異彩的一年，從年初 AlphaGo 打敗李世石 (Lee Sedol) 到年底 Master 以全勝之姿擊敗各方好手，顯示人類在某些智能問題上，可藉由與機器合作達到更好的成果。許多研究單位釋出開源專案（Project Malmo, DeepMind Lab, Universe），以加速這方面研究進展。預期 2017 將會帶出更多令人興奮的研究結果。

生成對抗神經網路

2016 年底的 NIPS (Neural Information Processing Systems) 會議中，GAN (Generative Adversarial Networks)^[1] 受到研究者們大量關注。由 Ian Goodfellow 在 2014 年提出雙模型框架，藉由此框架可以產生非常真實的虛擬資料，被許多學者視為是通往非監督式學習的一線曙光。2017 將可預見更多此方向的研究發表。

中國 AI 企業崛起

中國公司不再只是拷貝西方企業，而轉向累積自身機器學習、深度學習的技術深度。最著名例子就是百度建立的百度大腦部門，邀請到 Stanford 教授 Andrew Ng 擔任首席科學家，另外騰訊、滴滴也正在建立 AI 部門，到頂尖會議挖角。民間各方熱錢正往中國新創企業注入，政府單位也預計注資 15B 進行人工智慧的研發，可以預見 2017 將會是中國 AI 新創產業蓬勃發展（或是泡沫？！）的一年。

自然語言

深度學習應用在語音辨識與影像辨識的突破，有希望在自然語言的分析產生帶來更進階的發展（parse and generate language）。

（CH：這段其實沒講什麼，對自然語言方面較少研究，不清楚所謂的進階結果是什麼，個人推測是 generative model）

削減過熱的 AI 現象

2016 NIPS 發生一件令人憤怒又好笑的事情，一間名為 RockAI^[2] 的人工智慧公司在某天召開晚宴，邀請許多頂尖實驗室與業界人士參加，提供豪華的餐點，由牛津大學 Dr. Anders Sandberg 教授給予 keynote 演說，先前沒人聽過這間 RockAI 公司，經過一晚，該公司估值竟達到 10M 以上，有五位 VC 接洽有意願進行投資。

rockai ^[3]

隔天才發現，這是一間假的 AI 公司，並沒有產品，也沒有所謂專利 Temporally Recurrent Optimal Learning，只是取其縮寫 TROLL，用來嘲諷 AI 熱潮，更多細節可見此篇。

這個事件凸顯現今過熱的 AI 現象（亂象），許多公司只要有提到 Deep Learning for X、Reinforcement Learning for X 就會有投資人捧著大把鈔票進行投資，泡泡越吹越大，估值也瘋狂飆升，這樣亂象的後果可能歷史重演，引發再一次的 AI 泡沫化。2017 預期會有一些小泡泡破滅，希望能適當削減過熱的 AI 現象，對於整個產業未嘗不是一件好事。

和沛事件學習

最近的大事莫過和沛裁員事件，身為和沛的一員有幸參與其中，也算是給剛出社會人們很好的一堂課，在此先不論網路上傳得沸沸揚揚八卦謠言，僅從事件中提出個人的學習心得：

隨時預備好自己

什麼樣的工作，都可能一夜之間消失，僅是機率問題。在這動盪的日子，隨時要有尋找下一份工作的準備。特別是最近台灣有瘋創業的一窩蜂浪潮，套句冰與火之歌格言，凜冬將至，屆時市場投資人緊縮，將可能帶來一波寒冬。為預備變化莫測的未來，在每天工作中必須時時預備自己，可以從幾個方向來思考：

工作態度 – 品格品信，這些評價是從每天大小事情中不斷累積，世界很小，永遠不知道面試你的是否是朋友的朋友
工作成長 – 每天都要檢視自己在工作上是否有所成長，還只是重複過去經驗？突然需提出過去半年工作上的成長時，是否一片空白？
工作積累 – Resume, LinkedIn 定期更新維護是有價值的，一方面定時回顧學習歷程，另一方面增加自身的可視度。

思考自己的位置

隨時要思考自己在團隊中可帶來的價值，扮演的角色是否關鍵？亦或是可有可無？當資金有限的時候，是否就是想要留住的那一群人之一？生於憂患，死於安樂，當慶幸自己每天工作可以逛網站沒有壓力時，可能就要思考下一個會不會是你。

反過來，每天持續努力精進自己各種能力（硬實力與軟實力還有正確價值觀）是非常非常重要的，許多團隊都在積極找對的人加入重要的位置，呼應第一點，每天把自己準備好，機會是一直都在的。

創業非兒戲

創業為世界上風險最高的活動之一，根據統計[^2]矽谷創業成功的公司約千分之一，大多數都在三至五年後結束營業，能撐十年的公司只剩千分之一，也因此創投被稱為 Venture Captical (VC)，Venture: 冒險/風險。

創業並非兒戲，目前台灣有過度美化創業的現象，從過去沒有人想創業，到現在許多人瘋創業，這是好事，然而物極必反，一窩瘋的結果一定會出現下一波的寒冬，大多數新創開始經歷創業的死亡低谷，這才是檢驗領導人決心，考驗團隊的 commitment 的時間點。新創不是很酷很屌，可以自己印名片自稱 CEO, CTO，它意味著更多的責任與挑戰，不再是領薪水五點就下班的員工，而是時時刻刻都要思考著公司未來，一肩扛起外來的挑戰與內部的質疑。也正因為創業如此艱難，才會使許多人拼了命去挑戰吧。

台灣需要更多企業提供工作機會

也真實體會到一間企業的縮編或是消失，減少許多的工作機會，每個工作背後可能是代表一個家庭的重要支柱，這也是先前創新創業課堂上，陳良基老師不斷強調的重要觀念，台大人不應該只是找一個工作而是要去為這個社會創造工作，這觀念一直銘記在心，直到現在真正遇到體會更加深刻。

許多新創公司（如Appier, Livehouse, Hahow 等等）都是在前線打仗承擔成功失敗責任而有能力提供更多的工作機會，台灣未來短中期狀況不會太好，在新的軟體產業世界上並仍沒有顯著的一席之地，目前台灣仍然在轉型中，期許自己未來回國後更加成長，實力更加堅強，能夠進行創業或是加入新創，台灣需要更多的新的軟體企業提供工作機會，並且在世界的戰場上佔有一席之地。

為公司聘請第一位CAO (Chief AI Officer)

前陣子拜讀 Andrew Ng 於 Harvard Business Review 發表 Hiring Your First Chief AI Officer 一文，建議花些時間品味，在這新一波工業革命浪潮，需要的新思維。節錄重點如下：

百年前，因電力誕生，改變無數產業；二十年前，網際網路誕生，帶來產業的革命；如今，歷史重演，AI (Deep Learning) 將扮演相同角色。
過去為了處理複雜電力問題，每間公司會聘請領域專家，進行總體規劃。網路時代亦是，可看見許多公司設置 CIO 進行 IT 設施規劃。事實上，許多 S&P 前 500 大希望在更早階段就建設 IT，先行者現今都佔有網路優勢。
對於那些正在產生巨大資料量的公司，建議現在開始佈局 AI，也就是深度學習，透過相關技術，巨量資料將可轉化成 Value。（CH：這正是透過數據建立 barrier 的機會）
佈局 AI，從設立獨立部門開始，有二個好處：
- 吸引 AI 人才，維持一定標準：比起在禮品部附設 AI，在獨立核心部門工作更讓人嚮往。
- 跨部門合作：部門專家將可進入不同 BU 協助 AI 技術導入。
AI 部門需要對的人來領導，以下是作者在 Google, Stanford, Baidu經驗談：
- 了解 AI 與資料工程：除了深度學習，在新 AI 時代，智慧由數據驅動，背後的大數據架構實務上相對重要。（CH：資料科學與資料工程的合作）
- 跨領域合作：AI 本身非產品，需與其他部門合作才能產生價值，因此，跨部門合作能力是關鍵。
- 內部創業精神：結合 AI 的產品可能前所未見，領導者必須以創業家思維思考問題。
- 吸引 AI 人才：偉大的事需要集眾人之力完成，如何吸引並且留住好人才是領導者最重要的特質。

真實世界的SAI

相信看過棋靈王的都知道，裡面有個傳說中的角色SAI，在線上圍棋軟體擊敗眾高手，未嘗敗績，人人紛紛議論，到底誰是SAI？相同的情景也在現實中發生了，最近2017年初這幾天，圍棋界發生了一件大事件，一位名不經傳的人物（Master）紛紛打敗中日韓職業頂尖棋手，短短3天（1/2-1/4）就創下了60勝1和（唯一和局是因為斷線）的成績，大家紛紛都在問，Master，你是誰？

對弈的最後，結果揭曉^[1]，正是在2016年3月份打敗李世乭的AlphaGo新版，代為執子的是黃士傑博士，如同棋靈王中的SAI與近藤光角色，AlphaGo進行運算，由黃博士放子。

在此節錄^[2]^[3]一些選手對弈後的心得：

棋聖聶衛平對紛紛締造「不敗障礙」的圍棋AI表示：「Master改變了我們傳統的厚薄理念，顛覆了多年的定式。」「這只能說明，圍棋遠不像我們想象的那麼簡單，還有巨大的空間等著我們人類去挖掘，AlphaGo也好，Master也罷，都是『圍棋上帝』派來給人類引路的。」
當世排名第一的柯潔則在微博寫道：「我從3月份開始到現在研究了大半年的棋軟，無數次的理論、實踐，就是想知道計算機究竟強在哪裡。昨晚輾轉反側，不想竟一夜無眠。人類數千年的實戰演練進化，計算機卻告訴我們人類全都是錯的。我覺得，甚至沒有一個人沾到圍棋真理的邊。」但柯潔也說：「從現在開始，我們棋手將會結合計算機，邁進全新的領域達到全新的境界。新的風暴即將來襲，我將盡我所有的智慧終極一戰！」

個人認為這是劃時代的一刻，可比AlphaGo對於李世乭有過之而不及，為什麼，在此提出兩個觀點：

正式進入人類與AI(Deep learning)合作的時代，以過去歷史為例，在起重機發明前，人們需要大力士的存在進行搬運工作，然而當機器出現後，再強的大力士也不上一台起重機，這樣的情境同樣出現在現代，再高段的圍棋高手，也是比不上深度與增強學習的計算量與決策精度。在未來的其他應用情境中，人類將轉變成近藤光的角色，複雜的智慧決策由電腦進行，人類扮演再確認的角色，透過 AI 業餘棋士將有機會與職業棋士同場競技。甚至有可能藉由電腦來訓練人類的能力，如同與AlphaGo對戰來訓練棋手。
這只是個開始，可能會引發重大事件。未來越來越多的應用會如雨後春筍般冒出，小則手機，大則影響到國家安全的戰略規劃，試想像未來出現人工智慧戰略專家，透過大量增強式學習後，沒有人能打敗它的戰略，若這樣的技術落入恐怖份子手中會引發什麼危機？事實上，正有人在研究StarCraft遊戲上的戰略規劃並釋出對應的開源框架。

有幸誕生在這個年代，可以同時間同步追蹤各種科學上的新發現，特別是機器學習/深度學習，每每觀看都令人興奮不已，期許自己在未來可以不只是旁觀者，更是親身參與其中。

看不見的價值

美國辛辛那提大學(University ofCincinnoti)特聘教授, 美國白宮顧問李傑曾經在數位時代報導(2016.07.11)中講述：

『新科技誕生前就是一片漆黑，不要總是等著別人為你點燈

然而他也觀察到，在長期的代工發展下，台灣許多企業面臨的問題是，「你不跟我要，我就不會開發。」在他看來，台灣企業怕犯錯、怕吃虧、怕受傷。然而，「黑黑的地方不敢去，但亮的地方每個人都去了。」他直言，台灣企業總希望先有個燈給你，偏偏很多新科技誕生前就是一片漆黑。』

『而要想學會如何主動找出「看不見的價值」，或許李傑的「真、善、美」理論可以作為參考。他所謂「真」，指得是要做自己相信的事。「如果你的思想都不是真的，只是跟著別人走，就不會有顧客思維。」；而從顧客端去解決問題，讓顧客的價值更好，就是「善」；如此一來，最後得到的市場自然就會是「美」的。』

個人認為這篇的思維非常值得這一代的年輕台灣人去學習，台灣過去的黃金歲月已經逝去，光靠接單代工由別人告訴你要做什麼的時代已經過去了，未來變動只會越來越劇烈，需求（接單）可能一夕之間消失，一間公司/國家的生計可能一瞬間陷入危機，要能夠長久存活，只有靠不斷的觀察、思考趨勢大局勢，不斷發掘新的需求去應對每天在變的動態環境才是長遠之計，然而這個能力無法速成，只有自身出發每天訓練腦袋思考對需求的敏銳度才有可能培養起來。

深度學習計算晶片之戰

整理各家廠商的思維：

Intel的思維是從CPU角度出發，在CPU加入多處理核心，科學計算不需經過主機板到GPU
NVIDIA的思維是從GPU角度出發，科學計算專注在GPU上
Google的思維是從tensorflow角度出發，專門設計為tensorflow計算用的晶片
百度深度學習採用NV晶片，不過這也合理，現況(2016)跑Deep Learning除了NV cuda還沒聽說有其他選擇
未來可專注重點：Intel Xeon Phi系列與NV Tesla系列

英特爾為了追趕英偉達（NVIDIA）與谷歌在人工智慧晶片上的布局，決定在2017年公布代號Knights Mill的下一代Xeon Phi處理器家族，主攻深度學習與人工智慧應用市場。這晶片將採用10奈米製程製造，積極搶奪英偉達的市場。

英偉達發展深度學習應用已有多年時間。因此，現今百度在人工智慧與深度學習的晶片就是採用英偉達的技術。可是隨著英特爾即將投入人工智慧晶片，百度也現身在英特爾開發者論壇，並與英特爾進行合作。至於未來百度會用英偉達還是英特爾的深度學習與人工智慧晶片，就只能看情勢發展如何才做出定奪了！原來Xeon處理器家族是瞄準科學類應用，隨著新型號Xeon Phi將引入人工智慧運算任務的功能，將帶給深度學習正面的幫助。其實目前在語音識別、圖像識別，以及自動駕駛汽車等領域，深度學習技術正得到愈來愈多的應用。

以現今情況來看，英特爾當初讓Xeon處理器強攻數據中心伺服器，也獲得廣泛部署，甚至所有深度學習運算有關的任務也採用這一處理器。不過，隨著人工智慧的不斷前進，有些廠商也開始部署用於人工智慧任務的輔助處理器，而這些輔助處理器大多是來自於英偉達的繪圖處理器。

為了不讓英偉達的繪圖處理器成為未來人工智慧輔助處理器的核心，英特爾決定在標準Xeon處理器上增加更多處理核心來處理深度學習該有的一些指令級，因而Xeon Phi產品線就誕生了。

此外，Xeon Phi晶片能夠運行大部分數據分析軟體，同時無需用到可能導致分析速度放緩的外部處理器，這也是英特爾主打的關鍵優勢，畢竟，其搭配更多快閃記憶體，能夠比起繪圖處理器還要更高性能。

可是英偉達畢竟在深度學習應用已經開發很久，2016年4月5日，該公司公佈了最新款的專門用於人工智慧研究領域的Tesla P100圖形處理晶片，認為其最新晶元的處理速度仍會遠遠強於英特爾的技術，將為這款GPU的研發投入了20億美元。短時間之內，英特爾依舊會遇到挑戰，就如同英偉達在高階桌上型電腦依舊具備主導能力一樣。

這也是為什麼英特爾於2016年8月收購新創公司Nervana Systems。因為該公司專注於深度學習晶元和軟體，這對於Xeon Phi處理器有一定的幫助。

另外，谷歌也正在發展其人工智慧晶片Tensor Processing Unit，採用最適合谷歌深度學習的軟體TensorFlow。這也是英特爾未來必須面臨的挑戰。

原文來自科技產業資訊室 Source

SIGKDD 2016 survey

Paper list

http://www.kdd.org/kdd2016/program/accepted-papers

Some interesting topics:

APPLIED DATA SCIENCE TRACK

RESEARCH TRACK

“Why Should I Trust you?” Explaining the Predictions of Any Classifier

Google TPU (Tensorflow Processing Unit)

http://www.ithome.com.tw/news/106042

Google分散式硬體工程師Norm Jouppi指出，機器學習是許多Google應用的基礎，從街景服務、Google Inbox智慧回覆到語音搜尋，目前已有超過100個Google團隊使用機器學習技術，然而，好的軟體必須搭配好的硬體，因此Google在多年前便著手展開秘密專案，自行打造適用於機器學習的客製化加速器。

值得注意的是文中提到有超過100個Google團隊正在使用Tensorflow相關的技術，Google內部往往是新時代技術的早期採用者（從Cloud Computing, Big Table等例子可以看出），相信未來這100個團隊會轉化成100甚至更多的機器學習需求，分佈在各大公司內部或是無數個新創公司中，相信這是個不可逆的趨勢，未來需求會如此龐大，另外Google內部已經開始使用TPU作為Tensorflow服務的背後運算單元，代表有這些軟體需求的公司會更需要用TPU或是未來出現的技術來進行巨量的機器學習運算。

補充：http://www.ithome.com.tw/news/105099

Google從2012年初開始在內部專案中使用機器學習技術，2014年擁抱機器學習的專案量更快速成長，至今超過1,500個內部專案採用，除了AlphaGo以外，還有地圖服務、相片服務、Gmail、語音辨識、Android、YouTube、翻譯、機器人研究、自然語言研究、醫藥研發等專案。

https://read01.com/xOzPEz.html

谷歌需要利用深度學習技術的產品/領域：
安卓，Apps，藥物發現，谷歌郵箱，圖像理解，地圖，自然語言，圖片，機器人，語音翻譯，等等。

深度學習能應用於如此完全不同的項目的原因是他們涉及相同的基石，這些基石可用於不同的領域：語音、文本、搜索查詢、圖像、視頻、標籤、實體(一種特定的軟體模塊)、文字、音頻特性。

2016 Elasticsearch Event

週五參加了 Elasticsearch Event 於華山文創

Elasticsearch（簡稱ES），是最近幾年火紅的Search Engine，由於他的方便性（可用Docker快速部署）、高效能、完整的生態圈，被廣泛的使用在Data ingestion, Data storage部分。

ES採用 Lucene 作為核心，優勢在於各種彈性的搜尋語法與 inverted index 架構，提供高效能的搜尋，最新 Lucene 6.0 內建 BM25 關聯度模型，提供更準確的搜尋結果。

每年也舉辦 Elastic{ON} 會議，吸引來自全球各地的開發者，發表最新的技術應用。

回到這次ES Event，主要重點在介紹Elasticsearch的使用情境部分：

HTC

Challenge:

app dev
- 集中化的issue追蹤方式
- App -> module -> function -> … 等執行路徑追蹤
take care of user experience
- 每個功能對使用者的優先順序
- 使用者從登入到登出做了什麼事
- 每個行為花了多久
prevent issue proactively
- 服務是否正在惡化
trouble shooting quickly
- 集中化管理
- auto scaling後可能機器被回收或是docker執行完log就消失

It should be simple with little effort.

結合docker架構如下

分析流程

值得注意的是Promotion&Support的部分，這是之前比較少接觸的面向，公司一個新工具的導入背後需要一個團隊負責support/training/promote，如此一來才有可能被廣泛的使用。

參考Log格式

PIC 統一資訊

統一資訊提供的服務

Log收集架構圖

其中Kafka Cluster是 publish subscriber 的服務，在資料量大的時候可做為一層buffer

LogLoop

未來2020年資料量將成長三倍以上

ELK高效能大數據分析系統

應用一：G&D海量驗鈔系統

應用二：智能腳踏車

ES + Hadoop

ES 提供Hadoop的整合，有了Hadoop的工具協助，能夠滿足更多資料分析需求

Q&A：

Q: Android平台是否有收集系統Log的agent可使用？
A: 可參考beats, 一種lightweight的log shipper。

Q: 如何快速收集網頁上的使用者點擊行為？
Q: 試著收集access log，每筆record會有自己的網頁路徑，如此便可知道使用者點擊行為。

2016 AWS Summit Taipei

AWS Simmit 首次辦在台灣，一整天的免費議程，分成好幾個track，這次主要參加的是物聯網與大數據應用track

整天下來有幾個重點值得注意

AWS IOT

上圖為AWS IOT的架構示意圖，為這次大會的主軸之一，AWS提供一系列的服務，為接下來的互聯網浪潮提供完整的後端支援。

從這個架構圖中可以從中窺知AWS的設計理念，資料流從前端透過MQTT或HTTP等協定進到Device Gateway，主要處理訊息的單位是Rules Engine，負責判斷訊息內容決定下一步傳輸方向，再交由後端AWS Services像是EMR進行機器學習資料探勘的處理，或是Redshift進入資料倉儲中。

其中值得注意的是Device Shadows的機制，這是過去Web、API開發比較少見，設計的思維是為了避免device斷線，後端無法得知Device的狀態，於是提供一個shadow，存取溝通就如同跟device溝通一樣，開發者不必費心處理之間的同步問題，將會在開機後自動進行同步。

AWS Alexa

圖右為當天demo的Amazon Echo

當天的亮點之一是Amazon Echo，而重點不是在這個硬體，而是背後提供的Alexa語音助理，使用者串接不同的服務，透過語音的介面控制身邊的IOT設備，當場demo起來感覺相當成熟，令人不禁想到Iron Man中的Jarvis，相信離誕生已經不遠了。

這只是開始，目前Amazon Echo還只能支援英文，相信在不遠的將來也能跟Siri一樣支援中文。

Data Analysis

上圖為資料分析的流程，右方為資料分析的最後一里路，真正決定此資料分析是否有價值來自右方所解決的問題

圖中為使用AWS服務進行資料分析的範例，謹記一點，永遠都從最右方 Answers&Insights 開始，清楚定義欲解決的問題之後，從左方開始決定要收集什麼Data，根據這些Data特性，用什麼服務來儲存、分析預測、視覺化等等，AWS在當中提供許多的工具幫助資料科學家快速的進行實驗，而不必從頭建立環境。

不知道什麼需求該採用哪種服務嗎，可以參考上圖

這張投影片相當重要，再次重複了如何以一個資料的角度進行商業專案，一切都要與商業端接軌，清楚問對問題，再次確認是否有滿足商業需求，再回頭設計整個資料串流，並進行分析預測實驗。

最後，保持Agile，敏捷應對劇烈變化的商業需求。

(AWS IOT infra from https://paolopatierno.wordpress.com/2015/10/13/an-iot-platforms-match-microsoft-azure-iot-vs-amazon-aws-iot/)