data science – Chin-Hui Chen

2016 Elasticsearch Event

週五參加了 Elasticsearch Event 於華山文創 Elasticsearch（簡稱ES），是最近幾年火紅的Search Engine，由於他的方便性（可用Docker快速部署）、高效能、完整的生態圈，被廣泛的使用在Data ingestion, Data storage部分。 ES採用 Lucene 作為核心，優勢在於各種彈性的搜尋語法與 inverted index 架構，提供高效能的搜尋，最新 Lucene 6.0 內建 BM25 關聯度模型，提供更準確的搜尋結果。每年也舉辦 Elastic{ON} 會議，吸引來自全球各地的開發者，發表最新的技術應用。回到這次ES Event，主要重點在介紹Elasticsearch的使用情境部分： HTC Challenge: app dev 集中化的issue追蹤方式 App -> module -> function -> … 等執行路徑追蹤 take care of user experience 每個功能對使用者的優先順序使用者從登入到登出做了什麼事每個行為花了多久 prevent issue proactively 服務是否正在惡化 trouble shooting quickly 集中化管理 auto …

Continue reading “2016 Elasticsearch Event”

2016 AWS Summit Taipei

AWS Simmit 首次辦在台灣，一整天的免費議程，分成好幾個track，這次主要參加的是物聯網與大數據應用track 整天下來有幾個重點值得注意 AWS IOT 上圖為AWS IOT的架構示意圖，為這次大會的主軸之一，AWS提供一系列的服務，為接下來的互聯網浪潮提供完整的後端支援。從這個架構圖中可以從中窺知AWS的設計理念，資料流從前端透過MQTT或HTTP等協定進到Device Gateway，主要處理訊息的單位是Rules Engine，負責判斷訊息內容決定下一步傳輸方向，再交由後端AWS Services像是EMR進行機器學習資料探勘的處理，或是Redshift進入資料倉儲中。其中值得注意的是Device Shadows的機制，這是過去Web、API開發比較少見，設計的思維是為了避免device斷線，後端無法得知Device的狀態，於是提供一個shadow，存取溝通就如同跟device溝通一樣，開發者不必費心處理之間的同步問題，將會在開機後自動進行同步。 AWS Alexa 圖右為當天demo的Amazon Echo 當天的亮點之一是Amazon Echo，而重點不是在這個硬體，而是背後提供的Alexa語音助理，使用者串接不同的服務，透過語音的介面控制身邊的IOT設備，當場demo起來感覺相當成熟，令人不禁想到Iron Man中的Jarvis，相信離誕生已經不遠了。這只是開始，目前Amazon Echo還只能支援英文，相信在不遠的將來也能跟Siri一樣支援中文。 Data Analysis 上圖為資料分析的流程，右方為資料分析的最後一里路，真正決定此資料分析是否有價值來自右方所解決的問題圖中為使用AWS服務進行資料分析的範例，謹記一點，永遠都從最右方 Answers&Insights 開始，清楚定義欲解決的問題之後，從左方開始決定要收集什麼Data，根據這些Data特性，用什麼服務來儲存、分析預測、視覺化等等，AWS在當中提供許多的工具幫助資料科學家快速的進行實驗，而不必從頭建立環境。不知道什麼需求該採用哪種服務嗎，可以參考上圖這張投影片相當重要，再次重複了如何以一個資料的角度進行商業專案，一切都要與商業端接軌，清楚問對問題，再次確認是否有滿足商業需求，再回頭設計整個資料串流，並進行分析預測實驗。最後，保持Agile，敏捷應對劇烈變化的商業需求。 (AWS IOT infra from https://paolopatierno.wordpress.com/2015/10/13/an-iot-platforms-match-microsoft-azure-iot-vs-amazon-aws-iot/)

Microsoft Cognitive Services – Great Application

今年2016 MS Build釋出了這段影片，相當令人感動，值得撥出時間細細品嚐其中就是用到 Cognitive Services，如Face API, CV API，以往要花時間實作實驗的演算法現在只要呼叫API即可達到，相信未來物聯網會有更多的應用出現。而現在只是個開始，未來仍有許多技術問題要去解決，像是不同語言的問題（目前仍主要在英文）、在地化、不透過雲端在IOT Device上運算的效能（為避免斷線影響或是latency）等等… 相信技術問題終究會被解決，在背後技術越來越完備的情況下，我們是否有辦法創造更多貼近使用者的應用，讓更多人的生活變得更好呢？我相信這是Data Science一大目標，用更多生活中的資料讓這世界更美好，能夠幫助更多需要幫助的人們。

Cortana Intelligence Suite – BIG DATA Ingestion

Cortana Intelligence Suit 先前在Face API有稍微提到CIS (Cortana Intelligence Suite)，當時主要研究的是在Intelligence下的Cognitive Services部分，現在回過頭來探討整個架構中資料汲取資料儲存的部分，分別是Information Management/Big Data Stores兩塊，這篇先聚焦在Information Management Information Management 這部分提供了三塊服務 Data Factory Data Catalog Event Hub Data Factory 中文可翻作資料工廠，顧名思義可以想像成一般工廠在處理加工物的行為，想像今天要製造可口可樂，一開始需要輸入可樂的原料、瓶子的原料等等，之後工廠進行可口可樂瓶的製造、可樂的製造，最後進行組裝將一瓶一瓶的可樂進行裝箱，送出到銷售端 Data Factory做的事情類似，INGEST步驟可消化來自不同的資料來源，進入的資料經過TRANSFORM&ANALYZE步驟，像是ETL轉換或是結構化資料等動作，最後PUBLISH步驟輸出到其他資料端進行資料儲存或是資料視覺化 Data Catalog 資料目錄服務是為了解決資料太多搜尋不易的問題而誕生的，幫助分析師、資料工程師、資料科學家等人員快速找到所需的資料，透過建立資料的Metadata讓整個資料集容易被存取 Event Hub Event Hub為了解決來自各種Device產生的海量資料(event)所產生的可擴充性資料服務，每秒可接收百萬筆的資料進入，再將此資料流導向不同的應用，例如即時資料串流分析或是批次型資料分析針對不同資料流提供不同的設定，不管是資料流每秒產生event，或是每分鐘產生event，都能夠對這些資料串流客製化，正確接收，另外提供了HTTP或是Advanced Message Queuing Protocol (AMQP)的protocol或是Naive client滿足不同的平台。更詳細設計可見Azure Event Hubs overview

Microsoft Cognitive Services – Face API tutorial

Cognitive Services Cognitive Services(原Project Oxford) 為整個 Cortana Intelligence Suite 的其中一環（Intelligence），主要提供了電腦與周遭環境（大多是非結構化資料）間的橋樑，幫助開發者精確運用這些資料，開發智慧應用。 Cognitive Services 提供一系列API，分為五大方向 Vision Speech Knowledge Search Language Face API 進行人臉相關處理可以使用 Face API，目前為V1.0版本，共提供了以下幾類API Face Detection – 偵測性別, 年齡 Face Verification – 分辨是否同一人 Similar Face Searching – 找相近的人臉 Face Grouping – 人臉分群 Face Identification – 辨別是哪個人 API使用方式大同小異，以下將用 Face Detection API 當作例子 Get Key 至 https://www.microsoft.com/cognitive-services/ …

Continue reading “Microsoft Cognitive Services – Face API tutorial”

[筆記] 視訊訊號處理與深度學習應用

上週六參加了視訊訊號處理與深度學習應用課程，主講人是陳維超博士投影片如下，有興趣的人可以自行閱讀 http://www.slideshare.net/tw_dsconf/ss-61255961 這是堂相當有份量的課，主要分成幾大塊主題（更完整可看p6的knowledge map），每個主題都值得大量時間仔細咀嚼吸收 CV基礎多媒體資訊檢索影像識別 (Visual Recognition) GPU OpenCV實作其中OpenCV實作結合了PiBorg，運用簡單的內建function兜出了可以追蹤的物件轉彎的小汽車，從這小地方可以見到未來物聯網的無限可能性。 Image, Video是非結構資料(Unstructured data)的一種，而我們每天都在產生它，掌握這方面的處理相信是資料處理不可或缺的一環。

[筆記] 資料科學的第一堂課 – 資料團隊的建立

資料團隊的建立三個出發方向：資訊，數學統計，該問題領域專精兩項很少個人特質：細心溝通能力富創意好的成員可以耳濡目染學習其他面向好的領導者可以把不同面向的成員組合起來最小團隊組成 PM Data Scientist Data Engineer * 2 Visual Designer 最小工作平台 command-line tools can be 235x faster than your hadoop cluster most of time, workstation + R/Python is enough Except: deep learning – 十億筆 Its not how much data you process, how much insight you analysis …

Continue reading “[筆記] 資料科學的第一堂課 – 資料團隊的建立”

[筆記] 資料科學的第一堂課 – 什麼是資料科學

陳昇瑋課前閱讀：台灣資料科學教父：好奇心比程式能力重要 (今周刊) http://www.appledaily.com.tw/realtimenews/article/new/20151029/721370/ Gogolook 怎麼快速累積新台幣 5.29 億的價值？專訪中研院陳昇瑋談「如何培養資料科學家」 http://buzzorange.com/techorange/2013/12/30/interview-with-data-scientist/ 投影片 http://www.slideshare.net/swchen11/ss-52517363 為什麼介紹這門課程？ "Let’s solve this problem by using the BIG DATA none of use have the slightest idea what to do with" 因著BIG DATA名詞的流行，想跟上資料分析的浪潮，但往往卻不知到該怎麼做。定義Science 與 Data Science Science 科學性的方法，可以反覆驗證被檢驗 Data Science 從資料中獲取知識的科學性方法為什麼學資料科學？資料科學是工具，幫助我們去更好更快速拿到知識的方法 Data Science是從數學，統計開始發展的領域，包含Pattern Recognition, Data Mining, Machine Learning, AI, Neural …

Continue reading “[筆記] 資料科學的第一堂課 – 什麼是資料科學”

[筆記] DSC2015共筆

DSC2015共筆 https://t.co/eT8u72TR4E 推薦場次主題演講 / 為什麼大資料是生死課題？(車品覺) 主題演講 / Evolution of Big Data Frameworks (林清詠) Learning for Big Data (林軒田) 開放×資料 (唐鳳)