2016 Elasticsearch Event

週五參加了 Elasticsearch Event 於華山文創 Elasticsearch(簡稱ES),是最近幾年火紅的Search Engine,由於他的方便性(可用Docker快速部署)、高效能、完整的生態圈,被廣泛的使用在Data ingestion, Data storage部分。 ES採用 Lucene 作為核心,優勢在於各種彈性的搜尋語法與 inverted index 架構,提供高效能的搜尋,最新 Lucene 6.0 內建 BM25 關聯度模型,提供更準確的搜尋結果。 每年也舉辦 Elastic{ON} 會議,吸引來自全球各地的開發者,發表最新的技術應用。 回到這次ES Event,主要重點在介紹Elasticsearch的使用情境部分: HTC Challenge: app dev 集中化的issue追蹤方式 App -> module -> function -> … 等執行路徑追蹤 take care of user experience 每個功能對使用者的優先順序 使用者從登入到登出做了什麼事 每個行為花了多久 prevent issue proactively 服務是否正在惡化 trouble shooting quickly 集中化管理 auto …

2016 AWS Summit Taipei

AWS Simmit 首次辦在台灣,一整天的免費議程,分成好幾個track,這次主要參加的是物聯網與大數據應用track 整天下來有幾個重點值得注意 AWS IOT 上圖為AWS IOT的架構示意圖,為這次大會的主軸之一,AWS提供一系列的服務,為接下來的互聯網浪潮提供完整的後端支援。 從這個架構圖中可以從中窺知AWS的設計理念,資料流從前端透過MQTT或HTTP等協定進到Device Gateway,主要處理訊息的單位是Rules Engine,負責判斷訊息內容決定下一步傳輸方向,再交由後端AWS Services像是EMR進行機器學習資料探勘的處理,或是Redshift進入資料倉儲中。 其中值得注意的是Device Shadows的機制,這是過去Web、API開發比較少見,設計的思維是為了避免device斷線,後端無法得知Device的狀態,於是提供一個shadow,存取溝通就如同跟device溝通一樣,開發者不必費心處理之間的同步問題,將會在開機後自動進行同步。 AWS Alexa 圖右為當天demo的Amazon Echo 當天的亮點之一是Amazon Echo,而重點不是在這個硬體,而是背後提供的Alexa語音助理,使用者串接不同的服務,透過語音的介面控制身邊的IOT設備,當場demo起來感覺相當成熟,令人不禁想到Iron Man中的Jarvis,相信離誕生已經不遠了。 這只是開始,目前Amazon Echo還只能支援英文,相信在不遠的將來也能跟Siri一樣支援中文。 Data Analysis 上圖為資料分析的流程,右方為資料分析的最後一里路,真正決定此資料分析是否有價值來自右方所解決的問題 圖中為使用AWS服務進行資料分析的範例,謹記一點,永遠都從最右方 Answers&Insights 開始,清楚定義欲解決的問題之後,從左方開始決定要收集什麼Data,根據這些Data特性,用什麼服務來儲存、分析預測、視覺化等等,AWS在當中提供許多的工具幫助資料科學家快速的進行實驗,而不必從頭建立環境。 不知道什麼需求該採用哪種服務嗎,可以參考上圖 這張投影片相當重要,再次重複了如何以一個資料的角度進行商業專案,一切都要與商業端接軌,清楚問對問題,再次確認是否有滿足商業需求,再回頭設計整個資料串流,並進行分析預測實驗。 最後,保持Agile,敏捷應對劇烈變化的商業需求。 (AWS IOT infra from https://paolopatierno.wordpress.com/2015/10/13/an-iot-platforms-match-microsoft-azure-iot-vs-amazon-aws-iot/)

Microsoft Cognitive Services – Great Application

今年2016 MS Build釋出了這段影片,相當令人感動,值得撥出時間細細品嚐 其中就是用到 Cognitive Services,如Face API, CV API,以往要花時間實作實驗的演算法現在只要呼叫API即可達到,相信未來物聯網會有更多的應用出現。而現在只是個開始,未來仍有許多技術問題要去解決,像是不同語言的問題(目前仍主要在英文)、在地化、不透過雲端在IOT Device上運算的效能(為避免斷線影響或是latency)等等… 相信技術問題終究會被解決,在背後技術越來越完備的情況下,我們是否有辦法創造更多貼近使用者的應用,讓更多人的生活變得更好呢?我相信這是Data Science一大目標,用更多生活中的資料讓這世界更美好,能夠幫助更多需要幫助的人們。

Cortana Intelligence Suite – BIG DATA Ingestion

Cortana Intelligence Suit 先前在Face API有稍微提到CIS (Cortana Intelligence Suite),當時主要研究的是在Intelligence下的Cognitive Services部分,現在回過頭來探討整個架構中資料汲取資料儲存的部分,分別是Information Management/Big Data Stores兩塊,這篇先聚焦在Information Management Information Management 這部分提供了三塊服務 Data Factory Data Catalog Event Hub Data Factory 中文可翻作資料工廠,顧名思義可以想像成一般工廠在處理加工物的行為,想像今天要製造可口可樂,一開始需要輸入可樂的原料、瓶子的原料等等,之後工廠進行可口可樂瓶的製造、可樂的製造,最後進行組裝將一瓶一瓶的可樂進行裝箱,送出到銷售端 Data Factory做的事情類似,INGEST步驟可消化來自不同的資料來源,進入的資料經過TRANSFORM&ANALYZE步驟,像是ETL轉換或是結構化資料等動作,最後PUBLISH步驟輸出到其他資料端進行資料儲存或是資料視覺化 Data Catalog 資料目錄服務是為了解決資料太多搜尋不易的問題而誕生的,幫助分析師、資料工程師、資料科學家等人員快速找到所需的資料,透過建立資料的Metadata讓整個資料集容易被存取 Event Hub Event Hub為了解決來自各種Device產生的海量資料(event)所產生的可擴充性資料服務,每秒可接收百萬筆的資料進入,再將此資料流導向不同的應用,例如即時資料串流分析或是批次型資料分析 針對不同資料流提供不同的設定,不管是資料流每秒產生event,或是每分鐘產生event,都能夠對這些資料串流客製化,正確接收,另外提供了HTTP或是Advanced Message Queuing Protocol (AMQP)的protocol或是Naive client滿足不同的平台。 更詳細設計可見Azure Event Hubs overview

Microsoft Cognitive Services – Face API tutorial

Cognitive Services Cognitive Services(原Project Oxford) 為整個 Cortana Intelligence Suite 的其中一環(Intelligence), 主要提供了電腦與周遭環境(大多是非結構化資料)間的橋樑,幫助開發者精確運用這些資料,開發智慧應用。 Cognitive Services 提供一系列API,分為五大方向 Vision Speech Knowledge Search Language Face API 進行人臉相關處理可以使用 Face API,目前為V1.0版本,共提供了以下幾類API Face Detection – 偵測性別, 年齡 Face Verification – 分辨是否同一人 Similar Face Searching – 找相近的人臉 Face Grouping – 人臉分群 Face Identification – 辨別是哪個人 API使用方式大同小異,以下將用 Face Detection API 當作例子 Get Key 至 https://www.microsoft.com/cognitive-services/ …

[筆記] 視訊訊號處理與深度學習應用

上週六參加了視訊訊號處理與深度學習應用課程, 主講人是陳維超博士 投影片如下,有興趣的人可以自行閱讀 http://www.slideshare.net/tw_dsconf/ss-61255961 這是堂相當有份量的課,主要分成幾大塊主題 (更完整可看p6的knowledge map),每個主題都值得大量時間仔細咀嚼吸收 CV基礎 多媒體資訊檢索 影像識別 (Visual Recognition) GPU OpenCV實作 其中OpenCV實作結合了PiBorg,運用簡單的內建function兜出了可以追蹤的物件轉彎的小汽車,從這小地方可以見到未來物聯網的無限可能性。 Image, Video是非結構資料(Unstructured data)的一種,而我們每天都在產生它,掌握這方面的處理相信是資料處理不可或缺的一環。

[筆記] 資料科學的第一堂課 – 資料團隊的建立

資料團隊的建立 三個出發方向:資訊,數學統計,該問題領域 專精兩項很少 個人特質: 細心 溝通能力 富創意 好的成員可以耳濡目染學習其他面向 好的領導者可以把不同面向的成員組合起來 最小團隊組成 PM Data Scientist Data Engineer * 2 Visual Designer 最小工作平台 command-line tools can be 235x faster than your hadoop cluster most of time, workstation + R/Python is enough Except: deep learning – 十億筆 Its not how much data you process, how much insight you analysis …

[筆記] 資料科學的第一堂課 – 什麼是資料科學

陳昇瑋 課前閱讀: 台灣資料科學教父:好奇心比程式能力重要 (今周刊) http://www.appledaily.com.tw/realtimenews/article/new/20151029/721370/ Gogolook 怎麼快速累積新台幣 5.29 億的價值?專訪中研院陳昇瑋談「如何培養資料科學家」 http://buzzorange.com/techorange/2013/12/30/interview-with-data-scientist/ 投影片 http://www.slideshare.net/swchen11/ss-52517363 為什麼介紹這門課程? "Let’s solve this problem by using the BIG DATA none of use have the slightest idea what to do with" 因著BIG DATA名詞的流行,想跟上資料分析的浪潮,但往往卻不知到該怎麼做。 定義Science 與 Data Science Science 科學性的方法,可以反覆驗證被檢驗 Data Science 從資料中獲取知識的科學性方法 為什麼學資料科學? 資料科學是工具,幫助我們去更好更快速拿到知識的方法 Data Science是從數學,統計開始發展的領域,包含Pattern Recognition, Data Mining, Machine Learning, AI, Neural …