Microsoft Cognitive Services – Great Application

今年2016 MS Build釋出了這段影片,相當令人感動,值得撥出時間細細品嚐 其中就是用到 Cognitive Services,如Face API, CV API,以往要花時間實作實驗的演算法現在只要呼叫API即可達到,相信未來物聯網會有更多的應用出現。而現在只是個開始,未來仍有許多技術問題要去解決,像是不同語言的問題(目前仍主要在英文)、在地化、不透過雲端在IOT Device上運算的效能(為避免斷線影響或是latency)等等… 相信技術問題終究會被解決,在背後技術越來越完備的情況下,我們是否有辦法創造更多貼近使用者的應用,讓更多人的生活變得更好呢?我相信這是Data Science一大目標,用更多生活中的資料讓這世界更美好,能夠幫助更多需要幫助的人們。

Cortana Intelligence Suite – BIG DATA Ingestion

Cortana Intelligence Suit 先前在Face API有稍微提到CIS (Cortana Intelligence Suite),當時主要研究的是在Intelligence下的Cognitive Services部分,現在回過頭來探討整個架構中資料汲取資料儲存的部分,分別是Information Management/Big Data Stores兩塊,這篇先聚焦在Information Management Information Management 這部分提供了三塊服務 Data Factory Data Catalog Event Hub Data Factory 中文可翻作資料工廠,顧名思義可以想像成一般工廠在處理加工物的行為,想像今天要製造可口可樂,一開始需要輸入可樂的原料、瓶子的原料等等,之後工廠進行可口可樂瓶的製造、可樂的製造,最後進行組裝將一瓶一瓶的可樂進行裝箱,送出到銷售端 Data Factory做的事情類似,INGEST步驟可消化來自不同的資料來源,進入的資料經過TRANSFORM&ANALYZE步驟,像是ETL轉換或是結構化資料等動作,最後PUBLISH步驟輸出到其他資料端進行資料儲存或是資料視覺化 Data Catalog 資料目錄服務是為了解決資料太多搜尋不易的問題而誕生的,幫助分析師、資料工程師、資料科學家等人員快速找到所需的資料,透過建立資料的Metadata讓整個資料集容易被存取 Event Hub Event Hub為了解決來自各種Device產生的海量資料(event)所產生的可擴充性資料服務,每秒可接收百萬筆的資料進入,再將此資料流導向不同的應用,例如即時資料串流分析或是批次型資料分析 針對不同資料流提供不同的設定,不管是資料流每秒產生event,或是每分鐘產生event,都能夠對這些資料串流客製化,正確接收,另外提供了HTTP或是Advanced Message Queuing Protocol (AMQP)的protocol或是Naive client滿足不同的平台。 更詳細設計可見Azure Event Hubs overview

Microsoft Cognitive Services – Face API tutorial

Cognitive Services Cognitive Services(原Project Oxford) 為整個 Cortana Intelligence Suite 的其中一環(Intelligence), 主要提供了電腦與周遭環境(大多是非結構化資料)間的橋樑,幫助開發者精確運用這些資料,開發智慧應用。 Cognitive Services 提供一系列API,分為五大方向 Vision Speech Knowledge Search Language Face API 進行人臉相關處理可以使用 Face API,目前為V1.0版本,共提供了以下幾類API Face Detection – 偵測性別, 年齡 Face Verification – 分辨是否同一人 Similar Face Searching – 找相近的人臉 Face Grouping – 人臉分群 Face Identification – 辨別是哪個人 API使用方式大同小異,以下將用 Face Detection API 當作例子 Get Key 至 https://www.microsoft.com/cognitive-services/ …

葉奇鑫 x 好奇心

今天和沛科技內部讀書會社團舉辦了葉奇鑫x好奇心座談會 葉奇鑫是和沛現任的營運長,曾跨法律電商雲端領域,擁有相當獨特的經歷 特別邀請來與我們分享一路上的心得 任何法律都是有道理的 營運長提到過去念法律的時候,短短三四年就從完全不懂到雙榜錄取 其中的秘訣在於理解 去找出每條法律背被背設計出來的原因,背後一定有道理 試著去找出來去理解它,去懂它而不是背誦 如此一來久了不容易忘,在不同的情境下也會懂得變通 學會用商業角度思考 營運長分享過去電商的一次經驗 當時資料量大到無法每筆資料都做索引(indexing),導致資料庫停止運作,網站因此停擺 若修復需花半年時間,然而這是個營運中且成長中的網站怎麼可能說停就停? 於是想到折衷的辦法,只取最新的資料做索引,太舊的資料就放棄了 從技術的角度是完全不被接受的,因為有一大半資料並沒有被索引被可搜尋 但是在商業上卻是個可營運的產品,而且使用者是可以接受的 很多時候從技術角度與商業角度看是兩回事,看這產品還不是100%沒有問題,但是從商業角度看已經是可成為產品,大多數使用者已能夠接受 從中學到理工背景出身的人,思維要翻轉,看事情角度要試著用商業端的思維思考,結果也許會完全不同 玩你的工作 營運長同時也分享為什麼他在各領域工作都能成功的秘訣 秘訣在於玩你的工作,是否有喜歡上你現在的工作 每天上班只是在數日子還有幾天放假嗎?如果有這樣的現象是不可能做到最好的 只是在應付這份工作而已,真正喜歡的工作你連下班的時候也會去思考 營運長說過去在電商幾乎很少放假,甚至在網站成長的兩年間沒有出國過 為什麼?因為每天的工作都是樂趣,自然做事就會用心,用心的結果自然會有人發覺

[筆記] 視訊訊號處理與深度學習應用

上週六參加了視訊訊號處理與深度學習應用課程, 主講人是陳維超博士 投影片如下,有興趣的人可以自行閱讀 http://www.slideshare.net/tw_dsconf/ss-61255961 這是堂相當有份量的課,主要分成幾大塊主題 (更完整可看p6的knowledge map),每個主題都值得大量時間仔細咀嚼吸收 CV基礎 多媒體資訊檢索 影像識別 (Visual Recognition) GPU OpenCV實作 其中OpenCV實作結合了PiBorg,運用簡單的內建function兜出了可以追蹤的物件轉彎的小汽車,從這小地方可以見到未來物聯網的無限可能性。 Image, Video是非結構資料(Unstructured data)的一種,而我們每天都在產生它,掌握這方面的處理相信是資料處理不可或缺的一環。

[翻譯] 如何修復 MariaDB Galera Cluster

Intro 這篇原是寫在Percona XtraDB Cluster的情境,但大多數情況可以套用在MySQL+Galera組合,不管來自Codership, MariaDB Galera Cluster或你自己的build。目前經過筆者的測試,在MariaDB Galera Cluster是符合的。 假設cluster中,有節點A, B, C。模擬在不同節點停止的情境下,如何修復正常。(圖片請參閱原文) 情境1 節點A正常停止。 像是為了系統維護或是更改環境設定等等,此時正常關掉節點A。在這情況下,其他節點會收到通知,因此會自動更新設定值,如cluster大 小,quorum的計算方式等等。一旦我們重啟節點A, 就會自動加入回cluster。這新加入的節點會等資料都同步完成後才開始服務。 同步方式:由writeset cache(gcache.size)資料決定,若要同步的資料都在此cache中,則會執行IST(Incremental State Transfers),較輕量且快速。若不是,則會執行SST(State Snapshot Transfer),將完整的binary data snapshot複製到節點A。 情境2 節點A, B正常停止。 此時cluster大小為1。此時節點C為primary component,可以正常服務。要將其他節點加入回cluster,就只要重啟即可。 同步方式: 節點C切換至 "Donor/Desynced" 模式,提供最後的狀態給第一個加入節點 (State Transfer)。有些負載平衡器 (Load Balancer) 會移除Donor模式的節點,所以應避免一個節點的情況。 重啟A, B節點時,由於gcache可能還存在該機器中,為了避免節點B使用到節點A的gcache,需設定這兩台的Donor為節點C service mysql start –wsrep_sst_donor=nodeC 情境3 節點A, B, C正常停止。 這時候Cluster已經失效,所有節點已經停止,需要重新啟動Cluster。重新啟動需要由最後關機的機器開始,確保資料的完整性。從grastate.dat檔案可以得知,比較seqno,最大者的為最後關機的機器。 使用下列指令啟動Cluster service mysql start –wsrep_new_cluster …

[筆記] 安裝MariaDB Galera Cluster

簡介 MariaDB Galera Cluster是基於MariaDB系統下的叢集架構 (以下將以Cluster稱之),採用Multi Master設計,在Cluster中每個節點都可以作為Master進行讀寫動作。(注意:現在只支援 InnoDB/XtraDB storage engine。) 相較於傳統Master Slave設計 (例如MySQL Cluster) 提供的讀寫分離,Multi Master可以更彈性的規劃節點數量,加入新的節點而不影響現有規劃。 更能夠搭配 MariaDB MaxScale 提供HA, content routing, querying logging等服務。 安裝與設定 假設現在有三台機器要組成Cluster,資訊分別如下 NodeA 10.10.0.230 NodeB 10.10.0.231 NodeC 10.10.0.232 安裝 以 ubuntu 14.04 為例 (其他版本請用這頁選擇 source list) 加入source list sudo apt-get install software-properties-common sudo apt-key adv –recv-keys –keyserver hkp://keyserver.ubuntu.com:80 0xcbcb082a1bb943db sudo add-apt-repository ‘deb …

[筆記] 資料科學的第一堂課 – 資料團隊的建立

資料團隊的建立 三個出發方向:資訊,數學統計,該問題領域 專精兩項很少 個人特質: 細心 溝通能力 富創意 好的成員可以耳濡目染學習其他面向 好的領導者可以把不同面向的成員組合起來 最小團隊組成 PM Data Scientist Data Engineer * 2 Visual Designer 最小工作平台 command-line tools can be 235x faster than your hadoop cluster most of time, workstation + R/Python is enough Except: deep learning – 十億筆 Its not how much data you process, how much insight you analysis …

[筆記] 資料科學的第一堂課 – 什麼是資料科學

陳昇瑋 課前閱讀: 台灣資料科學教父:好奇心比程式能力重要 (今周刊) http://www.appledaily.com.tw/realtimenews/article/new/20151029/721370/ Gogolook 怎麼快速累積新台幣 5.29 億的價值?專訪中研院陳昇瑋談「如何培養資料科學家」 http://buzzorange.com/techorange/2013/12/30/interview-with-data-scientist/ 投影片 http://www.slideshare.net/swchen11/ss-52517363 為什麼介紹這門課程? "Let’s solve this problem by using the BIG DATA none of use have the slightest idea what to do with" 因著BIG DATA名詞的流行,想跟上資料分析的浪潮,但往往卻不知到該怎麼做。 定義Science 與 Data Science Science 科學性的方法,可以反覆驗證被檢驗 Data Science 從資料中獲取知識的科學性方法 為什麼學資料科學? 資料科學是工具,幫助我們去更好更快速拿到知識的方法 Data Science是從數學,統計開始發展的領域,包含Pattern Recognition, Data Mining, Machine Learning, AI, Neural …