dongogo@gmail.com – Page 2 – Chin-Hui Chen

Microsoft Cognitive Services – Great Application

今年2016 MS Build釋出了這段影片，相當令人感動，值得撥出時間細細品嚐其中就是用到 Cognitive Services，如Face API, CV API，以往要花時間實作實驗的演算法現在只要呼叫API即可達到，相信未來物聯網會有更多的應用出現。而現在只是個開始，未來仍有許多技術問題要去解決，像是不同語言的問題（目前仍主要在英文）、在地化、不透過雲端在IOT Device上運算的效能（為避免斷線影響或是latency）等等… 相信技術問題終究會被解決，在背後技術越來越完備的情況下，我們是否有辦法創造更多貼近使用者的應用，讓更多人的生活變得更好呢？我相信這是Data Science一大目標，用更多生活中的資料讓這世界更美好，能夠幫助更多需要幫助的人們。

Cortana Intelligence Suite – BIG DATA Ingestion

Cortana Intelligence Suit 先前在Face API有稍微提到CIS (Cortana Intelligence Suite)，當時主要研究的是在Intelligence下的Cognitive Services部分，現在回過頭來探討整個架構中資料汲取資料儲存的部分，分別是Information Management/Big Data Stores兩塊，這篇先聚焦在Information Management Information Management 這部分提供了三塊服務 Data Factory Data Catalog Event Hub Data Factory 中文可翻作資料工廠，顧名思義可以想像成一般工廠在處理加工物的行為，想像今天要製造可口可樂，一開始需要輸入可樂的原料、瓶子的原料等等，之後工廠進行可口可樂瓶的製造、可樂的製造，最後進行組裝將一瓶一瓶的可樂進行裝箱，送出到銷售端 Data Factory做的事情類似，INGEST步驟可消化來自不同的資料來源，進入的資料經過TRANSFORM&ANALYZE步驟，像是ETL轉換或是結構化資料等動作，最後PUBLISH步驟輸出到其他資料端進行資料儲存或是資料視覺化 Data Catalog 資料目錄服務是為了解決資料太多搜尋不易的問題而誕生的，幫助分析師、資料工程師、資料科學家等人員快速找到所需的資料，透過建立資料的Metadata讓整個資料集容易被存取 Event Hub Event Hub為了解決來自各種Device產生的海量資料(event)所產生的可擴充性資料服務，每秒可接收百萬筆的資料進入，再將此資料流導向不同的應用，例如即時資料串流分析或是批次型資料分析針對不同資料流提供不同的設定，不管是資料流每秒產生event，或是每分鐘產生event，都能夠對這些資料串流客製化，正確接收，另外提供了HTTP或是Advanced Message Queuing Protocol (AMQP)的protocol或是Naive client滿足不同的平台。更詳細設計可見Azure Event Hubs overview

Microsoft Cognitive Services – Face API tutorial

Cognitive Services Cognitive Services(原Project Oxford) 為整個 Cortana Intelligence Suite 的其中一環（Intelligence），主要提供了電腦與周遭環境（大多是非結構化資料）間的橋樑，幫助開發者精確運用這些資料，開發智慧應用。 Cognitive Services 提供一系列API，分為五大方向 Vision Speech Knowledge Search Language Face API 進行人臉相關處理可以使用 Face API，目前為V1.0版本，共提供了以下幾類API Face Detection – 偵測性別, 年齡 Face Verification – 分辨是否同一人 Similar Face Searching – 找相近的人臉 Face Grouping – 人臉分群 Face Identification – 辨別是哪個人 API使用方式大同小異，以下將用 Face Detection API 當作例子 Get Key 至 https://www.microsoft.com/cognitive-services/ …

Continue reading “Microsoft Cognitive Services – Face API tutorial”

葉奇鑫 x 好奇心

今天和沛科技內部讀書會社團舉辦了葉奇鑫x好奇心座談會葉奇鑫是和沛現任的營運長，曾跨法律電商雲端領域，擁有相當獨特的經歷特別邀請來與我們分享一路上的心得任何法律都是有道理的營運長提到過去念法律的時候，短短三四年就從完全不懂到雙榜錄取其中的秘訣在於理解去找出每條法律背被背設計出來的原因，背後一定有道理試著去找出來去理解它，去懂它而不是背誦如此一來久了不容易忘，在不同的情境下也會懂得變通學會用商業角度思考營運長分享過去電商的一次經驗當時資料量大到無法每筆資料都做索引(indexing)，導致資料庫停止運作，網站因此停擺若修復需花半年時間，然而這是個營運中且成長中的網站怎麼可能說停就停？於是想到折衷的辦法，只取最新的資料做索引，太舊的資料就放棄了從技術的角度是完全不被接受的，因為有一大半資料並沒有被索引被可搜尋但是在商業上卻是個可營運的產品，而且使用者是可以接受的很多時候從技術角度與商業角度看是兩回事，看這產品還不是100%沒有問題，但是從商業角度看已經是可成為產品，大多數使用者已能夠接受從中學到理工背景出身的人，思維要翻轉，看事情角度要試著用商業端的思維思考，結果也許會完全不同玩你的工作營運長同時也分享為什麼他在各領域工作都能成功的秘訣秘訣在於玩你的工作，是否有喜歡上你現在的工作每天上班只是在數日子還有幾天放假嗎？如果有這樣的現象是不可能做到最好的只是在應付這份工作而已，真正喜歡的工作你連下班的時候也會去思考營運長說過去在電商幾乎很少放假，甚至在網站成長的兩年間沒有出國過為什麼？因為每天的工作都是樂趣，自然做事就會用心，用心的結果自然會有人發覺

[筆記] 視訊訊號處理與深度學習應用

上週六參加了視訊訊號處理與深度學習應用課程，主講人是陳維超博士投影片如下，有興趣的人可以自行閱讀 http://www.slideshare.net/tw_dsconf/ss-61255961 這是堂相當有份量的課，主要分成幾大塊主題（更完整可看p6的knowledge map），每個主題都值得大量時間仔細咀嚼吸收 CV基礎多媒體資訊檢索影像識別 (Visual Recognition) GPU OpenCV實作其中OpenCV實作結合了PiBorg，運用簡單的內建function兜出了可以追蹤的物件轉彎的小汽車，從這小地方可以見到未來物聯網的無限可能性。 Image, Video是非結構資料(Unstructured data)的一種，而我們每天都在產生它，掌握這方面的處理相信是資料處理不可或缺的一環。

[翻譯] 如何修復 MariaDB Galera Cluster

Intro 這篇原是寫在Percona XtraDB Cluster的情境，但大多數情況可以套用在MySQL+Galera組合，不管來自Codership, MariaDB Galera Cluster或你自己的build。目前經過筆者的測試，在MariaDB Galera Cluster是符合的。假設cluster中，有節點A, B, C。模擬在不同節點停止的情境下，如何修復正常。(圖片請參閱原文) 情境1 節點A正常停止。像是為了系統維護或是更改環境設定等等，此時正常關掉節點A。在這情況下，其他節點會收到通知，因此會自動更新設定值，如cluster大小，quorum的計算方式等等。一旦我們重啟節點A, 就會自動加入回cluster。這新加入的節點會等資料都同步完成後才開始服務。同步方式：由writeset cache(gcache.size)資料決定，若要同步的資料都在此cache中，則會執行IST(Incremental State Transfers)，較輕量且快速。若不是，則會執行SST(State Snapshot Transfer)，將完整的binary data snapshot複製到節點A。情境2 節點A, B正常停止。此時cluster大小為1。此時節點C為primary component，可以正常服務。要將其他節點加入回cluster，就只要重啟即可。同步方式：節點C切換至 "Donor/Desynced" 模式，提供最後的狀態給第一個加入節點 (State Transfer)。有些負載平衡器 (Load Balancer) 會移除Donor模式的節點，所以應避免一個節點的情況。重啟A, B節點時，由於gcache可能還存在該機器中，為了避免節點B使用到節點A的gcache，需設定這兩台的Donor為節點C service mysql start –wsrep_sst_donor=nodeC 情境3 節點A, B, C正常停止。這時候Cluster已經失效，所有節點已經停止，需要重新啟動Ｃluster。重新啟動需要由最後關機的機器開始，確保資料的完整性。從grastate.dat檔案可以得知，比較seqno，最大者的為最後關機的機器。使用下列指令啟動Cluster service mysql start –wsrep_new_cluster …

Continue reading “[翻譯] 如何修復 MariaDB Galera Cluster”

[筆記] 安裝MariaDB Galera Cluster

簡介 MariaDB Galera Cluster是基於MariaDB系統下的叢集架構 (以下將以Cluster稱之)，採用Multi Master設計，在Cluster中每個節點都可以作為Master進行讀寫動作。（注意：現在只支援 InnoDB/XtraDB storage engine。）相較於傳統Master Slave設計 (例如MySQL Cluster) 提供的讀寫分離，Multi Master可以更彈性的規劃節點數量，加入新的節點而不影響現有規劃。更能夠搭配 MariaDB MaxScale 提供HA, content routing, querying logging等服務。安裝與設定假設現在有三台機器要組成Cluster，資訊分別如下 NodeA 10.10.0.230 NodeB 10.10.0.231 NodeC 10.10.0.232 安裝以 ubuntu 14.04 為例 (其他版本請用這頁選擇 source list) 加入source list sudo apt-get install software-properties-common sudo apt-key adv –recv-keys –keyserver hkp://keyserver.ubuntu.com:80 0xcbcb082a1bb943db sudo add-apt-repository ‘deb …

Continue reading “[筆記] 安裝MariaDB Galera Cluster”

[筆記] 資料科學的第一堂課 – 資料團隊的建立

資料團隊的建立三個出發方向：資訊，數學統計，該問題領域專精兩項很少個人特質：細心溝通能力富創意好的成員可以耳濡目染學習其他面向好的領導者可以把不同面向的成員組合起來最小團隊組成 PM Data Scientist Data Engineer * 2 Visual Designer 最小工作平台 command-line tools can be 235x faster than your hadoop cluster most of time, workstation + R/Python is enough Except: deep learning – 十億筆 Its not how much data you process, how much insight you analysis …

Continue reading “[筆記] 資料科學的第一堂課 – 資料團隊的建立”

[筆記] 資料科學的第一堂課 – 什麼是資料科學

陳昇瑋課前閱讀：台灣資料科學教父：好奇心比程式能力重要 (今周刊) http://www.appledaily.com.tw/realtimenews/article/new/20151029/721370/ Gogolook 怎麼快速累積新台幣 5.29 億的價值？專訪中研院陳昇瑋談「如何培養資料科學家」 http://buzzorange.com/techorange/2013/12/30/interview-with-data-scientist/ 投影片 http://www.slideshare.net/swchen11/ss-52517363 為什麼介紹這門課程？ "Let’s solve this problem by using the BIG DATA none of use have the slightest idea what to do with" 因著BIG DATA名詞的流行，想跟上資料分析的浪潮，但往往卻不知到該怎麼做。定義Science 與 Data Science Science 科學性的方法，可以反覆驗證被檢驗 Data Science 從資料中獲取知識的科學性方法為什麼學資料科學？資料科學是工具，幫助我們去更好更快速拿到知識的方法 Data Science是從數學，統計開始發展的領域，包含Pattern Recognition, Data Mining, Machine Learning, AI, Neural …

Continue reading “[筆記] 資料科學的第一堂課 – 什麼是資料科學”

[筆記] DSC2015共筆

DSC2015共筆 https://t.co/eT8u72TR4E 推薦場次主題演講 / 為什麼大資料是生死課題？(車品覺) 主題演講 / Evolution of Big Data Frameworks (林清詠) Learning for Big Data (林軒田) 開放×資料 (唐鳳)