Cortana Intelligence Suite – BIG DATA Ingestion

Cortana Intelligence Suit

Cortana Intelligence Suite

先前在Face API有稍微提到CIS (Cortana Intelligence Suite),當時主要研究的是在Intelligence下的Cognitive Services部分,現在回過頭來探討整個架構中資料汲取資料儲存的部分,分別是Information Management/Big Data Stores兩塊,這篇先聚焦在Information Management

Information Management

這部分提供了三塊服務

  • Data Factory
  • Data Catalog
  • Event Hub
Data Factory

Data Factory

中文可翻作資料工廠,顧名思義可以想像成一般工廠在處理加工物的行為,想像今天要製造可口可樂,一開始需要輸入可樂的原料、瓶子的原料等等,之後工廠進行可口可樂瓶的製造、可樂的製造,最後進行組裝將一瓶一瓶的可樂進行裝箱,送出到銷售端

Data Factory做的事情類似,INGEST步驟可消化來自不同的資料來源,進入的資料經過TRANSFORM&ANALYZE步驟,像是ETL轉換或是結構化資料等動作,最後PUBLISH步驟輸出到其他資料端進行資料儲存或是資料視覺化

Data Catalog

資料目錄服務是為了解決資料太多搜尋不易的問題而誕生的,幫助分析師、資料工程師、資料科學家等人員快速找到所需的資料,透過建立資料的Metadata讓整個資料集容易被存取

Event Hub

Event Hub為了解決來自各種Device產生的海量資料(event)所產生的可擴充性資料服務,每秒可接收百萬筆的資料進入,再將此資料流導向不同的應用,例如即時資料串流分析或是批次型資料分析

針對不同資料流提供不同的設定,不管是資料流每秒產生event,或是每分鐘產生event,都能夠對這些資料串流客製化,正確接收,另外提供了HTTP或是Advanced Message Queuing Protocol (AMQP)的protocol或是Naive client滿足不同的平台。

更詳細設計可見Azure Event Hubs overview

Leave a comment

Your email address will not be published. Required fields are marked *