~歡迎企業洽談包班需求 ~
「大數據/人工智慧」同步招生中 !!

一、課程緣起：

近年來，有大量的業學界學者專家投入大數據相關技術，根據Hadoop Summit 2015、CSDN 2014大數據技術大會等國外指標性論壇所討論的主軸，In-Memory技術已成為近期最熱門的大數據技術，而最為人熟知的是由加州柏克萊大學所發展的 BDAS ( Berkeley Data Analytics Stack )，其中從儲存、運算、資料檢索都利用了In-Memory 技術，提供優於MapReduce運算框架 10~100倍的效能。

隨著交友社群Facebook、電子論壇與媒體發達及智慧型手機的興起，人們交換訊息的方式大多從傳統的對話書寫，進而轉向透過手機或電腦進行電子訊息互動。而這些訊息資訊包羅萬象，量級也都很大，在各個領域都含有很大的潛在資訊與商機。

為了協助國內業界獲取並藉由開源大數據流處理平台(Hortonworks)處理這些訊息，資展國際特規畫「網路爬蟲與Spark大數據流處理實務」課程，本課程將由琢磨於資料的生、流、存、算環節，透過OpenSource進行網路資料擷取，進而如何使用大數據流處理技術(Kafka與Spark Streaming)來結構化與處理所取得的資料流。本課程將以實機實戰的方式，讓每位學員都能自行撰寫相關程式，並可在過程中了解各種可能面臨的狀況，增進學習效果，激盪出許多解決方案！

二、課程目標：

本課程教導學員能透過開源Library從網站、社群媒體、裝置獲取資訊，並能將非結構化資料轉換為結構化資料，交由Kafka訊息管理系統做統一管理，接著利用Spark Streaming進行大數據流的即時運算，並將結果予以應用。課程設計能使學員親身體驗資料串流的處理，並能從體驗中遭遇的問題，學習更多解決方案，加倍學習之效果。

三、課程特色：

本課程旨在建立即時串流資料處理系統，教導學員如何撰寫一網路爬蟲，以便於網站、社群API中獲取資料，並將接收到的非結構資料，快速透過工具進行結構化解析。解析後的資料如何介接到訊息處理叢集Kafka，最後利用Spark Streaming進行大數據流處理與應用。讓參訓學員瞭解正確的觀念與方法，課程重點在於透過採體驗式教學方式的實作，學員能夠學習如何透過開源工具Hortonworks快速搭建大數據流分析叢集，並能在平台上實際演練大數據操作與分析，以從體驗中驗證課程所學。課程會以Spark核心技術，與串流處理技術Spark Streaming 結合第三方串流平台(Kafka、Socket等)為課程主軸，學員可以學習到如何即時處理大量串流資料，並透過Spark相關核心工具與機器學習技術加以分析出結果，讓資料會說話！

四、適合對象：

對於雲端運算之大量資料處理、分析、應用有興趣者
資料科學家、資料工程師
IT經理或系統網路部門主管
專案經理、系統架構師或系統網路管理人員
企業或技術決策人員

五、上課時間：

9:00-17:00，14小時，共兩天

六、課程大綱：

課程單元	課程內容	時數
課程環境準備	· 課程VM環境準備與設定	14
資料流獲取	· 網頁爬蟲實戰技術 · 網頁結構化解析技術 · 社群媒體資料擷取技術(Facebook、Ptt、Mobile01等實作) · Socket 資料流獲取技術 ( 網路層基礎Socket Server實作)
Spark 技術回顧	· Spark Batch處理技術
Kafka與Spark Streaming技術實作	· Spark Streaming DStream 方法介紹與實作 · Kafka 訊息管理系統介紹與實作 · Spark Streaming資料流與Kafka介接技術
綜合實戰練習	· 開源中文斷詞Library使用 · PTT八卦版即時關鍵字訊息流獲取系統實作

*課程執行單位保留調整課程內容、日程與講師之權利

網路爬蟲與Spark大數據流處理實務

課程介紹

~歡迎企業洽談包班需求 ~
「大數據/人工智慧」同步招生中 !!

一、課程緣起：

二、課程目標：

三、課程特色：

四、適合對象：

五、上課時間：

六、課程大綱：

報名課程資訊

尚無開課

常見問題

尚無開課

課程項目

服務內容

資展國際

網路爬蟲與Spark大數據流處理實務

課程介紹

~歡迎企業洽談包班需求 ~「大數據/人工智慧」 同步招生中 !!

一、課程緣起：

二、課程目標：

三、課程特色：

四、適合對象：

五、上課時間：

六、課程大綱：

報名課程資訊

尚無開課

常見問題

尚無開課

~歡迎企業洽談包班需求 ~
「大數據/人工智慧」同步招生中 !!