
~歡迎企業洽談包班需求 ~
「大數據/人工智慧」 同步招生中 !!
一、課程緣起:
近年來,有大量的業學界學者專家投入大數據相關技術,根據Hadoop Summit 2015、CSDN 2014大數據技術大會等國外指標性論壇所討論的主軸,In-Memory技術已成為近期最熱門的大數據技術,而最為人熟知的是由加州柏克萊大學所發展的 BDAS ( Berkeley Data Analytics Stack ),其中從儲存、運算、資料檢索都利用了In-Memory 技術,提供優於MapReduce運算框架 10~100倍的效能。
隨著交友社群Facebook、電子論壇與媒體發達及智慧型手機的興起,人們交換訊息的方式大多從傳統的對話書寫,進而轉向透過手機或電腦進行電子訊息互動。而這些訊息資訊包羅萬象,量級也都很大,在各個領域都含有很大的潛在資訊與商機。
為了協助國內業界獲取並藉由開源大數據流處理平台(Hortonworks)處理這些訊息,資展國際特規畫「網路爬蟲與Spark大數據流處理實務」課程,本課程將由琢磨於資料的生、流、存、算環節,透過OpenSource進行網路資料擷取,進而如何使用大數據流處理技術(Kafka與Spark Streaming)來結構化與處理所取得的資料流。本課程將以實機實戰的方式,讓每位學員都能自行撰寫相關程式,並可在過程中了解各種可能面臨的狀況,增進學習效果,激盪出許多解決方案!
二、課程目標:
本課程教導學員能透過開源Library從網站、社群媒體、裝置獲取資訊,並能將非結構化資料轉換為結構化資料,交由Kafka訊息管理系統做統一管理,接著利用Spark Streaming進行大數據流的即時運算,並將結果予以應用。課程設計能使學員親身體驗資料串流的處理,並能從體驗中遭遇的問題,學習更多解決方案,加倍學習之效果。
三、課程特色:
本課程旨在建立即時串流資料處理系統,教導學員如何撰寫一網路爬蟲,以便於網站、社群API中獲取資料,並將接收到的非結構資料,快速透過工具進行結構化解析。解析後的資料如何介接到訊息處理叢集Kafka,最後利用Spark Streaming進行大數據流處理與應用。讓參訓學員瞭解正確的觀念與方法,課程重點在於透過採體驗式教學方式的實作,學員能夠學習如何透過開源工具Hortonworks快速搭建大數據流分析叢集,並能在平台上實際演練大數據操作與分析,以從體驗中驗證課程所學。課程會以Spark核心技術,與串流處理技術Spark Streaming 結合第三方串流平台(Kafka、Socket等)為課程主軸,學員可以學習到如何即時處理大量串流資料,並透過Spark相關核心工具與機器學習技術加以分析出結果,讓資料會說話!
四、適合對象:
- 對於雲端運算之大量資料處理、分析、應用有興趣者
- 資料科學家、資料工程師
- IT經理或系統網路部門主管
- 專案經理、系統架構師或系統網路管理人員
- 企業或技術決策人員
五、上課時間:
9:00-17:00,14小時,共兩天
六、課程大綱:
| 課程單元 | 課程內容 | 時數 |
|---|---|---|
| 課程環境準備 | · 課程VM環境準備與設定 | 14 |
| 資料流獲取 | · 網頁爬蟲實戰技術 · 網頁結構化解析技術 · 社群媒體資料擷取技術(Facebook、Ptt、Mobile01等實作) · Socket 資料流獲取技術 ( 網路層基礎Socket Server實作) | |
| Spark 技術回顧 | · Spark Batch處理技術 | |
| Kafka與Spark Streaming技術實作 | · Spark Streaming DStream 方法介紹與實作 · Kafka 訊息管理系統介紹與實作 · Spark Streaming資料流與Kafka介接技術 | |
| 綜合實戰練習 | · 開源中文斷詞Library使用 · PTT八卦版即時關鍵字訊息流獲取系統實作 |
*課程執行單位保留調整課程內容、日程與講師之權利

