使用Google Cloud Platform做資料工程
課程目標
本課程透過實作體驗在Google Cloud設計與建置資料處理系統。講師將結合講座、範例和動手實作,展示如何設計數據處理系統、建構端對端的數據流程、分析數據資料和進行機器學習。本課程涵蓋結構化、非結構化和串流數據。
適合對象
負責以下工作的開發人員或工程師:
• 提取、加載、轉換、清理和驗證數據。
• 設計數據處理的流程和架構。
• 將分析和機器學習功能整合到數據流程中。
• 查詢數據集、可視化查詢結果和創建報告。
預備知識
•具備“Google Cloud Big Data and Machine Learning Fundamentals”知識或相關經驗。
• 熟練基本常用查詢語言,如SQL。
• 具有數據建模和ETL(提取、轉換、加載)經驗。
• 使用Python 等程式語言開發應用程式經驗。
• 熟悉機器學習或統計。
教材
Google Cloud原廠教材
課程內容:每日上課時間09:00~17:00、中間午休一小時、共計四日28小時
Module 01 資料工程簡介
Module 02 建置資料湖
Module 03 建置資料倉庫
Module 04 建置批次資料管線介紹
Module 05 Dataproc上執行Spark
Module 06 使用Dataflow執行無伺服器資料處理
Module 07 使用Cloud Data Fusion與Cloud Composer管理資料管線
Module 08 串流資料處理介紹
Module 09 Cloud Pub/Sub處理無伺服器訊息
Module 10 Dataflow 串流功能
Module 11 高通量BigQuery與Bigtable 串流功能
Module 12 進階BigQuery功能與效能
Module 13 分析與AI介紹
Module 14 預建ML模型APIs處理無結構化資料
Module 15 使用Notebooks做大數據資料分析
Module 16 在正式環境使用ML管線
Module 17 在BigQuery ML中使用SQL客製化建構模型
Module 18 使用AutoML建立客製化模型

