Người đang đi làm mảng Analytics/ BI nhưng có mong muốn xây dựng pipeline tự động để phục vụ báo cáo.
Học viên đã kiến thức cơ bản về Python và SQL.
Tự động hóa quy trình ETL/ELT
Xây dựng Data Warehouse và DataLake
Hiểu và làm quen với hệ điều hành Linux, mạng máy tính
Tạo và quản lý các máy ảo trên Google Cloud Platform (GCP).
Sử dụng các công cụ phát triển và triển khai ứng dụng như Docker và VS Code.
Sử dụng Postman để làm việc với các REST API.
Thực hiện di chuyển dữ liệu từ môi trường On-prem sang Cloud.
Xây dựng một dự án thực tế và thuyết trình kết quả cuối khóa.
Các công cụ sử dụng trong khoá học:
OS: Linux (Ubuntu)
Containerization: Docker
API: Postman, request, httpx
Database: PostgreSQL, Big Query
Storage (Lake): MinIO, GCS
Compute: Pandas, Trino
Platforms: On-premise & cloud (GCP)
Tools: VS Code, Dbeaver
Version control: Github
Database ORM: sqlalchemy
Workflow management: Airflow
Khai giảng: ngày 5 tháng 5 năm 2025
Ngày học: Tối Thứ 2 và Thứ 5 hàng tuần từ 8PM - 10PM
Số buổi: 17 buổi
Thời lượng: 2 tiếng/ buổi
Hình thức: Học qua Google Meet, có record sau mỗi buổi học
Mục tiêu:
Giới thiệu về khóa học và môi trường Linux.
Hiểu cấu trúc và các khái niệm cơ bản của hệ điều hành Linux.
Thực hành các lệnh quản lý file và thư mục trên Linux.
Nội dung:
Giới thiệu về nội dung và mục tiêu của khóa học.
Các bản phân phối Linux phổ biến.
Cấu trúc thư mục và hệ thống file trong Linux.
Lệnh liên quan đến thao tác với file và thư mục: ls, cd, pwd, mkdir, rm, touch, cp, mv, cat, grep, pipe và redirect.
Thực hành ghi nội dung vào một file log.txt bằng Terminal.
Cài đặt và triển khai một website tĩnh với Apache Webserver.
Mục tiêu:
Hiểu và thực hành các loại quyền truy cập trên Linux.
Biết cách quản lý người dùng và phân quyền trên hệ thống Linux.
Tạo và quản lý máy ảo trên Google Cloud Platform.
Nội dung:
Các loại quyền truy cập: read, write, execute.
Cách sử dụng lệnh chmod để thay đổi quyền truy cập.
Quản lý người dùng và nhóm người dùng trên Linux.
Thực hành phân quyền cho các file và thư mục.
Tạo máy ảo Compute Engine trên Google Cloud Platform và cấu hình ban đầu.
Mục tiêu:
Hiểu về các khái niệm mạng cơ bản và thực hành triển khai ứng dụng trên Google Cloud Platform.
Sử dụng các lệnh liên quan đến mạng trong Linux.
Nội dung:
Thực hành kết nối SSH và triển khai website tĩnh trên Google Cloud Platform.
Giới thiệu về địa chỉ IP và Subnet mask, Public vs Private IP address.
Sử dụng các lệnh liên quan đến mạng như ping, lsof, telnet.
Cài đặt PostgreSQL bằng Docker trên Google Cloud Platform.
Mục tiêu:
Hiểu về cách cài đặt và sử dụng Docker.
Cấu hình môi trường phát triển trên Docker.
Kết nối với cơ sở dữ liệu SQL thông qua Docker.
Nội dung:
Cài đặt VS Code trên Ubuntu và làm quen với biến môi trường.
Giới thiệu về Docker và cách cài đặt.
Thực hành quản lý container Docker và các lệnh cơ bản.
Cài đặt và sử dụng cơ sở dữ liệu PostgreSQL trên Docker.
Kết nối với cơ sở dữ liệu SQL bằng Command Line Interface (CLI) để tạo bảng và thao tác dữ liệu.
Mục tiêu:
Hiểu về cơ chế hoạt động của Index trong cơ sở dữ liệu.
Thực hành sử dụng câu lệnh explain để hiểu về chiến lược thực thi của cơ sở dữ liệu.
Nội dung:
Giới thiệu về cách hoạt động của Index trong cơ sở dữ liệu.
Phân loại các loại Index phổ biến như Btree và Hash.
Thực hành sử dụng câu lệnh explain để phân tích chiến lược thực thi của cơ sở dữ liệu trong các truy vấn phức tạp.
Mục tiêu:
Hiểu về Rest API và cấu trúc của một Rest Request.
Thực hành sử dụng công cụ Postman để giao tiếp với các REST API.
Nội dung:
Giới thiệu về Rest API và cách xây dựng một Rest Request bao gồm Header và Body.
Tổng quan về các phương thức phổ biến của Rest API như POST, GET, PUT, DELETE.
Thực hành sử dụng Postman để gửi các request đến endpoint của public API của Lazada.
Phân tích và hiểu cách đọc và sử dụng dữ liệu trả về từ các REST API.
Mục tiêu:
Hiểu sự khác biệt giữa OLTP và OLAP.
Hiểu cơ bản về quy trình ETL (Extract, Transform, Load).
Nội dung:
So sánh OLTP và OLAP, và hiểu về ETL và ELT.
Mục tiêu:
Hiểu về Dimensional Modeling và các loại schema.
Nội dung:
Giới thiệu về Dimensional Modeling và các loại schema như Star và Snowflake.
Mục tiêu:
Thực hành trích xuất dữ liệu từ API của Tiki và thực hiện transformation.
Load dữ liệu từ Staging vào Data Warehouse.
Nội dung:
Xác định và trích xuất dữ liệu từ API của Tiki.
Thực hiện biến đổi dữ liệu và load vào Staging Area.
Load dữ liệu từ Staging Area vào Data Warehouse.
Mục tiêu:
Thực hiện biến đổi dữ liệu phức tạp và SCD type 2.
Nội dung:
Đưa các DIM table từ API sang Staging và thực hiện transformation.
Thực hiện Slowly Changing Dimension type 2 (SCD type 2).
Mục tiêu:
Hiểu về lập trình hướng đối tượng và Decorator trong Python để sử dụng Airflow.
Nội dung:
Giới thiệu về lập trình hướng đối tượng (OOP) và cách áp dụng trong Python (SQLalchemy)
Thực hành xây dựng các lớp và đối tượng trong Python.
Giới thiệu về Decorator và cách sử dụng chúng để mở rộng chức năng của các hàm.
Cài đặt Airflow qua Docker
Mục tiêu:
Hiểu về Airflow và khả năng tự động hóa quy trình ETL.
Thực hành triển khai pipeline ETL tự động bằng Airflow.
Nội dung:
Cài đặt Airflow thông qua Docker và hiểu về các khái niệm như DAG, Task.
Tạo và thiết lập một DAG đơn giản trong Airflow.
Đọc và hiểu các giao diện người dùng và log của Airflow.
Thực hành triển khai một pipeline ETL tự động bằng Airflow, bao gồm các bước Extract, Transform và Load.
Mục tiêu:
Hiểu về Data Catalog và vai trò của nó trong việc quản lý dữ liệu trong Data Lake.
Nội dung:
Giới thiệu về Data Catalog và các tính năng quản lý dữ liệu.
Thực hành sử dụng Data Catalog để tìm kiếm, khám phá và quản lý tài nguyên dữ liệu trong Data Lake.
Mục tiêu:
Hiểu về Data Lake và khả năng truy vấn dữ liệu từ nó bằng Trino.
Thực hành load dữ liệu vào Data Lake và thực hiện truy vấn từ Trino.
Nội dung:
Giới thiệu về Data Lake và cách tổ chức dữ liệu trong nó.
Cài đặt và cấu hình Trino để truy vấn dữ liệu từ Data Lake.
Thực hành load dữ liệu vào Data Lake từ các nguồn khác nhau.
Thực hiện truy vấn dữ liệu từ Data Lake bằng Trino để phân tích.
Mục tiêu:
Hiểu về quy trình di chuyển ETL Data Pipeline từ môi trường On-prem sang môi trường Cloud (GCP).
Nội dung:
Giới thiệu về các công cụ và dịch vụ của Google Cloud Platform (GCP) liên quan đến di chuyển dữ liệu.
Giới thiệu Git
Thực hành di chuyển Data Pipeline từ môi trường On-prem sang môi trường Cloud (GCP) sử dụng các dịch vụ như Compute Engine, Cloud Storage, BigQuery.
Mục tiêu:
Thuyết trình dự án của mỗi học viên.
THÔNG TIN GIẢNG VIÊN
Nguyễn Thế Anh | LinkedIn
Senior Data Architect @SSIS
CHÍNH SÁCH HỌC PHÍ
Học phí tiêu chuẩn: 6.000.000đ
Đăng kí trước ngày 31/03 : 5.000.000đ
Đăng kí trước ngày 15/04 : 5.500.000đ
Học viên đăng kí nhóm
Nhóm 2 học viên: Giảm thêm 700.000đ/ học viên
Nhóm từ 3-5 học viên: Giảm thêm 1.000.000đ/ học viên
Nhóm từ 6 học viên: Giảm thêm 1.300.000đ/học viên
Liên hệ tư vấn/đăng ký hoặc đặt lịch demo khoá học:
[Zalo] 090 234 1510