Amazon DataZone

DataZone là dịch vụ đã được công bố tại AWS re:Invent 2022.

Amazon DataZone là dịch vụ quản lý dữ liệu giúp nhanh chóng và dễ dàng thực hiện việc lập danh mục, khám phá, chia sẻ và quản lý dữ liệu được lưu trữ trên AWS, on-premises, và sources của bên thứ ba.

DataZone bao gồm 4 thành phần:

Data portal (Cổng thông tin dữ liệu)

Người dùng có thể thực hiện lập danh mục, phát hiện, quản lý, chia sẻ và phân tích dữ liệu theo dạng tự phục vụ.

Để xác thực, có thể sử dụng IAM Identity Center hoặc thông tin xác thực hiện có của nhà cung cấp ID.

Business data catalog (Danh mục dữ liệu kinh doanh)

Lập danh mục, tìm kiếm, chia sẻ dữ liệu trong “business context”. Lập danh mục dữ liệu trên toàn tổ chức giúp mọi người trong tổ chức tìm kiếm dữ liệu một cách nhanh chóng.

Amazon DataZone cũng sử dụng Glue Data Catalog để kết nối với nguồn dữ liệu. Redshift cũng có thể được kết nối trực tiếp.

Data project (Dự án dữ liệu và môi trường)

Sử dụng proiect để tạo nhóm dựa trên các trường hợp sử dụng kinh doanh bao gồm người dùng, tài nguyên dữ liệu và công cụ phân tích.

Những người dùng được thêm vào dự án có thể kiểm tra dữ liệu của dự án đó.

Pub/Sub workflow with access management (Luồng công việc và quản lý truy cập)

Luồng công việc tự động cho phép người sản xuất (Producer) có thể chia sẻ dữ liệu cho người tiêu dùng truy cập một cách an toàn.

Khi yêu cầu đăng ký được chấp nhận, Amazon DataZone sẽ quản lý truy cập thông qua AWS Lake Formation hoặc Amazon Redshift, v.v.

Nội dung cập nhật

Giờ đây bạn có thể tạo bộ tham số trên DefaultDataWarehouseBlueprint bằng cách chỉ rõ các tham số như quyền quản trị, cluster Redshift, cơ sở dữ liệu, khóa bí mật AWS, v.v.

Khi tạo dự án Amazon DataZone, bạn có thể sử dụng bộ tham số đó. Chúng sẽ được phê duyệt khi tạo

Ngoài ra, nhà sản xuất dữ liệu và người tiêu dùng dữ liệu giờ đây cũng có thể tạo môi trường mà không cần phải chỉ định tham số cụ thể nào.

Thử nghiệm DataZone

Blueprint được sử dụng để tạo môi trường xác định môi trường, trong đó các thành viên của dự án thao tác với nội dung trong danh mục của Amazon DataZone.

Phiên bản hiện tại của Amazon DataZone bao gồm 2 loại blueprint:

Data lake blueprint

Một loạt các dịch vụ đã được xác định để công khai và sử dụng data lake assets trong danh mục Amazon DataZone (AWS Glue, AWS Lake Formation, Amazon Athena).

Data warehouse blueprint

Việc khởi động và cấu hình Redshift để công khai và sử dụng Amazon Redshift assets trong danh mục Amazon DataZone đã được xác định.

Điều kiện tiên quyết để có thể kích hoạt blueprint tích hợp của domain Amazon DataZone thông qua bảng điều khiển quản lý DataZone, cần một tài khoản có quyền quản trị để nhận vai trò IAM.

  1. Trên trang chi tiết của domain, chọn “Blueprint”. Có thể xác nhận “DefaultDataLake” và “DefaultDataWarehouse”.
  1. Bằng cách sử dụng bộ tham số, Amazon DataZone có thể kết nối với cluster Amazon Redshift và serverless workgroup.
IMG_256
  1. Bạn có thể chọn từ hai tham số là Redshift và Redshift Serverless.
IMG_256

Nếu bạn không có AWS secret hiện có, bạn có thể chọn “Create New AWS Secret” để tạo một secret mới.