Amazon SageMaker Feature Store là gì

Amazon SageMaker Feature Store là một kho lưu trữ chuyên dụng để lưu trữ, chia sẻ và quản lý các đặc trưng* (feature) của mô hình học máy (ML). Các đặc trưng là đầu vào của mô hình học máy được sử dụng trong training và inference. 

Ví dụ: Trong một ứng dụng đề xuất danh sách bài hát, các đặc trưng có thể bao gồm đánh giá bài hát, thời gian nghe và đặc điểm của người nghe. Các đặc trưng được sử dụng lặp đi lặp lại bởi nhiều nhóm nên chất lượng của các đặc trưng rất quan trọng để chạy các mô hình chính xác cao. Hơn nữa, sẽ có khó khăn trong việc đồng bộ hóa hai kho lưu trữ đặc trưng để sử dụng trong tranning mô hình offline và real-time inference. Vì vậy, SageMaker Feature Store cung cấp một kho lưu trữ an toàn và thống nhất cho việc xử lý, chuẩn hóa và sử dụng các đặc trưng quy mô lớn trong toàn bộ life cycle học máy.

*Đặc trưng thường có nghĩa là các đặc tính dữ liệu cần thiết cho việc học và suy luận.

Ví dụ: Trong việc dự báo doanh số bán hàng, objective variable là doanh số bán hàng trong quá khứ. Và các tham số dùng để dự báo có thể bao gồm ngày trong tuần, nhiệt độ, sự kiện xung quanh cửa hàng, việc thực hiện bán hàng và chi phí quảng cáo, v.v. Nếu dữ liệu được training với những đặc trưng này, có thể dự báo doanh số cho những ngày tiếp theo. Nói cách khác, đặc trưng có thể được định nghĩa là cách biểu diễn định lượng của các đặc điểm trong tập dữ liệu.

Đặc trưng quan trọng như thế nào?

Trong học máy, nếu không có dữ liệu tốt thì dự báo cũng sẽ kém chính xác. Việc hiểu rõ dữ liệu sẽ xác định ra các đặc trưng. Cần kiểm tra kỹ lưỡng xem dữ liệu nào đang được thu thập và lưu trữ, thu thập dữ liệu vào thời điểm nào và xu hướng nào có thể được thu thập từ dữ liệu đó.

Việc chọn lọc đặc trưng vẫn là một lĩnh vực khó tự động hóa hoàn toàn, và cần có sự xác nhận của các kỹ sư.

Chất lượng của đặc trưng rất quan trọng vì sẽ ảnh hưởng đến chất lượng dự báo sau này.

Đặc điểm nổi bật của Amazon SageMaker Feature Store

Cải thiện chất lượng đặc trưng là một trong những giải pháp nâng cao năng suất ML. 

Các đặc điểm nổi bật của Amazon SageMaker Feature Store là:

Xử lý và tích hợp đặc trưng được thực hiện bằng batch và streaming

Có thể tích hợp dữ liệu từ nhiều nguồn khác nhau như log ứng dụng và dịch vụ, clickstream, cảm biến, hoặc dữ liệu dạng bảng từ Amazon Simple Storage Service (Amazon S3), Amazon Redshift, AWS Lake Formation, Snowflake, Databricks Delta Lake vào SageMaker Feature Store.

Trong quá trình xử lý đặc trưng, nếu chỉ định batch data source và feature conversion function (chẳng hạn như số lượt xem sản phẩm hoặc tổng thời gian mở của cửa sổ ứng dụng), có thể chuyển đổi dữ liệu thu được thành đặc trưng cho học máy.

IMG_256

Metadata và data catalog của đặc trưng

Có thể tìm thấy các đặc trưng, thông qua giao diện trực quan của Amazon SageMaker Studio, nếu sử dụng các tag và nhóm đặc trưng của SageMaker Feature Store.

Có thể tìm thấy các đặc trưng được tái sử dụng từ catalog các đặc trưng (Feature Group Catalog). SageMaker Feature Store mặc định là AWS Glue Data Catalog, nhưng cũng có thể sử dụng catalog khác khi cần.

IMG_256

Tính nhất quán của đặc trưng

SageMaker Feature Store hỗ trợ lưu trữ offline cho training và lưu trữ online cho real-time inference. Để training các mô hình sử dụng toàn bộ tập dữ liệu và mất hàng giờ để hoàn thành, trong khi inference phải diễn ra trong vài mili giây và thường chỉ sử dụng một tập con dữ liệu. Việc sử dụng SageMaker Feature Store đảm bảo dữ liệu offline và online được đồng bộ.

Đặc điểm này rất quan trọng vì nếu có sự khác biệt giữa dữ liệu lưu trữ offline và online, thì kết quả sau đó cũng sẽ bị sai lệch.

IMG_256
Tạo Group Feature (nhóm đặc trưng)

Lineage tracking

Để tái sử dụng các đặc trưng, các data scientist cần biết cách xây dựng đặc trưng, sử dụng đặc trưng bằng mô hình và end point nào.

Trong Amazon SageMaker Feature Store, các data scientist có thể sử dụng SageMaker Lineage để theo dõi đặc trưng trong Amazon SageMaker Studio. Việc theo dõi này cho phép kiểm tra code của nguồn dữ liệu và nội dung xử lý dữ liệu, giúp cải thiện độ chính xác khi lựa chọn.

IMG_256

Time travel

SageMaker Feature Store cung cấp Offline API. Truy vấn point-in-time được hỗ trợ, cho phép truy cập dữ liệu trong quá khứ và lấy trạng thái của các đặc trưng trong một khoảng thời gian của quá khứ.

IMG_256

Nội dung cập nhật: Provisioning Capacity Mode

Provisioning Capacity Mode đã được áp dụng trong Amazon SageMaker Feature Store.

Trong bảng cập nhật mới nhất này, Amazon SageMaker Feature Store đã cung cấp thêm tính năng Provisioning capacity mode giúp bạn chỉ định dung lượng ghi và đọc cần thiết khi tạo nhóm tính năng. Ngoài ra, với mục đích tối ưu hóa chi phí, bạn có thể thay đổi giới hạn dung lượng bất cứ lúc nào, chẳng hạn như giảm giới hạn vào ban đêm hoặc cuối tuần.

Để đáp ứng với sự thay đổi trong application traffic pattern, cần cung cấp tùy chọn để chuyển đổi giữa chế độ provisioning và chế độ on demand trong nhóm tính năng.

Bạn có thể thiết lập chế độ tính phí thông qua giao diện người dùng (UI), API hoặc SDK.

Điều kiện sử dụng Provisioning Capacity Mode

Các điều kiện tiên quyết khi bạn sử dụng tính năng provisioning capacity mode:

・Do metadata cấp độ bản ghi có thể khiến bản ghi tiêu thụ thêm đơn vị dung lượng.

・Việc chỉ truy xuất một subset của tính năng khi sử dụng API GetRecord hoặc BatchGetRecord vẫn tiêu tốn RCU cho toàn bộ bản ghi.

Đối với dung lượng ghi, cần cung cấp gấp đôi dung lượng cao nhất gần đây để tránh nghẽn cổ chai khi thực hiện backfill hoặc nhập hàng loạt lượng lớn bản ghi lịch sử. Điều này là do việc ghi các bản ghi lịch sử sẽ tiêu tốn thêm dung lượng ghi. 

Lưu ý: Feature Store không hỗ trợ tự động gia hạn chế độ provisioning.

Cách thiết lập Provisioning Capacity Mode

Chế độ On-demand: ConsumedReadRequestsUnits và ConsumedWriteRequestsUnits

Chế độ provisioning: ConsumedReadCapacityUnits và ConsumedWriteCapacityUnits

Tham khảo: 

【アップデート】Amazon SageMaker 機能ストアでプロビジョニングキャパシティーモードが提供されるようになりました | SunnyCloud