Mục lục bài viết

Giới thiệu

Amazon SageMaker HyperPod giờ đây tích hợp với Amazon EventBridge, cho phép bạn nhận thông báo gần như thời gian thực về các thay đổi trạng thái của cluster! Điều này mở ra khả năng tự động hóa mạnh mẽ cho các quy trình machine learning.

Amazon Event Bridge giám sát các sự kiện thay đổi trạng thái trong Amazon SageMaker AI, cho phép bạn tự động hóa SageMaker và phản hồi tự động với các sự kiện như thay đổi trạng thái training job hoặc endpoint status change.

Nguồn: https://aws.amazon.com/about-aws/whats-new/2025/05/amazon-sagemaker-hyperpod-integrates-amazon-eventbridge-status-change-events/

Tại sao Event Bridge Integration quan trọng?

Với tích hợp Event Bridge, bạn có thể:

  • Theo dõi real-time – Nhận thông báo ngay lập tức về status changes
  • Tự động hóa workflows – Trigger actions tự động khi có sự kiện
  • Thông báo thông minh – Thiết lập alerts cho các events quan trọng
  • Giám sát toàn diện – Theo dõi toàn bộ ML pipeline
  • Tích hợp liền mạch – Kết nối với các AWS services khác

Tổng quan EventBridge

EventBridge là gì?

Amazon EventBridge là dịch vụ eventbus serverless giúp kết nối các ứng dụng với dữ liệu từ nhiều nguồn khác nhau. Với SageMaker integration:

  • Near real-time delivery – Events được gửi gần như thời gian thực
  • Simple rules – Viết rules đơn giản để định nghĩa events quan tâm
  • Automated actions – Thực hiện actions tự động khi event match rule
  • Rich integrations – Tích hợp với nhiều AWS services

Cách hoạt động:

SageMaker AI → EventBridge → Rules → Target Actions

     ↓                             ↓                  ↓                  ↓

Status Change → Event Bus → Filtering → Lambda/SNS/SQS

Các loại SageMaker Events

Danh sách đầy đủ các events được giám sát:

Loại EventMô tảUse Case
Endpoint DeploymentThay đổi trạng thái triển khai endpointMonitoring deployments
Endpoint StateThay đổi trạng thái endpointHealth checking
Feature GroupThay đổi trạng thái feature groupData pipeline monitoring
Hyperparameter TuningThay đổi trạng thái tuning jobOptimization tracking
HyperPod ClusterThay đổi trạng thái clusterCluster management
HyperPod Node HealthThay đổi sức khỏe nodeNode monitoring
Image StateThay đổi trạng thái imageContainer management
Image VersionThay đổi version imageVersion control
Model CardThay đổi model cardModel governance
Model PackageThay đổi model packageModel registry
Model StateThay đổi trạng thái modelModel lifecycle
Pipeline ExecutionThay đổi execution pipelineWorkflow monitoring
Pipeline StepThay đổi step trong pipelineStep-level tracking
Processing JobThay đổi processing jobData processing
Training JobThay đổi training jobTraining monitoring
Transform JobThay đổi transform jobBatch inference

Ví dụ:

Endpoint Deployment

{

    "version": "0",

    "id": "0bd4a141-0a02-9d8a-f977-3924c3fb259c",

    "detail-type": "SageMaker Endpoint Deployment State Change",

    "source": "aws.sagemaker",

    "account": "111122223333",

    "time": "2021-10-25T01:52:12Z",

    "region": "us-west-2",

    "resources": [

        "arn:aws:sagemaker:us-west-2:111122223333:endpoint/sample-endpoint"

    ],

    "detail": {

        "EndpointName": "sample-endpoint",

        "EndpointArn": "arn:aws:sagemaker:us-west-2:111122223333:endpoint/sample-endpoint",

        "EndpointConfigName": "sample-endpoint-config-1",

        "ProductionVariants": [

            {

                "VariantName": "AllTraffic",

                "CurrentWeight": 1,

                "DesiredWeight": 1,

                "CurrentInstanceCount": 3,

                "DesiredInstanceCount": 3

            }

        ],

        "EndpointStatus": "UPDATING",

        "CreationTime": 1635195148181,

        "LastModifiedTime": 1635195148181,

        "Tags": {},

        "PendingDeploymentSummary": {

            "EndpointConfigName": "sample-endpoint-config-2",

            "StartTime": Timestamp,

            "ProductionVariants": [

                {

                    "VariantName": "AllTraffic",

                    "CurrentWeight": 1,

                    "DesiredWeight": 1,

                    "CurrentInstanceCount": 1,

                    "DesiredInstanceCount": 3,

                    "VariantStatus": [

                        {

                            "Status": "Baking",

                            "StatusMessage": "Baking for 600 seconds (TerminationWaitInSeconds) with traffic enabled on canary capacity of 1 instance(s).",

                            "StartTime": 1635195269181,

                        }

                    ]

                }

            ]

        }

    }

}

State Change

{

  "version": "0",

  "id": "d2921b5a-b0ad-cace-a8e3-0f159d018e06",

  "detail-type": "SageMaker Endpoint State Change",

  "source": "aws.sagemaker",

  "account": "111122223333",

  "time": "1583831889050",

  "region": "us-west-2",

  "resources": [

      "arn:aws:sagemaker:us-west-2:111122223333:endpoint/myendpoint"

  ],

  "detail": {

      "EndpointName": "MyEndpoint",

      "EndpointArn": "arn:aws:sagemaker:us-west-2:111122223333:endpoint/myendpoint",

      "EndpointConfigName": "MyEndpointConfig",

      "ProductionVariants": [

          {

              "DesiredWeight": 1.0,

              "DesiredInstanceCount": 1.0

          }

      ],

      "EndpointStatus": "IN_SERVICE",

      "CreationTime": 1592411992203.0,

      "LastModifiedTime": 1592411994287.0,

      "Tags": {

      }

  }

}

Kết Luận

Việc công bố Amazon Sagmaker tích hợp Event Bridge rule đánh dấu bước cải tiến đáng kể khi sử dụng làm các ứng dụng AI tạo sinh.

Hy vọng bài viết có ích và cảm ơn độc giả!