Mục lục bài viết

Amazon Bedrock vừa công bố bản cập nhật mới cho mô hình Claude 3.5 Sonet, tính năng sử dụng máy tính (computer use) ở giai đoạn beta công khai, và sự ra mắt sắp tới của Claude 3.5 Haiku.

1.Claude 3.5 Sonnet Nâng cấp

1.1 Claude 3.5 Sonnet Nâng cấp đã cung cấp các khả năng sau:

  • Khả năng giải quyết các tác vụ kỹ thuật phần mềm thực tế
  • Theo dõi quy trình làm việc phức tạp
  • Hỗ trợ toàn bộ vòng đời phát triển phần mềm
  • Cải thiện khả năng tạo chatbot với giọng điệu gần gũi
  • Tăng cường khả năng trích xuất dữ liệu từ hình ảnh

1.2 Về hiệu suất Claude 3.5 Sonnet nâng cấp đã có những cải tiến đáng kể như sau:

Tác vụClaude 3.5 Sonnet (nâng cấp)Claude 3.5 HaikuClaude 3.5 SonnetGPT-4o*GPT-4o mini*Gemini 1.5 ProGemini 1.5 Flash
Lập luận cấp cao 65.0% (0-shot CoT)41.6% (0-shot CoT)59.4% (0-shot CoT)53.6% (0-shot)40.2% (0-shot)59.1% (0-shot CoT)51.0% (0-shot CoT)
Kiến thức cấp đại học (MMLU/Pro)78.0% (0-shot CoT)65.0% (0-shot CoT)75.1% (0-shot CoT)75.8% (0-shot CoT)67.3% (0-shot CoT)
Lập trình (HumanEval)93.7% (0-shot)88.1% (0-shot)92.0% (0-shot)90.2% (0-shot)87.2% (0-shot)
Giải toán (MATH)78.3% (0-shot CoT)69.2% (0-shot CoT)71.1% (0-shot CoT)76.6% (0-shot CoT)70.2% (0-shot)86.5% (0-shot CoT)77.9% (0-shot CoT)
Toán trung học (AIME 2024)16.0% (0-shot CoT)5.3% (0-shot CoT)9.6% (0-shot CoT)9.3% (0-shot)
Hỏi đáp hình ảnh (MMMU)70.4% (0-shot CoT)68.3% (0-shot CoT)69.1% (0-shot)59.4% (0-shot)65.9% (0-shot CoT)62.3% (0-shot CoT)
Lập trình tự động (SWE-bench Verified)49.0%40.4%33.3%
Sử dụng công cụ tự động (TAU-bench)Bán lẻ: 69.2% Hàng không: 46.0%Bán lẻ: 51.0% Hàng không: 22.8%Bán lẻ: 62.6% Hàng không: 36.0%

*CoT = Chain of Thought (Chuỗi suy luận)

2. Tính năng Sử dụng Máy tính (Computer Use)

2.1 Tổng Quan

Tính năng mới này cho phép Claude tương tác với giao diện máy tính như một người dùng thực sự. Thay vì chỉ sử dụng API, Claude có thể:

  • Nhìn màn hình
  • Di chuyển con trỏ
  • Nhấp chuột
  • Gõ văn bản
  • Chạy lệnh shell

2.2 Công Cụ Tích Hợp

Computer tool:

  1. Nhận screenshot và mục tiêu làm input
  2. Trả về mô tả các thao tác chuột và bàn phím
  3. Thực hiện di chuyển con trỏ, nhấp chuột, gõ phím

Text editor tool:

  1. Xem nội dung file
  2. Tạo file mới
  3. Thay thế văn bản
  4. Hoàn tác chỉnh sửa

Bash tool:

  1. Chạy lệnh trên hệ thống
  2. Tương tác ở cấp độ terminal

2.3 Về Hiệu Suất Đạt Được:

Trên điểm chuẩn OSWorld cho các tác tử đa phương thức trong môi trường máy tính thực:

  • Claude 3.5 Sonnet nâng cấp: 14.9%
  • Mô hình tốt nhất tiếp theo: 7.7%
  • Con người: 70-75%

2.4 Code Mẫu: Tích hợp Computer Use

Dưới đây là ví dụ về cách tích hợp tính năng computer use vào ứng dụng của bạn:

Đầu tiên, tôi chụp nhanh màn hình nền của hệ thống Ubuntu:

Amazon Web Services (AWS) vừa công bố bản cập nhật mới cho mô hình Claude 3.5 Sonet, tính năng sử dụng máy tính (computer use) ở giai đoạn beta công khai, và sự ra mắt sắp tới của Claude 3.5 Haiku.

Ảnh chụp màn hình này là điểm khởi đầu cho các bước sẽ được triển khai khi sử dụng máy tính. Để xem cách thức hoạt động, tôi chạy tập lệnh Python truyền đầu vào vào mô hình hình ảnh chụp màn hình và prompt này:

Find me a hotel in Rome.

import base64

import json

import boto3

MODEL_ID = "anthropic.claude-3-5-sonnet-20241022-v2:0"

IMAGE_NAME = "ubuntu-screenshot.png"

bedrock_runtime = boto3.client(

    "bedrock-runtime",

    region_name="us-east-1",

)

with open(IMAGE_NAME, "rb") as f:

    image = f.read()

image_base64 = base64.b64encode(image).decode("utf-8")

prompt = "Find me a hotel in Rome."

body = {

    "anthropic_version": "bedrock-2023-05-31",

    "max_tokens": 512,

    "temperature": 0.5,

    "messages": [

        {

            "role": "user",

            "content": [

                {"type": "text", "text": prompt},

                {

                    "type": "image",

                    "source": {

                        "type": "base64",

                        "media_type": "image/jpeg",

                        "data": image_base64,

                    },

                },

            ],

        }

    ],

    "tools": [

        {

            "type": "computer_20241022",

            "name": "computer",

            "display_height_px": 1280,

            "display_width_px": 800,

            "display_number": 0

        },

        {

            "type": "bash_20241022",

            "name": "bash",

        },

        {

            "type": "text_editor_20241022",

            "name": "str_replace_editor",

        }

    ],

    "anthropic_beta": ["computer-use-2024-10-22"],

}

request = json.dumps(body)

response = bedrock_runtime.invoke_model(modelId=MODEL_ID, body=request)

model_response = json.loads(response["body"].read())

print(model_response)

2.5 Output Mẫu có kết quả sau:

{

    "id": "msg_bdrk_01WjPCKnd2LCvVeiV6wJ4mm3",

    "type": "message",

    "role": "assistant",

    "model": "claude-3-5-sonnet-20241022",

    "content": [

        {

            "type": "text",

            "text": "I'll help you search for a hotel in Rome. I see Firefox browser on the desktop, so I'll use that to access a travel website.",

        },

        {

            "type": "tool_use",

            "id": "toolu_bdrk_01CgfQ2bmQsPFMaqxXtYuyiJ",

            "name": "computer",

            "input": {"action": "mouse_move", "coordinate": [35, 65]},

        },

    ],

    "stop_reason": "tool_use",

    "stop_sequence": None,

    "usage": {"input_tokens": 3443, "output_tokens": 106},

}

3. Claude 3.5 Haiku (Sắp ra mắt)

3.1 Tính năng chính:

  • Thời gian phản hồi nhanh
  • Cải thiện khả năng suy luận
  • Hiệu suất tương đương Claude 3 Opus
  • Chi phí và tốc độ của Claude 3 Haiku

3.2 Use Cases

  • Gợi ý mã nhanh và chính xác
  • Chatbot tương tác yêu cầu thời gian phản hồi nhanh
  • Giải pháp thương mại điện tử
  • Nền tảng giáo dục
  • Xử lý và phân loại dữ liệu phi cấu trúc

4. AWS CLI và SDK

4.1 Sử dụng AWS CLI

aws bedrock-runtime converse \

    --model-id anthropic.claude-3-5-sonnet-20241022-v2:0 \

    --messages '[{ "role": "user", "content": [ { "text": "What do you throw out when you want to use it, but take in when you do not want to use it?" } ] }]' \

    --query 'output.message.content[*].text' \

    --output text

4.2 Sử dụng Python SDK (Boto3)

import boto3

MODEL_ID = "anthropic.claude-3-5-sonnet-20241022-v2:0"

IMAGE_NAME = "wind-generation.png"

bedrock_runtime = boto3.client("bedrock-runtime")

with open(IMAGE_NAME, "rb") as f:

    image = f.read()

user_message = "Which are the top countries for wind power generation? Answer only in JSON."

messages = [

    {

        "role": "user",

        "content": [

            {"image": {"format": "png", "source": {"bytes": image}}},

            {"text": user_message},

        ],

    }

]

response = bedrock_runtime.converse(

    modelId=MODEL_ID,

    messages=messages,

)

response_text = response["output"]["message"]["content"][0]["text"]

print(response_text)

5. Khả dụng và Chi phí

  • Claude 3.5 Sonnet nâng cấp có sẵn trong Amazon Bedrock tại khu vực AWS US West (Oregon)
  • Chi phí giữ nguyên như phiên bản Claude 3.5 Sonnet gốc
  • Computer use đang ở giai đoạn beta công khai
  • Claude 3.5 Haiku sẽ ra mắt trong vài tuần tới, ban đầu chỉ hỗ trợ văn bản

Kết luận

Với khả năng sử dụng máy tính mới và hiệu suất được cải thiện, Claude 3.5 Sonnet nâng cấp mở ra nhiều khả năng mới cho tự động hóa và tương tác AI, giúp các nhà phát triển có thêm sự lựa chọn đáng tin cậy trong quá trình làm ứng dụng AI.