Mục lục bài viết

Giới thiệu

Amazon Bedrock vừa ra mắt hai tính năng mới cho các Claude Models: Citations API và PDF Support. Hai tính năng này giúp xây dựng ứng dụng AI đáng tin cậy hơn và xử lý tài liệu tốt hơn.

Nguồn: https://aws.amazon.com/about-aws/whats-new/2025/06/citations-api-pdf-claude-models-amazon-bedrock

Citations API là gì?

Citations API cho phép Claude models chỉ ra chính xác đoạn văn bản nào trong tài liệu được dùng để tạo câu trả lời. 

Lợi ích chính

  • Người dùng có thể kiểm tra nguồn thông tin
  • Biết được AI dựa vào đâu để đưa ra câu trả lời
  • Tăng độ tin cậy cho ứng dụng

PDF Support là gì?

PDF Support cho phép Claude models:

  • Đọc và hiểu nội dung file PDF
  • Phân tích biểu đồ và hình ảnh trong PDF
  • Xử lý các tài liệu có cấu trúc phức tạp

Các models hỗ trợ:

Các tính năng này hoạt động với:

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5v2

Cách sử dụng

Cấu trúc DocumentBlock

Khi gửi tài liệu cho Claude, bạn cần sử dụng cấu trúc sau:

document_block = {

    "name": "Tên tài liệu",

    "source": {

        # Nội dung tài liệu

    },

    "citations": {

        # Cấu hình trích dẫn

    },

    "context": "Thông tin bổ sung về tài liệu",

    "format": "pdf"  # hoặc csv, doc, docx, xls, xlsx, html, txt, md

}

Ví dụ 1: Đọc PDF và yêu cầu trích dẫn

import boto3

import json

import base64

# Tạo client

bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')

# Đọc file PDF

with open('tai_lieu.pdf', 'rb') as f:

    pdf_content = f.read()

# Tạo request

request_body = {

    "anthropic_version": "bedrock-2023-05-31",

    "messages": [

        {

            "role": "user",

            "content": [

                {

                    "type": "document",

                    "document": {

                        "name": "Tài liệu nghiên cứu",

                        "source": {

                            "bytes": base64.b64encode(pdf_content).decode('utf-8')

                        },

                        "format": "pdf",

                        "citations": {

                            "enabled": True

                        }

                    }

                },

                {

                    "type": "text",

                    "text": "Tóm tắt nội dung chính và cho biết thông tin lấy từ đâu."

                }

            ]

        }

    ],

    "max_tokens": 2000,

    "temperature": 0.3

}

# Gọi API

response = bedrock.invoke_model(

    modelId="anthropic.claude-3-sonnet-20240229-v1:0",

    body=json.dumps(request_body)

)

# Xem kết quả

result = json.loads(response['body'].read())

print(result['content'][0]['text'])

Kết luận

Tính năng Citations API và PDF Support giúp Amazon Bedrock trở thành công cụ mạnh mẽ hơn cho việc trích dẫn nguồn chính xác và xử lý PDF giúp xây dựng các ứng dụng AI đáng tin cậy hơn.
Cảm ơn độc giả đọc đến cuối bài viết!