Mục lục bài viết
Khi cài đặt môi trường cho machine learning, thường sẽ gặp các vấn đề như Conflict giữa TensorFlow và PyTorch, Numpy không tương thích với Pandas. Cho nên Amazon SageMaker Distribution sinh ra để giải quyết triệt để những khó khăn này.
SageMaker Distribution là gì?
SageMaker Distribution là kho lưu trữ các frameworks, library, tools cần thiết cho việt huấn luyện AI, nó đã có sẵn mọi thứ, đã test kỹ, chỉ việc code
Nghĩa là đã có:
Deep Learning Frameworks
- PyTorch – Cho những ai thích flexibility
- TensorFlow – Dành cho fan của Google
- Keras – Simple is best
Data Science Essentials
- NumPy, Pandas – Những thư viện cần thiết cho data science
- Scikit-learn – ML algorithms đủ loại
- Matplotlib, Seaborn – Vẽ chart rất đẹp
Development Tools
- JupyterLab – IDE yêu thích của data scientists
- Git, Conda – Version control và package management
Điểm đặc biệt ở đây là:
- Tất cả đã compatible – Không lo conflict
- Versions mới nhất – Always up-to-date
- CPU và GPU variants – Tùy chọn theo nhu cầu
Cách sử dụng
Trên laptop cá nhân
# Pull image
export ECR_IMAGE_ID='public.ecr.aws/sagemaker/sagemaker-distribution:latest-cpu'
# Run với JupyterLab
docker run -it \
-p 8888:8888 \
-v `pwd`/my-notebooks:/home/sagemaker-user/notebooks \
$ECR_IMAGE_ID jupyter-lab --no-browser --ip=0.0.0.0
# Mở browser: http://127.0.0.1:8888/lab?token=xxx
Pro tip: Mount folder local để save notebooks!
Kết luận
Amazon SageMaker Distribution giải quyết các khó khăn trong quá trình huấn luyện mô hình AI như conflict thư viện, lỗi cài đặt, … giúp tiết kiệm thời gian công sức rất nhiều.
Có thể tham khảo repo sau để hiện thực, cảm ơn đã đọc đến cuối bài viết!
Để lại một bình luận