Thiết Lập VPS Linux Cho AI Hoạt Động 24/7: 5 Bước Chuẩn 2026

NỘI DUNG

📌 TÓM TẮT NỘI DUNG:
Chạy AI agent ổn định và liên tục đòi hỏi môi trường máy chủ riêng, không thể dựa vào phần cứng cá nhân. Bài viết hướng dẫn từng bước: thiết lập user non-root, tạo Swap 8GB, cài Claude Code lẫn Ollama theo chuẩn Native Install 2026, xác thực tài khoản an toàn qua trình duyệt, và dùng Tmux để AI tiếp tục làm việc ngay cả khi bạn đã ngắt SSH.

  • Vibe Coding hoạt động ra sao và vì sao máy cá nhân không đáp ứng được
  • Phân loại cấu hình VPS theo từng công cụ: Claude Code (API) và Ollama (local)
  • 5 bước chi tiết từ khi nhận VPS đến khi AI chạy ổn định
  • Nâng cao: quản lý ngữ cảnh dự án với CLAUDE.md, tách luồng Dev Server bằng Tmux
  • Ví dụ thực tế: dùng AI dọn Docker rác và phát hiện tấn công brute-force
  • Bảo mật tối thiểu: tường lửa UFW và khóa đăng nhập root
  • Tiến trình AI đang chạy giữa chừng, bạn phải ra ngoài — và khi quay lại, tất cả đã mất vì laptop tự ngủ. Đây là vấn đề cốt lõi khi cố chạy AI agent trên máy tính cá nhân: phần cứng không đủ, kết nối không ổn định, và không có cách nào giữ tiến trình sống sót qua đêm. VPS Linux giải quyết đúng ba điểm đó mà không yêu cầu bạn phải là kỹ sư hệ thống mới làm được.

    Hướng Dẫn Thiết Lập VPS Linux Cho AI

    Vibe Coding là gì và tại sao cần VPS Linux cho AI?

    Vibe Coding và điểm giới hạn của máy tính cá nhân

    Vibe Coding là cách tiếp cận lập trình trong đó người dùng giao tiếp với AI bằng ngôn ngữ thông thường, còn mô hình LLM chịu trách nhiệm sinh ra toàn bộ mã nguồn. Người dùng không đọc từng dòng code — họ mô tả mục tiêu, chạy thử, phản hồi kết quả và để AI tự điều chỉnh cho đến khi phần mềm vận hành đúng ý.

    Quy trình này chạy theo vòng lặp Lên kế hoạch → Sinh code → Kiểm tra không ngừng, đôi khi kéo dài nhiều giờ liên tục. Máy tính cá nhân có ba điểm yếu căn bản khi đảm nhận vai trò này:

    • Phần cứng bị đẩy đến giới hạn: Các mô hình cục bộ yêu cầu tối thiểu 16–32GB RAM. CPU và GPU chạy tải cao liên tục, nhiệt độ hệ thống leo lên 80–88°C — quạt tản nhiệt kêu to, hiệu suất máy giảm đáng kể.
    • Không duy trì được phiên làm việc dài: Agent đang xử lý một tác vụ lớn sẽ bị dừng hoàn toàn nếu laptop vào sleep mode, mất điện, hoặc Wi-Fi ngắt giữa chừng.
    • Đường truyền dân dụng không đủ để tải model: File model từ vài GB đến vài chục GB — tải qua mạng gia đình chậm và hay bị lỗi kết nối trước khi hoàn tất.
    XEM THÊM:  Cách Cài Đặt Nginx + PHP + MySQL (LEMP Stack) Trên Ubuntu VPS [2026]

    3 lý do VPS Linux phù hợp với workload AI

    Mỗi hạn chế trên đều có đối trọng rõ ràng khi chuyển sang VPS Linux:

    Vấn đề trên máy cá nhân VPS Linux xử lý thế nào
    Phần cứng quá tải, máy nóng chậm Mọi tính toán do datacenter gánh. Máy bạn không làm gì thêm ngoài mở terminal SSH.
    Tiến trình bị ngắt khi mất kết nối Kết hợp Tmux: detach khỏi phiên, AI vẫn làm việc trên máy chủ. Kết nối lại lúc nào cũng được.
    Tải model chậm, hay lỗi Máy chủ kết nối backbone 1Gbps–10Gbps+. Model hàng chục GB tải trong vài phút, không lo đứt giữa chừng.

    Chọn cấu hình VPS Linux phù hợp với loại công cụ AI

    Sai lầm phổ biến khi thuê VPS cho AI là chọn cấu hình theo cảm tính, không theo loại công cụ sẽ dùng. Câu hỏi quyết định: Tính toán inference xảy ra ở đâu — trên máy chủ của Anthropic hay ngay trên VPS của bạn? Câu trả lời thay đổi yêu cầu RAM gấp đôi.

    Trường hợp 1: Dùng Claude Code qua API

    Claude Code kết nối tới hạ tầng Anthropic để xử lý mô hình. VPS chỉ đóng vai trò môi trường thực thi: quản lý file, chạy lệnh terminal, giao tiếp với API. Gánh nặng tính toán không nằm ở đây.

    Thông số Tối thiểu Nên có
    RAM 4GB 8GB — khi dùng Agent Teams (nhiều AI chạy đồng thời)
    CPU 2 vCPU 2–4 vCPU
    Lưu trữ SSD 20GB SSD 40GB+
    Chi phí tham khảo ~95/tháng (InterData)

    Trường hợp 2: Chạy model cục bộ qua Ollama

    Với Ollama, VPS phải nạp toàn bộ tham số model vào bộ nhớ và tự xử lý inference. Model qwen2.5-coder:7b — được dùng phổ biến cho coding — có dung lượng file khoảng 4.7GB. Để hệ thống không liên tục đẩy sang Swap khi xử lý context dài, RAM cần được tính rộng hơn nhiều.

    Thông số Tối thiểu Thực tế nên dùng
    RAM 8GB 16GB+ — đảm bảo xử lý context dài không bị OOM
    CPU 4 vCPU 4–8 vCPU; tốc độ sinh token phụ thuộc nhiều vào L3 cache
    Lưu trữ NVMe SSD 40GB NVMe SSD 80GB+ — mỗi model tốn 4–70GB tùy kích cỡ
    Chọn location hợp lý: Nếu dùng Claude Code (gọi API), ưu tiên VPS tại Việt Nam — SSH không lag, thao tác terminal mượt. Nếu chạy Ollama (cần RAM lớn), VPS quốc tế cho giá gói cao cấp tốt hơn.

    Hệ điều hành nên cài

    Ubuntu LTS là lựa chọn thực tế nhất cho môi trường Vibe Coding: không có giao diện đồ họa ngốn RAM, tương thích tốt với Docker và Tmux, kho package đầy đủ, và cộng đồng hỗ trợ rộng.

    • Ubuntu 24.04 LTS — Phiên bản hiện tại, nhận bản vá bảo mật đến tháng 4/2029. Phù hợp với máy chủ mới triển khai.
    • Ubuntu 22.04 LTS — Đã chạy ổn định trên diện rộng nhiều năm, lựa chọn tốt nếu bạn ưu tiên môi trường đã được kiểm chứng thực tế.

    5 Bước thiết lập VPS Linux để AI chạy xuyên suốt

    Nhận VPS là nhận địa chỉ IP và mật khẩu root. Từ đó đến khi AI làm việc ổn định, cần đi đúng thứ tự 5 bước sau.

    Bước 1: Kết nối SSH và tạo user non-root

    Đăng nhập lần đầu qua tài khoản root từ Terminal (macOS/Linux) hoặc PowerShell (Windows):

    ssh root@<địa_chỉ_IP_VPS_của_bạn>
    Tại sao bắt buộc phải có user non-root: Claude Code ở chế độ tự động hoàn toàn dùng cờ --dangerously-skip-permissions — cho phép AI tự sửa file mà không hỏi lại. Tính năng này bị từ chối khi đang ở tài khoản root, vì chạy AI toàn quyền trên root là rủi ro hệ thống quá cao. Tạo user riêng trước khi làm bất cứ thứ gì khác.

    Tạo user mới, ví dụ tên agent:

    adduser agent

    Gán quyền sudo để user này có thể chạy lệnh quản trị khi cần:

    usermod -aG sudo agent

    Chuyển qua user vừa tạo để bắt đầu làm việc:

    su - agent

    Bước 2: Cập nhật hệ thống và tạo Swap 8GB

    Cập nhật danh sách package và cài các công cụ hay dùng:

    sudo apt update && sudo apt upgrade -y
    sudo apt install curl wget git htop unzip nano tmux -y

    Tạo Swap 8GB — đây là lưới an toàn khi tác vụ AI đột ngột cần nhiều RAM hơn VPS đang có. Không có Swap, hệ thống sẽ kill process hoặc treo cứng khi hết bộ nhớ.

    # 1. Tạo file Swap kích thước 8GB
    sudo fallocate -l 8G /swapfile
    
    # 2. Giới hạn quyền truy cập — chỉ root mới đọc/ghi được
    sudo chmod 600 /swapfile
    
    # 3. Đánh dấu file này là vùng Swap
    sudo mkswap /swapfile
    
    # 4. Kích hoạt Swap ngay trong phiên hiện tại
    sudo swapon /swapfile
    
    # 5. Ghi vào fstab để Swap tự bật sau mỗi lần reboot
    echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab
    Swap không thay thế RAM — nó chỉ ngăn hệ thống crash khi bộ nhớ đầy bất ngờ. VPS 8GB RAM + Swap 8GB vẫn xử lý chậm hơn VPS 16GB RAM khi chạy model lớn, nhưng ít nhất tiến trình không chết giữa chừng.

    XEM THÊM:  Hướng Dẫn Cài Docker Compose Trên VPS Thành Công 100%

    Bước 3: Cài Claude Code và Ollama theo chuẩn Native Install

    Từ năm 2026, cả hai công cụ đều phân phối qua bộ cài nhị phân riêng — không cần cài Node.js hay NPM thủ công như các hướng dẫn cũ. Native Install chạy nhanh hơn và tự cập nhật ngầm.

    Cài Claude Code (dùng khi gọi model qua API Anthropic):

    curl -fsSL https://claude.ai/install.sh | bash

    Cài Ollama (dùng khi muốn chạy model ngay trên VPS, không qua API bên ngoài):

    curl -fsSL https://ollama.com/install.sh | sh

    Bước 4: Khởi chạy và xác thực tài khoản

    Xác thực Claude Code — không cần API Key thô: Thay vì dán key trực tiếp vào file cấu hình (dễ lộ), Claude Code xác thực qua trình duyệt theo quy trình OAuth-style:

    1. claude trong terminal và nhấn Enter.
    2. Terminal trả về một URL — copy toàn bộ link đó.
    3. Dán vào trình duyệt trên máy tính cá nhân, đăng nhập tài khoản Claude rồi nhấn Authorize.
    4. Trình duyệt hiển thị mã xác thực — nhấn Copy code.
    5. Quay lại terminal VPS, dán mã vào và nhấn Enter.
    6. Terminal hiện login successful — xác thực hoàn tất.

    Tải và chạy model qua Ollama: Lệnh run tự xử lý cả tải model lẫn khởi chạy trong một bước duy nhất:

    ollama run qwen2.5-coder:7b
    Lần đầu chạy lệnh này, Ollama tải file model ~4.7GB từ internet. Với băng thông datacenter 1Gbps+, thường mất dưới 2 phút. Từ lần hai trở đi, model đã có sẵn — khởi động dưới 10 giây.

    Bước 5: Dùng Tmux để giữ tiến trình AI sau khi ngắt SSH

    Khi chạy lệnh thông thường trong terminal SSH, đóng kết nối đồng nghĩa với dừng toàn bộ tiến trình đang chạy. Tmux tạo ra các phiên terminal ảo tồn tại độc lập — không bị ảnh hưởng khi SSH disconnect.

    Tạo phiên Tmux mới có tên dễ nhớ:

    tmux new -s vibe-workspace

    Bên trong phiên này, gõ claude và giao task cho AI bình thường.

    Tách khỏi phiên (Detach) mà không dừng tiến trình: Nhấn Ctrl + B, thả tay, rồi nhấn D. Terminal trở về màn hình bình thường — AI vẫn đang làm việc ở nền.

    Kết nối lại để xem tiến độ:

    tmux attach -t vibe-workspace
    💡 Ollama sau khi cài tự đăng ký như một system service — chạy ngầm không cần Tmux. Kiểm tra trạng thái bằng systemctl status ollama.

    Nâng cao: Tối ưu luồng làm việc với CLAUDE.md và Tmux song song

    CLAUDE.md — ngữ cảnh dự án tự nạp mỗi phiên làm việc

    CLAUDE.md là file Markdown đặt trong thư mục gốc dự án, chứa quy ước viết code, kiến trúc hệ thống và các lỗi đã gặp. Claude đọc file này tự động mỗi khi mở phiên mới — bạn không cần giải thích lại từ đầu về dự án qua mỗi lần chat.

    Cách tạo nhanh nhất: vào thư mục dự án, gõ /init bên trong dòng nhắc Claude Code. Hệ thống quét mã nguồn hiện có và tự tạo file với cấu trúc phù hợp.

    Khi dự án dùng Agent Teams — nhiều instance AI phân công làm việc song song — tất cả đều đọc cùng file CLAUDE.md. Nhờ vậy mọi AI con đều hiểu kiến trúc chung, không bị lệch hướng so với AI chủ đạo.

    Tách Dev Server sang luồng riêng để terminal chính không bị chiếm

    Kịch bản hay gặp: bạn yêu cầu AI khởi chạy npm run dev để test, nhưng lệnh này giữ terminal — không gõ thêm được gì nữa. Giải pháp chuẩn là thêm quy tắc vào CLAUDE.md, chỉ định AI phải tách tiến trình dài sang Tmux riêng:

    # Quy tắc thêm vào CLAUDE.md:
    # Với mọi tiến trình chạy liên tục (dev server, watcher...),
    # luôn dùng lệnh sau thay vì chạy trực tiếp:
    tmux new-session -d -s '{project}-{purpose}'

    Cờ -d tạo phiên ngầm ngay lập tức — Dev Server chạy trong luồng riêng (ví dụ myapp-dev), terminal chính không bị block. Muốn xem log lỗi:

    tmux capture-pane -t myapp-dev -p

    XEM THÊM:  Có Nên Đầu Tư VPS Đào Coin? Phân Tích Hiệu Quả, Rủi Ro A-Z

    Dùng Claude Code quản trị VPS tự động bằng ngôn ngữ tự nhiên

    Khi VPS Linux đã là môi trường AI, Claude Code không chỉ sinh mã nguồn — nó đọc được trạng thái hệ thống, phân tích vấn đề và đề xuất lệnh xử lý, tất cả qua prompt thông thường không cần bạn biết lệnh Linux.

    Kiểm tra sức khỏe hệ thống và thu hồi dung lượng Docker

    Prompt đơn giản: “Phân tích tình trạng VPS: mức dùng đĩa, RAM, các Docker container đang chạy.” Claude tự thực thi lệnh hệ thống và trả báo cáo dạng đọc được ngay.

    Một ví dụ điển hình: Claude phát hiện máy chủ đang tích lũy 3.8GB Docker image không còn được dùng. Sau khi được yêu cầu dọn dẹp, nó tự chạy lệnh Docker xóa các container lỗi thời — bao gồm bản cũ của portainern8n — và giải phóng dung lượng đĩa ngay trong phiên làm việc đó.

    Đọc log và nhận diện tấn công tự động

    Claude có thể phân tích file log hệ thống, nhận ra pattern tấn công mà người dùng thông thường không dễ thấy. Ví dụ: phát hiện hai địa chỉ IP lạ đang thử mật khẩu SSH liên tục (brute-force), sau đó chủ động đề xuất cài fail2ban để tự động chặn IP vi phạm sau một số lần thất bại nhất định.

    Bảo mật tối thiểu cho VPS chạy AI

    Máy chủ lưu mã nguồn dự án, token xác thực và dữ liệu nhạy cảm của bạn. Hai bước dưới đây mất chưa đến 5 phút nhưng đóng hai lỗ hổng lớn nhất bị khai thác nhiều nhất.

    Bật tường lửa UFW

    Thứ tự quan trọng: Mở cổng SSH trước, bật UFW sau. Đảo ngược thứ tự là bạn mất quyền truy cập VPS ngay lập tức và phải vào rescue mode để sửa.
    # Bước 1: Cho phép SSH trước khi bật tường lửa
    sudo ufw allow OpenSSH
    
    # Bước 2: Bật UFW
    sudo ufw enable
    
    # Bước 3: Xác nhận cấu hình đã đúng
    sudo ufw status

    Tắt đăng nhập SSH bằng tài khoản root

    Root là tài khoản mà bot quét mạng thử đầu tiên — cổng 22 với username root bị thử mật khẩu hàng ngàn lần mỗi ngày trên bất kỳ VPS công khai nào. Không cho root đăng nhập trực tiếp qua SSH là cách đơn giản nhất để vô hiệu hóa kiểu tấn công này.

    sudo nano /etc/ssh/sshd_config

    Tìm dòng PermitRootLogin, xóa dấu # nếu có và đổi giá trị:

    PermitRootLogin no

    Lưu file (Ctrl+XY → Enter) rồi reload cấu hình SSH:

    sudo systemctl restart sshd

    🚀 Triển khai VPS Linux cho AI ngay tại InterData
    VPS hiệu năng cao, sử dụng phần cứng thế hệ mới, 100% SSD NVMe cho tốc độ vượt trội, hỗ trợ kỹ thuật 24/7, setup nhanh chóng ngay sau khi đăng ký.
    Xem gói VPS tốc đô cao tại InterData | Hotline: 1900 636 822

    Câu Hỏi Thường Gặp

    VPS Windows có chạy được Claude Code không?

    Về mặt kỹ thuật thì được, qua PowerShell. Nhưng VPS Windows tốn nhiều RAM hơn cho giao diện đồ họa, đắt hơn cùng cấu hình, và không tương thích tự nhiên với Docker hay Tmux. Với workload Vibe Coding, Linux là môi trường phù hợp hơn rõ rệt.

    RAM 4GB có đủ để chạy Ollama không?

    Không. Mức 4GB chỉ phù hợp khi dùng Claude Code kết nối API bên ngoài. Để Ollama nạp và chạy model như qwen2.5-coder:7b, cần tối thiểu 8GB RAM, kết hợp với Swap để tránh OOM. Muốn xử lý context dài không bị chậm thì từ 16GB trở lên mới thoải mái.

    Chạy Claude Code trên VPS có phát sinh thêm phí không?

    Có. Bản thân Claude Code miễn phí, nhưng mỗi lần AI đọc file, sinh code hay thực thi tác vụ đều tiêu thụ token từ tài khoản API Anthropic. Ollama ngược lại — sau khi tải model về, hoàn toàn miễn phí, không gọi API bên ngoài.

    Tắt máy tính rồi, Claude Code trên VPS có tiếp tục chạy không?

    Có, nếu bạn đã dùng Tmux trước đó. Quy trình: tạo phiên bằng tmux new -s ai, khởi động Claude Code bên trong, sau đó detach bằng Ctrl+B rồi D. Tiến trình tồn tại trên máy chủ độc lập với kết nối của bạn. SSH lại và tmux attach -t ai là thấy ngay kết quả.

    Lấy code AI vừa viết về máy cá nhân bằng cách nào nhanh nhất?

    Yêu cầu Claude Code tự push lên GitHub hoặc GitLab: git init, commit và push là xong. Phía máy cá nhân chỉ cần git pull. Không cần dùng SCP, SFTP hay copy thủ công từng file.

    Ubuntu 22.04 hay 24.04 LTS nên chọn cái nào?

    Máy chủ mới: Ubuntu 24.04 LTS — gói phần mềm cập nhật hơn, nhận bản vá bảo mật đến tháng 4/2029. Nếu bạn cần môi trường đã chạy ổn định trên hàng triệu server production, Ubuntu 22.04 LTS là lựa chọn an toàn vì đã được kiểm chứng rộng rãi hơn.

    Kết Luận

    Thiết lập VPS Linux cho AI không phải việc chỉ dành cho sysadmin. Năm bước trong bài — từ tạo non-root user, cấu hình Swap, cài Native Install, xác thực an toàn, đến quản lý phiên với Tmux — đủ để bất kỳ developer nào có một môi trường AI hoạt động liên tục mà không cần giám sát.

    Khác biệt thực sự so với chạy trên máy cá nhân: giao task lúc 11 giờ đêm, sáng mở Tmux lên đọc kết quả. Không có gì bị dừng, không có gì bị mất. Đó là điểm khiến VPS Linux trở thành hạ tầng mặc định cho Vibe Coding.