Phân đoạn hình ảnh (Image Segmentation) là một kỹ thuật quan trọng trong xử lý hình ảnh kỹ thuật số và thị giác máy tính, giúp tách biệt các phần quan trọng của hình ảnh để phân tích và xử lý hiệu quả hơn. Bài viết này sẽ cung cấp cái nhìn tổng quan Image Segmentation là gì, cách hoạt động, tìm hiểu các kỹ thuật phân đoạn ảnh cũng như các mô hình phân đoạn hình ảnh học sâu phổ biến hiện nay. Đọc ngay nhé!
Image Segmentation là gì?
Phân đoạn hình ảnh (Image Segmentation) là một kỹ thuật cơ bản trong xử lý hình ảnh kỹ thuật số và thị giác máy tính có thể phân chia một hình ảnh số thành nhiều phân đoạn (vùng hoặc đối tượng) để đơn giản hóa và phân tích hình ảnh bằng cách tách nó thành các thành phần có ý nghĩa.

Thông qua việc này, quá trình xử lý hình ảnh được thực hiện một cách hiệu quả hơn bằng cách tập trung vào các vùng cụ thể cần quan tâm. Một nhiệm vụ phân đoạn hình ảnh điển hình trải qua các bước sau:
- Nhóm các pixel trong hình ảnh dựa trên những đặc điểm chung như màu sắc, cường độ hoặc kết cấu.
- Gán nhãn cho mỗi pixel, chỉ ra sự thuộc về của nó vào một phân đoạn hoặc đối tượng cụ thể.
Kết quả là một hình ảnh đã được phân đoạn, thường được trực quan hóa dưới dạng mặt nạ hoặc lớp phủ làm nổi bật các phân đoạn khác nhau.
Tại sao cần Image Segmentation?
Phân đoạn hình ảnh rất quan trọng trong các nhiệm vụ thị giác máy tính vì nó giúp chia nhỏ các hình ảnh phức tạp thành những phần dễ quản lý hơn.
Cũng giống như việc tách các nguyên liệu trong một món ăn, bằng cách phân biệt các đối tượng (vật thể) và nền (cảnh vật), việc phân tích hình ảnh trở nên hiệu quả và chính xác hơn. Điều này rất quan trọng trong các nhiệm vụ như xe tự lái nhận diện đối tượng hay hình ảnh y tế phân tích khối u. Việc hiểu nội dung hình ảnh ở mức độ chi tiết này mở ra một loạt các ứng dụng rộng lớn hơn trong thị giác máy tính.
Cách Image Segmentation hoạt động
Bước đầu tiên trong phân đoạn hình ảnh là chuyển đổi hình ảnh thành một tập hợp các vùng pixel, được đại diện bằng một mặt nạ hoặc hình ảnh đã được gán nhãn. Bằng cách chia một hình ảnh thành các phân đoạn, bạn có thể chọn và xử lý chỉ những phân đoạn quan trọng thay vì phải xử lý toàn bộ hình ảnh.
Một kỹ thuật phổ biến là tìm kiếm các điểm gián đoạn đột ngột trong giá trị pixel, điều này thường chỉ ra các cạnh định nghĩa một vùng. Một phương pháp phổ biến khác là phát hiện sự tương đồng trong các vùng của hình ảnh. Một số kỹ thuật theo phương pháp này bao gồm phát triển vùng, phân cụm và ngưỡng.
Image Segmentation so với Object Detection và Image classification
Phân đoạn hình ảnh đại diện cho sự tiến hóa nâng cao của cả phân loại hình ảnh và phát hiện đối tượng, đồng thời có một bộ khả năng riêng biệt trong thị giác máy tính.
Image classification áp dụng một nhãn lớp cho toàn bộ hình ảnh. Ví dụ, một mô hình phân loại hình ảnh đơn giản có thể được huấn luyện để phân loại hình ảnh phương tiện là “ô tô” hoặc “xe tải”. Các hệ thống phân loại hình ảnh thông thường có giới hạn về độ phức tạp, vì chúng không xử lý các đặc điểm riêng lẻ trong hình ảnh.

Object Detection kết hợp phân loại hình ảnh với định vị đối tượng, tạo ra các vùng hình chữ nhật gọi là “bounding boxes” để xác định vị trí của các đối tượng: thay vì chỉ gán nhãn một hình ảnh phương tiện là “ô tô” hoặc “xe tải”, một mô hình phát hiện đối tượng có thể chỉ rõ vị trí của ô tô hoặc xe tải trong hình ảnh.
Mặc dù phát hiện đối tượng có thể phân loại nhiều yếu tố trong một hình ảnh và ước lượng chiều rộng và chiều cao của từng yếu tố, nó không thể phân biệt chính xác các ranh giới hay hình dạng. Điều này hạn chế khả năng của các mô hình phát hiện đối tượng thông thường trong việc phân tách các đối tượng gần nhau có hộp bao quanh chồng lấn.
Image Segmentation xử lý dữ liệu hình ảnh ở mức độ pixel, sử dụng nhiều kỹ thuật để chú thích từng pixel thuộc về một lớp hoặc thể hiện cụ thể. Các kỹ thuật phân đoạn hình ảnh “cổ điển” xác định các chú thích bằng cách phân tích các đặc điểm vốn có của từng pixel (gọi là “heuristics”) như màu sắc và cường độ, trong khi các mô hình học sâu sử dụng các mạng nơ-ron phức tạp để nhận diện mẫu tinh vi.
Kết quả của việc chú thích này là các mặt nạ phân đoạn, thể hiện biên giới và hình dạng từng lớp, thường tương ứng với các đối tượng, đặc điểm hoặc vùng khác nhau trong hình ảnh.
Nói chung, kỹ thuật Image Segmentation được sử dụng cho ba loại nhiệm vụ: phân đoạn ngữ nghĩa (semantic segmentation), phân đoạn thể hiện (instance segmentation) và phân đoạn toàn cảnh (panoptic segmentation).
Các kỹ thuật phân đoạn hình ảnh truyền thống
Các kỹ thuật phân đoạn hình ảnh truyền thống sử dụng thông tin từ giá trị màu sắc của pixel (và các đặc điểm liên quan như độ sáng, độ tương phản hoặc cường độ) để trích xuất đặc điểm, và có thể được huấn luyện nhanh chóng với các thuật toán học máy đơn giản cho các nhiệm vụ như phân loại ngữ nghĩa.
Trong khi các phương pháp phân đoạn dựa trên học sâu có khả năng chính xác hơn và phân tích hình ảnh tinh vi hơn, đặc biệt là các nhiệm vụ như phân đoạn toàn cảnh đòi hỏi nhiều thông tin bối cảnh thì các phương pháp truyền thống ít tốn kém và yêu cầu tính toán ít hơn, có thể giải quyết một số vấn đề một cách hiệu quả hơn.
Một số kỹ thuật Image Segmentation truyền thống (cổ điển) bao gồm:
- Ngưỡng (Thresholding): Các phương pháp ngưỡng tạo ra các hình ảnh nhị phân, phân loại pixel dựa trên việc cường độ của chúng có vượt qua một giá trị ngưỡng nhất định hay không. Phương pháp Otsu thường được sử dụng để xác định giá trị ngưỡng tối thiểu hóa sự biến động trong lớp.
- Biểu đồ tần suất (Histograms): Biểu đồ tần suất, vẽ đồ thị tần suất của các giá trị pixel trong hình ảnh, thường được sử dụng để xác định ngưỡng. Ví dụ, biểu đồ tần suất có thể suy ra các giá trị của các pixel nền, giúp phân tách các pixel đối tượng.
- Phát hiện cạnh (Edge detection): Các phương pháp phát hiện cạnh xác định ranh giới của các đối tượng hoặc lớp bằng cách phát hiện sự gián đoạn trong độ sáng hoặc độ tương phản.
- Watershed: Các thuật toán watershed chuyển đổi hình ảnh thành hình ảnh xám, sau đó tạo ra bản đồ địa hình mà độ cao của mỗi pixel được xác định bởi độ sáng của nó. Các vùng, ranh giới và đối tượng có thể được suy ra từ nơi các “thung lũng”, “rặng núi” và “bể chứa nước” hình thành.
- Phân đoạn theo vùng (Region-based segmentation): Bắt đầu từ một hoặc nhiều pixel “hạt giống”, các thuật toán phát triển vùng nhóm các pixel lân cận có đặc điểm tương tự lại với nhau. Các thuật toán này có thể là tích lũy hoặc phân chia.
- Phân đoạn dựa trên phân cụm (Clustering-based segmentation): Một phương pháp học không giám sát, thuật toán phân cụm chia dữ liệu hình ảnh thành các nhóm pixel có giá trị tương tự nhau. Một biến thể phổ biến là phân cụm K-means, trong đó k là số lượng cụm: các giá trị pixel được vẽ như các điểm dữ liệu và chọn k điểm ngẫu nhiên làm tâm của một cụm (“centroid”). Mỗi pixel được gán vào một cụm dựa trên tâm của cụm gần nhất, sau đó các centroid được di chuyển đến trung bình của mỗi cụm và quá trình lặp lại, di chuyển centroid cho đến khi các cụm ổn định.
Các kỹ thuật phân đoạn hình ảnh phổ biến hiện nay
Phân đoạn ngữ nghĩa (Semantic Segmentation)
Phân đoạn ngữ nghĩa là một trong các loại phân đoạn hình ảnh, trong đó một nhãn lớp được gán cho các pixel trong hình ảnh bằng thuật toán học sâu (DL). Trong phân đoạn ngữ nghĩa, các nhóm pixel trong hình ảnh được nhận diện và phân loại bằng cách gán nhãn lớp dựa trên các đặc điểm của chúng như màu sắc, kết cấu và hình dạng. Điều này cung cấp một bản đồ phân đoạn chi tiết theo pixel của hình ảnh (segmentation map) để giúp phân tích hình ảnh chính xác hơn.
Ví dụ, tất cả các pixel liên quan đến một “cây” sẽ được gán cùng một nhãn đối tượng mà không phân biệt các cây riêng biệt. Ví dụ khác là một nhóm người trong hình ảnh sẽ được gán nhãn là một đối tượng duy nhất “người”, thay vì nhận diện từng người một.

Phân đoạn thể hiện (Instance Segmentation)
Phân đoạn thể hiện trong phân đoạn hình ảnh của các nhiệm vụ thị giác máy tính là một tính năng phức tạp hơn, liên quan đến việc nhận diện và phân tách mỗi đối tượng riêng biệt trong hình ảnh. Vì vậy, phân đoạn thể hiện không chỉ nhận diện các đối tượng trong hình ảnh mà còn phân tách ranh giới chính xác của mỗi thể hiện đối tượng đó.
Vì vậy, mục tiêu chính của phân đoạn thể hiện là phân biệt các đối tượng riêng biệt trong cùng một lớp. Ví dụ, nếu có nhiều con mèo trong hình ảnh, phân đoạn thể hiện sẽ nhận diện và vẽ ranh giới cho mỗi con mèo cụ thể. Bản đồ phân đoạn được tạo ra cho mỗi pixel riêng lẻ và gán nhãn riêng cho các thể hiện cụ thể của đối tượng bằng cách tạo ra các nhãn màu khác nhau để đại diện cho từng “con mèo” trong nhóm mèo trong hình ảnh.
Phân đoạn thể hiện hữu ích trong các xe tự lái để nhận diện các đối tượng riêng biệt như người đi bộ, các phương tiện khác và bất kỳ vật thể nào trên lộ trình di chuyển. Trong chẩn đoán hình ảnh y tế, việc phân tích hình ảnh quét để phát hiện các bất thường cụ thể rất hữu ích cho việc phát hiện sớm ung thư và các bệnh lý khác của cơ quan.
Phân đoạn toàn cảnh (Panoptic Segmentation)
Phân đoạn toàn cảnh đi thêm một bước trong phân đoạn hình ảnh của các nhiệm vụ thị giác máy tính, bằng cách kết hợp các tính năng và quy trình của phân đoạn ngữ nghĩa và phân đoạn thể hiện. Vì vậy, thuật toán phân đoạn toàn cảnh tạo ra một phân tích hình ảnh toàn diện bằng cách đồng thời phân loại mỗi pixel và nhận diện các thể hiện đối tượng riêng biệt của cùng một lớp.
Vì vậy, từ một hình ảnh có nhiều ô tô và người đi bộ tại một tín hiệu giao thông, phân đoạn toàn cảnh sẽ gán nhãn tất cả các “người đi bộ” và “ô tô” (phân đoạn ngữ nghĩa) và vẽ các hộp bao quanh quanh chúng để nhận diện và phân tách mỗi người và mỗi chiếc ô tô, đồng thời phân loại các tình huống xung quanh khác như biển báo đường, đèn giao thông và các công trình hoặc nền khác. Phân đoạn toàn cảnh phát hiện và giải thích mọi thứ trong một hình ảnh.
Phân đoạn toàn cảnh tận dụng sức mạnh của mạng tích chập hoàn toàn (FCN) cho bối cảnh ngữ nghĩa và Mask R-CNN cho chi tiết thể hiện riêng biệt, mang lại kết quả kết hợp để đạt được sự hiểu biết toàn diện và tinh vi hơn về dữ liệu hình ảnh.
Mô hình Image Segmentation trong học sâu
Được huấn luyện trên một bộ dữ liệu hình ảnh đã được chú thích, các mạng nơ-ron trong mô hình phân đoạn hình ảnh học sâu phát hiện các mẫu cơ bản trong dữ liệu hình ảnh và nhận diện các đặc điểm nổi bật có liên quan nhất đến phân loại, phát hiện và phân đoạn.
Mặc dù có một số đánh đổi về yêu cầu tính toán và thời gian huấn luyện, các mô hình học sâu luôn vượt trội hơn các mô hình truyền thống và là nền tảng cho hầu hết các tiến bộ hiện tại trong thị giác máy tính.
Các mô hình học sâu nổi bật được sử dụng trong phân đoạn hình ảnh bao gồm:
- Mạng tích chập hoàn toàn (FCNs): FCNs, thường được sử dụng cho phân đoạn ngữ nghĩa, là một loại mạng nơ-ron tích chập (CNN) không có lớp cố định. Mạng mã hóa truyền dữ liệu đầu vào hình ảnh qua các lớp tích chập để trích xuất các đặc điểm liên quan đến phân đoạn hoặc phân loại, và nén (hoặc giảm mẫu) dữ liệu đặc điểm này để loại bỏ thông tin không cần thiết. Dữ liệu đã nén sau đó được đưa vào các lớp giải mã, tăng kích thước dữ liệu đặc điểm đã trích xuất để tái tạo lại hình ảnh đầu vào với các mặt nạ phân đoạn.
- U-Nets: U-Nets sửa đổi kiến trúc FCN để giảm mất mát dữ liệu trong quá trình giảm mẫu với các kết nối bỏ qua, bảo vệ chi tiết hơn bằng cách chọn lọc bỏ qua một số lớp tích chập khi thông tin và độ dốc di chuyển qua mạng nơ-ron. Tên của nó được đặt theo hình dạng của các sơ đồ minh họa cách bố trí các lớp của nó.
- Deeplab: Giống như U-Nets, Deeplab là một kiến trúc FCN đã được sửa đổi. Ngoài các kết nối bỏ qua, nó sử dụng phép toán tích chập loãng (hoặc “atrous”) để tạo ra các bản đồ đầu ra lớn hơn mà không cần thêm sức mạnh tính toán.
- Mask R-CNNs: Mask R-CNNs là mô hình hàng đầu cho phân đoạn thể hiện. Mask R-CNNs kết hợp một mạng đề xuất vùng (RPN) tạo ra các hộp bao quanh cho mỗi thể hiện tiềm năng với một “mask head” dựa trên FCN, tạo ra các mặt nạ phân đoạn trong mỗi hộp bao quanh đã được xác nhận.
- Transformers: Lấy cảm hứng từ sự thành công của các mô hình transformer như GPT và BLOOM trong xử lý ngôn ngữ tự nhiên, các mô hình mới như Vision Transformer (ViT) sử dụng cơ chế chú ý thay cho các lớp tích chập đã đạt được hoặc vượt qua hiệu suất của CNN trong các nhiệm vụ thị giác máy tính.
Các trường hợp sử dụng Image Segmentation
Phân đoạn hình ảnh đã trở thành một công cụ thiết yếu trong nhiều lĩnh vực.
- Chẩn đoán hình ảnh y tế: Phân đoạn hình ảnh có nhiều ứng dụng trong các lĩnh vực như X-quang, cộng hưởng từ (MRI), siêu âm và chụp cắt lớp vi tính (CT), hỗ trợ các nhiệm vụ như phát hiện khối u, phân đoạn não, chẩn đoán bệnh và lập kế hoạch phẫu thuật.
- Xe tự lái: Phân đoạn hình ảnh cho phép xe tự lái tránh các vật cản như người đi bộ và các xe khác, cũng như nhận diện làn đường và biển báo giao thông. Nó cũng được sử dụng để hỗ trợ định hướng trong robot.
- Hình ảnh vệ tinh: Phân đoạn ngữ nghĩa và phân đoạn thể hiện tự động nhận diện các địa hình và đặc điểm địa lý khác nhau.
- Thành phố thông minh: Phân đoạn hình ảnh hỗ trợ các nhiệm vụ như giám sát giao thông theo thời gian thực và giám sát.
- Sản xuất: Ngoài việc hỗ trợ các nhiệm vụ robot, phân đoạn hình ảnh còn hỗ trợ việc phân loại sản phẩm và phát hiện lỗi.
- Nông nghiệp: Phân đoạn hình ảnh giúp nông dân ước tính năng suất cây trồng và phát hiện cỏ dại để loại bỏ.

Phân đoạn hình ảnh là một công cụ không thể thiếu trong nhiều ứng dụng thị giác máy tính hiện đại, từ xe tự lái, chẩn đoán y tế đến các hệ thống giám sát thông minh. Việc hiểu kỹ thuật phân đoạn hình ảnh là gì và áp dụng đúng giúp cải thiện độ chính xác và hiệu quả trong việc phân tích dữ liệu hình ảnh.
Khi triển khai các ứng dụng phân đoạn hình ảnh hoặc các dự án AI yêu cầu xử lý dữ liệu lớn, thuê VPS tốc độ cao tại InterData sẽ là giải pháp lý tưởng. Với phần cứng thế hệ mới như CPU AMD EPYC/Intel Xeon Platinum, SSD NVMe U.2, dung lượng tối ưu và băng thông cao, bạn sẽ có một nền tảng mạnh mẽ và ổn định cho mọi tác vụ xử lý hình ảnh.
Ngoài ra, nếu bạn cần một giải pháp linh hoạt và hiệu quả hơn, thuê Cloud Server giá rẻ tốc độ cao tại InterData sẽ giúp bạn triển khai các mô hình học sâu và xử lý dữ liệu phức tạp một cách nhanh chóng. Với cấu hình mạnh mẽ, tốc độ cao và giá cả hợp lý, dịch vụ Cloud Server của chúng tôi sẽ đáp ứng mọi nhu cầu về hiệu suất và ổn định cho các dự án AI của bạn.
INTERDATA
- Website: Interdata.vn
- Hotline: 1900-636822
- Email: [email protected]
- VPĐD: 240 Nguyễn Đình Chính, P.11. Q. Phú Nhuận, TP. Hồ Chí Minh
- VPGD: Số 211 Đường số 5, KĐT Lakeview City, P. An Phú, TP. Thủ Đức, TP. Hồ Chí Minh