Trong học máy (Machine Learning), underfitting là một vấn đề phổ biến khi mô hình không thể học được mối quan hệ giữa các biến đầu vào và đầu ra một cách chính xác, dẫn đến dự đoán sai lệch và hiệu suất kém. Vậy underfitting là gì và tại sao nó lại quan trọng trong việc phát triển mô hình học máy? Bài viết này sẽ giúp bạn hiểu rõ hơn về hiện tượng underfitting, các nguyên nhân gây ra nó và cách khắc phục hiệu quả để cải thiện độ chính xác của mô hình học máy của bạn.
Underfitting là gì?
Underfitting là khi một mô hình dữ liệu không thể nắm bắt chính xác mối quan hệ giữa các biến đầu vào và đầu ra, dẫn đến tỷ lệ lỗi cao trên cả bộ dữ liệu huấn luyện và dữ liệu chưa thấy khi phát triển các mô hình học máy.
Underfitting xảy ra khi mô hình quá đơn giản, điều này có thể là kết quả của việc mô hình cần thêm thời gian huấn luyện, thêm các đặc trưng đầu vào, hoặc giảm bớt regularization.

Giống như overfitting, khi một mô hình bị underfitting không thể xác định được xu hướng chủ đạo trong dữ liệu, dẫn đến lỗi huấn luyện và hiệu suất kém của mô hình.
Nếu mô hình không thể tổng quát tốt với dữ liệu mới, nó sẽ không thể được sử dụng cho các tác vụ phân loại hoặc dự đoán. Việc tổng quát hóa mô hình đối với dữ liệu mới là yếu tố quyết định giúp chúng ta sử dụng các thuật toán học máy hàng ngày để đưa ra dự đoán và phân loại dữ liệu.
Độ chệch cao và độ biến thiên thấp là những chỉ số tốt để nhận biết underfitting. Vì hiện tượng này có thể thấy ngay khi sử dụng bộ dữ liệu huấn luyện, các mô hình bị underfitting thường dễ nhận diện hơn so với các mô hình overfitting.
Nguyên nhân gây nên Underfitting là gì?
Có nhiều nguyên nhân có thể gây ra underfitting. Bốn nguyên nhân phổ biến nhất là:
- Kiến trúc mô hình quá đơn giản.
- Lựa chọn đặc trưng kém.
- Dữ liệu huấn luyện không đủ.
- Huấn luyện không đủ thời gian.
Hãy cùng tìm hiểu kỹ hơn về các nguyên nhân này.
Kiến trúc mô hình quá đơn giản
Kiến trúc mô hình đề cập đến sự kết hợp giữa thuật toán để huấn luyện mô hình và cấu trúc của mô hình. Nếu kiến trúc quá đơn giản, mô hình có thể gặp khó khăn trong việc nắm bắt các đặc tính cao cấp của dữ liệu huấn luyện, dẫn đến dự đoán không chính xác.
Ví dụ, nếu một mô hình cố gắng sử dụng một đường thẳng duy nhất để mô phỏng dữ liệu có dạng cong, nó sẽ liên tục bị underfit. Điều này xảy ra vì một đường thẳng không thể chính xác mô tả mối quan hệ cao cấp trong dữ liệu cong, khiến kiến trúc mô hình không phù hợp cho tác vụ này.
Lựa chọn đặc trưng kém
Lựa chọn đặc trưng liên quan đến việc chọn các biến phù hợp cho mô hình học máy trong quá trình huấn luyện. Ví dụ, bạn có thể yêu cầu một thuật toán học máy xem xét năm sinh, màu mắt, độ tuổi hoặc cả ba khi dự đoán liệu một người có nhấn nút mua hàng trên một trang web thương mại điện tử hay không.
Nếu có quá nhiều đặc trưng hoặc các đặc trưng được chọn không có mối tương quan mạnh mẽ với biến mục tiêu, mô hình sẽ không có đủ thông tin liên quan để đưa ra dự đoán chính xác. Màu mắt có thể không liên quan đến việc chuyển đổi khách hàng, và độ tuổi có thể chứa đựng nhiều thông tin tương tự như năm sinh.

Dữ liệu huấn luyện không đủ
Khi có quá ít điểm dữ liệu, mô hình có thể bị underfit vì dữ liệu không thể nắm bắt được những đặc tính quan trọng của vấn đề. Điều này có thể xảy ra do thiếu dữ liệu hoặc do sai lệch mẫu, khi các nguồn dữ liệu nhất định bị loại trừ hoặc không đủ đại diện, ngăn cản mô hình học các mẫu quan trọng.
Huấn luyện không đủ thời gian
Huấn luyện một mô hình học máy bao gồm việc điều chỉnh các tham số bên trong (trọng số) của mô hình dựa trên sự khác biệt giữa dự đoán và kết quả thực tế. Càng có nhiều vòng huấn luyện, mô hình sẽ càng điều chỉnh tốt hơn để khớp với dữ liệu. Nếu mô hình được huấn luyện với quá ít vòng, nó có thể không có đủ cơ hội để học từ dữ liệu, dẫn đến underfitting.
Điều gì xảy ra khi mô hình bị Underfitting
Việc xác định những gì sẽ xảy ra nếu bạn đưa một mô hình bị underfitting vào sản xuất là rất đơn giản. Mô hình của bạn sẽ không hoạt động tốt. Nó sẽ đưa ra các dự đoán sai lệch, gây thất vọng cho khách hàng hoặc dẫn đến các quyết định kinh doanh không sáng suốt dựa trên thông tin không chính xác.
Vì vậy, việc giải quyết vấn đề underfitting trong mô hình là cực kỳ quan trọng từ góc độ kinh doanh. Từ góc độ kỹ thuật, một mô hình bị underfit sẽ có độ chệch cao và độ biến thiên thấp.
Nói một cách đơn giản, mô hình sẽ tạo ra các dự đoán không chính xác một cách đáng tin cậy, và mặc dù độ tin cậy là điều mong muốn, nhưng sự không chính xác thì chắc chắn không.
Mặt khác, khi giải quyết vấn đề underfitting, cần chú ý không đi quá xa về phía ngược lại để không khiến mô hình của bạn bị overfitting.
Cách phát hiện Underfitting
Một cách để phát hiện underfitting là phân tích các đường cong học, trong đó vẽ hiệu suất của mô hình (thường là lỗi hoặc tổn thất) so với số lượng vòng huấn luyện. Đường cong học cho thấy mô hình cải thiện như thế nào (hoặc không cải thiện) theo thời gian trên cả dữ liệu huấn luyện và xác nhận.
Tổn thất (loss) là độ lớn của lỗi mô hình đối với một bộ dữ liệu nhất định. Dữ liệu xác nhận là một bộ dữ liệu riêng biệt dùng để kiểm tra hiệu suất của mô hình. Nó thường được tạo ra bằng cách chia ngẫu nhiên một bộ dữ liệu lớn thành dữ liệu huấn luyện và dữ liệu xác nhận.

Trong trường hợp underfitting, bạn sẽ nhận thấy các mẫu sau:
- Lỗi huấn luyện cao: Nếu lỗi huấn luyện của mô hình vẫn cao và ổn định ngay từ đầu, điều này cho thấy mô hình không học từ dữ liệu huấn luyện. Đây là dấu hiệu rõ ràng của underfitting, vì mô hình quá đơn giản để thích ứng với độ phức tạp của dữ liệu.
- Lỗi huấn luyện và lỗi xác nhận tương tự nhau: Nếu lỗi huấn luyện và lỗi xác nhận đều cao và gần như không thay đổi trong suốt quá trình huấn luyện, điều này có nghĩa là mô hình đang hoạt động kém trên cả hai bộ dữ liệu. Điều này chỉ ra rằng mô hình không nắm bắt đủ thông tin từ dữ liệu để đưa ra dự đoán chính xác, từ đó dẫn đến underfitting.
Cách phòng tránh Underfitting trong Machine Learning hiệu quả
Vì chúng ta có thể phát hiện underfitting từ bộ dữ liệu huấn luyện và có thể trợ giúp tốt hơn trong việc xác định mối quan hệ chủ đạo giữa các biến đầu vào và đầu ra ngay từ đầu. Bằng cách duy trì độ phức tạp mô hình đầy đủ, chúng ta có thể tránh được underfitting và đưa ra các dự đoán chính xác hơn.
Dưới đây là một số kỹ thuật có thể được sử dụng để giảm thiểu underfitting:
- Giảm regularization (chuẩn hóa): Regularization thường được sử dụng để giảm độ biến thiên của mô hình bằng cách áp dụng hình phạt cho các tham số đầu vào có hệ số lớn. Có một số phương pháp khác nhau, như regularization L1, Lasso, dropout, v.v., giúp giảm nhiễu và các giá trị ngoại lệ trong mô hình. Tuy nhiên, nếu các đặc trưng dữ liệu trở nên quá đồng nhất, mô hình không thể nhận diện được xu hướng chủ đạo, dẫn đến underfitting. Bằng cách giảm bớt regularization, độ phức tạp và sự biến thiên được đưa vào mô hình, cho phép huấn luyện mô hình thành công.
- Tăng thời gian huấn luyện: Như đã đề cập trước đó, dừng huấn luyện quá sớm cũng có thể dẫn đến mô hình underfit. Do đó, việc kéo dài thời gian huấn luyện có thể giúp tránh được tình trạng này. Tuy nhiên, cần phải chú ý đến việc huấn luyện quá mức, từ đó gây ra overfitting. Tìm kiếm sự cân bằng giữa hai tình huống này là rất quan trọng.
- Lựa chọn đặc trưng: Với bất kỳ mô hình nào, các đặc trưng cụ thể được sử dụng để xác định kết quả đầu ra. Nếu không có đủ đặc trưng dự đoán, bạn cần thêm các đặc trưng khác hoặc các đặc trưng có tầm quan trọng lớn hơn. Ví dụ, trong mạng nơ-ron, bạn có thể thêm nhiều nơ-ron ẩn hoặc trong rừng ngẫu nhiên, bạn có thể thêm nhiều cây. Quá trình này sẽ thêm độ phức tạp vào mô hình, mang lại kết quả huấn luyện tốt hơn.
Với những hiểu biết về underfitting là gì, ta có thể áp dụng các kỹ thuật và phương pháp phù hợp để cải thiện mô hình học máy, tránh các vấn đề liên quan đến độ chệch cao và biến thiên thấp. Bằng cách điều chỉnh kiến trúc mô hình, lựa chọn đặc trưng chính xác và tăng thời gian huấn luyện, bạn sẽ xây dựng được các mô hình hiệu quả, giúp cải thiện độ chính xác trong các tác vụ phân loại và dự đoán.
Để khắc phục underfitting và xây dựng những mô hình học máy chính xác, bạn cần thử nghiệm với nhiều tập dữ liệu lớn, tinh chỉnh tham số và thậm chí là thiết kế mô hình phức tạp hơn. Quá trình này đòi hỏi một môi trường tính toán mạnh mẽ và ổn định. InterData cung cấp giải pháp Cloud Server hiệu suất cao, thuê VPS tốc độ cao, giá tốt giúp bạn tối ưu hóa quá trình phát triển mô hình.
Với phần cứng thế hệ mới, bao gồm CPU AMD EPYC và ổ cứng SSD NVMe U.2, bạn sẽ có được hiệu năng vượt trội, đáp ứng mọi nhu cầu tính toán phức tạp. Chỉ từ 90.000 VNĐ/tháng, bạn đã có thể sở hữu một VPS cấu hình mạnh mẽ, băng thông lớn, đảm bảo tốc độ xử lý nhanh chóng và ổn định. InterData là nhà cung cấp uy tín, cam kết mang đến dịch vụ chất lượng, giúp bạn tập trung vào việc phát triển mô hình mà không phải lo lắng về hạ tầng.
Hãy liên hệ ngay với InterData để được tư vấn và lựa chọn gói VPS phù hợp, cùng bạn chinh phục mọi bài toán trong lĩnh vực học máy!
InterData
- Website: Interdata.vn
- Hotline 24/24: 1900-636822
- Email: [email protected]
- VPĐD: 240 Nguyễn Đình Chính, P.11. Q. Phú Nhuận, TP. Hồ Chí Minh
- VPGD: Số 211 Đường số 5, KĐT Lakeview City, P. An Phú, TP. Thủ Đức, TP. Hồ Chí Minh