Phương sai sai lệch trong học máy là gì?



Bài viết này đề cập đến khái niệm độ chệch và phương sai trong học máy với mối quan hệ giữa chúng xác định độ chính xác dự đoán của mô hình.

Trong , hiệu suất của một mô hình dựa trên các dự đoán của nó và mức độ khái quát của nó đối với dữ liệu độc lập, không nhìn thấy được. Một cách để đo độ chính xác của mô hình là lưu ý đến độ chệch và phương sai trong mô hình. Trong bài viết này, chúng ta sẽ tìm hiểu xem phương sai lệch đóng một vai trò quan trọng như thế nào trong việc xác định tính xác thực của mô hình. Các chủ đề sau được thảo luận trong bài viết này:

Lỗi không thể sửa chữa

Bất kỳ mô hình nào trong được đánh giá dựa trên lỗi dự đoán trên một tập dữ liệu mới độc lập, không nhìn thấy. Lỗi không là gì khác ngoài sự khác biệt giữa sản lượng thực tế và sản lượng dự đoán. Để tính toán sai số, chúng tôi thực hiện phép tính tổng của phân tích phương sai a.k.a sai lệch có thể rút gọn và không thể thu hồi được.





Lỗi không thể thay đổi không là gì ngoài những lỗi không thể giảm bớt bất kể mà bạn sử dụng trong mô hình. Nó gây ra bởi các biến bất thường có ảnh hưởng trực tiếp đến biến đầu ra. Vì vậy, để làm cho mô hình của bạn hiệu quả, chúng tôi còn lại lỗi có thể giảm thiểu mà chúng tôi cần phải tối ưu hóa bằng mọi giá.

Một lỗi có thể giảm thiểu có hai thành phần: Bias và Variance , sự hiện diện của độ chệch và phương sai ảnh hưởng đến độ chính xác của mô hình theo một số cách như overfitting, underfitting , Vân vân.Chúng ta hãy xem xét độ chệch và phương sai để hiểu cách đối phó với lỗi có thể giảm thiểu trong .



Bias trong Machine Learning là gì?

Độ lệch về cơ bản là chúng ta đã dự đoán giá trị bao xa so với giá trị thực tế. Chúng tôi nói rằng độ chệch quá cao nếu các dự đoán trung bình khác xa với giá trị thực tế.

Độ chệch cao sẽ khiến thuật toán bỏ lỡ một mẫu hoặc mối quan hệ chi phối giữa các biến đầu vào và đầu ra. Khi độ chệch quá cao, người ta cho rằng mô hình khá đơn giản và không hiểu được độ phức tạp của tập dữ liệu để xác định mối quan hệ và do đó,gây ra tình trạng thiếu trang bị.

Phương sai trong một mô hình học máy?

Trên một tập dữ liệu độc lập, không nhìn thấy hoặc một tập hợp xác thực. Khi một mô hình không hoạt động tốt như với tập dữ liệu đã đào tạo, có khả năng mô hình có một phương sai. Về cơ bản, nó cho biết các giá trị được dự đoán phân tán như thế nào so với các giá trị thực tế.



Phương sai cao trong tập dữ liệu có nghĩa là mô hình đã được huấn luyện với nhiều nhiễu và dữ liệu không liên quan. Do đó gây ra hiện tượng overfitting trong mô hình. Khi một mô hình có phương sai cao, nó trở nên rất linh hoạt và đưa ra dự đoán sai cho các điểm dữ liệu mới. Bởi vì nó đã tự điều chỉnh các điểm dữ liệu của tập huấn luyện.

Chúng ta hãy cũng cố gắng hiểu khái niệm phương sai sai lệch về mặt toán học. Đặt biến mà chúng ta đang dự đoán là Y và các biến độc lập khác là X. Bây giờ, chúng ta hãy giả sử có mối quan hệ giữa hai biến sao cho:

Y = f (X) + e

Trong phương trình trên, Đây là sai số ước tính với giá trị trung bình 0. Khi chúng tôi tạo bộ phân loại bằng các thuật toán như hồi quy tuyến tính , , v.v., lỗi bình phương mong đợi tại điểm x sẽ là:

err (x) = Bias2+ Phương sai + lỗi không thể điều chỉnh được

Hãy để chúng tôi hiểu cách thức mà Phương sai lệch sẽ ảnh hưởng đến Học máy hiệu suất của mô hình.

chuyển đổi tra cứu trong ví dụ Informatica

Nó ảnh hưởng đến mô hình học máy như thế nào?

Chúng ta có thể đặt mối quan hệ giữa phương sai sai lệch trong bốn loại được liệt kê dưới đây:

  1. Phương sai cao-Độ chệch cao - Mô hình không nhất quán và trung bình cũng không chính xác
  2. Phương sai thấp-Chênh lệch cao - Các mô hình nhất quán nhưng trung bình thấp
  3. Chênh lệch cao-Chênh lệch thấp - Hơi chính xác nhưng không nhất quán về giá trị trung bình
  4. Low Variance-Low Bias - Đây là kịch bản lý tưởng, mô hình nhất quán và chính xác ở mức trung bình.

bias-variance trong machine learning-edureka

Mặc dù việc phát hiện độ chệch và phương sai trong một mô hình là khá rõ ràng. Một mô hình có phương sai cao sẽ có sai số huấn luyện thấp và sai số xác nhận cao. Và trong trường hợp có độ chệch cao, mô hình sẽ có lỗi huấn luyện cao và lỗi xác nhận giống như lỗi huấn luyện.

Trong khi việc phát hiện có vẻ dễ dàng, nhiệm vụ thực sự là giảm nó xuống mức tối thiểu. Trong trường hợp đó, chúng ta có thể làm như sau:

  • Thêm nhiều tính năng đầu vào hơn
  • Phức tạp hơn bằng cách giới thiệu các tính năng đa thức
  • Giảm thời hạn chính quy
  • Nhận thêm dữ liệu đào tạo

Bây giờ chúng ta đã biết độ chệch và phương sai là gì và nó ảnh hưởng như thế nào đến mô hình của chúng ta, chúng ta hãy xem xét sự cân bằng giữa phương sai.

Đánh đổi phương sai sai lệch

Việc tìm kiếm sự cân bằng phù hợp giữa độ chệch và phương sai của mô hình được gọi là sự cân bằng giữa phương sai lệch. Về cơ bản đây là một cách để đảm bảo rằng mô hình không được trang bị quá nhiều hoặc thiếu trang bị trong mọi trường hợp.

Nếu mô hình quá đơn giản và có rất ít tham số, nó sẽ bị sai lệch cao và phương sai thấp. Ngược lại, nếu mô hình có một số lượng lớn các tham số, nó sẽ có phương sai cao và độ chệch thấp. Sự đánh đổi này sẽ dẫn đến một mối quan hệ hoàn toàn cân bằng giữa hai bên. Lý tưởng nhất, độ chệch thấp và phương sai thấp là mục tiêu cho bất kỳ mô hình Học máy nào.

Tổng số lỗi

Trong bất kỳ mô hình Học máy nào, sự cân bằng tốt giữa thiên vị và phương sai đóng vai trò là một kịch bản hoàn hảo về độ chính xác dự đoán và tránh trang bị quá mức, trang bị thấp hoàn toàn. Sự cân bằng tối ưu giữa độ chệch và phương sai, về độ phức tạp của thuật toán, sẽ đảm bảo rằng mô hình không bao giờ được trang bị quá mức hoặc thiếu trang bị cả.

Sai số bình phương trung bình trong một mô hình thống kê được coi là tổng của độ chệch bình phương và phương sai và phương sai của sai số. Tất cả điều này có thể được đặt trong một sai số tổng thể mà chúng ta có độ chệch, phương sai và lỗi không thể sửa chữa trong một mô hình.

Hãy cho chúng tôi hiểu cách chúng tôi có thể giảm tổng số lỗi với sự trợ giúp của việc triển khai thực tế.

Chúng tôi đã tạo ra một bộ phân loại hồi quy tuyến tính bên trong Hồi quy tuyến tính trong học máy bài viết trên Edureka sử dụng tập dữ liệu bệnh tiểu đường trong mô-đun tập dữ liệu của học scikit thư viện.

Khi chúng tôi đánh giá lỗi bình phương trung bình của bộ phân loại, chúng tôi nhận được tổng lỗi khoảng 2500.

Để giảm tổng số lỗi, chúng tôi cung cấp nhiều dữ liệu hơn cho bộ phân loại và đổi lại, sai số trung bình bình phương được giảm xuống còn 2000.

Đây là một cách thực hiện đơn giản để giảm tổng sai số bằng cách cung cấp thêm dữ liệu huấn luyện vào mô hình. Tương tự, chúng ta có thể áp dụng các kỹ thuật khác để giảm lỗi và duy trì sự cân bằng giữa độ chệch và phương sai cho một mô hình Học máy hiệu quả.

Điều này đưa chúng ta đến phần cuối của bài viết này, nơi chúng ta đã học được Phương sai sai lệch trong Machine Học với trường hợp thực hiện và sử dụng của nó. Tôi hy vọng bạn đã rõ tất cả những gì đã được chia sẻ với bạn trong hướng dẫn này.

Nếu bạn thấy bài viết này về “Phương sai sai lệch trong học máy” có liên quan, hãy xem một công ty học trực tuyến đáng tin cậy với mạng lưới hơn 250.000 người học hài lòng trải dài trên toàn cầu.

Chúng tôi ở đây để giúp bạn từng bước trên hành trình của mình và đưa ra một chương trình giảng dạy được thiết kế cho sinh viên và các chuyên gia muốn trở thành . Khóa học được thiết kế để cung cấp cho bạn khởi đầu mới về lập trình Python và đào tạo bạn về cả khái niệm Python cốt lõi và nâng cao cùng với nhiều giống , , Vân vân.

Nếu bạn gặp bất kỳ câu hỏi nào, vui lòng đặt tất cả câu hỏi của bạn trong phần nhận xét của 'Bias-Variance in Machine Learning' và nhóm của chúng tôi sẽ sẵn lòng trả lời.