Điều kiện tiên quyết để học máy là gì?



Blog này về các điều kiện tiên quyết cho Học máy sẽ giúp bạn hiểu các khái niệm cơ bản cần biết trước khi bắt đầu với Học máy.

Máy học chắc chắn là công nghệ được yêu cầu nhiều nhất trong thời đại! Nếu bạn là người mới bắt đầu với Học máy, thì điều quan trọng là bạn phải biết các điều kiện tiên quyết cho Học máy. Blog này sẽ giúp bạn hiểu các khái niệm khác nhau mà bạn cần biết trước khi bắt đầu với Học máy.

Để có kiến ​​thức chuyên sâu về Trí tuệ nhân tạo và Máy học, bạn có thể đăng ký trực tiếp của Edureka với hỗ trợ 24/7 và quyền truy cập trọn đời.





Đây là danh sách các chủ đề được đề cập trong blog này:

  1. Điều kiện tiên quyết cho Học máy
  2. Hiểu về Học máy với một ca sử dụng

Điều kiện tiên quyết để học máy

Để bắt đầu vớiHọc máy bạn phải quen thuộc với các khái niệm sau:



  1. Số liệu thống kê
  2. Đại số tuyến tính
  3. Giải tích
  4. Xác suất
  5. Ngôn ngữ lập trình

Số liệu thống kê

Thống kê chứa các công cụ có thể được sử dụng để lấy một số kết quả từ dữ liệu. Có thống kê mô tả được sử dụng để chuyển đổi dữ liệu thô trong một số thông tin quan trọng. Ngoài ra, thống kê suy luận có thể được sử dụng để lấy thông tin quan trọng từ một mẫu dữ liệu thay vì sử dụng tập dữ liệu hoàn chỉnh.

Để tìm hiểu thêm về Thống kê bạn có thể xem qua các blog sau:

Đại số tuyến tính

Giao dịch đại số tuyến tínhvới vectơ, ma trận và phép biến đổi tuyến tính. Nó rất quan trọng trong học máy vì nó có thể được sử dụng để biến đổi và thực hiện các hoạt động trên tập dữ liệu.



Giải tích

Giải tích là một lĩnh vực quan trọng trong toán học và nó đóng một vai trò không thể thiếu trong nhiều thuật toán học máy. Tập dữ liệu có nhiều tính năng làđược sử dụng để xây dựng mô hình học máy vì các tính năng là nhiều phép tính đa biến đóng vai trò quan trọng để xây dựng mô hình học máy. Tích hợp và Khác biệt là điều bắt buộc.

Xác suất

Xác suất giúp dự đoán khả năng xảy ra, Nó giúp chúng ta suy luận về tình huống có thể xảy ra hoặc không xảy ra nữa. Đối với học máy, xác suất là nền tảng.

Mathematics

Để tìm hiểu thêm về Xác suất, bạn có thể xem qua Blog.

Ngôn ngữ lập trình

Điều cần thiết là phải biết các ngôn ngữ lập trình như R và Python để thực hiện toàn bộ quy trình Học máy. Cả Python và R đều cung cấp các thư viện tích hợp sẵn, giúp dễ dàng triển khai các thuật toán Học máy.

fibonacci c ++ đệ quy

Ngoài kiến ​​thức cơ bản về lập trình, điều quan trọng là bạn phải biết cách trích xuất, xử lý và phân tích dữ liệu. Đây là một trong những kỹ năng quan trọng nhất cần thiết cho Học máy.

Để tìm hiểu thêm về chương trình ngôn ngữ cho Học máy, bạn có thể xem qua các blog sau:

  1. Các thư viện Python tốt nhất cho Khoa học Dữ liệu và Máy học

Trường hợp sử dụng máy học

Máy học là tất cả về việc tạo ra một thuật toán có thể học hỏi từ dữ liệu để đưa ra dự đoán như loại đối tượng nào có trong hình hoặc công cụ đề xuất, sự kết hợp tốt nhất của các loại thuốc để chữa một số bệnh nhất định hoặc lọc thư rác.

Học máy được xây dựng dựa trên các điều kiện tiên quyết về toán học và nếu bạn biết lý do tại sao toán học được sử dụng trong học máy thì sẽ rất thú vị. Bạn cần biết toán học đằng sau các hàm bạn sẽ sử dụng và mô hình nào phù hợp với dữ liệu và tại sao.

Vì vậy, chúng ta hãy bắt đầu với một vấn đề thú vị là dự đoán giá nhà, có một tập dữ liệu chứa lịch sử về các tính năng và giá cả khác nhau, hiện tại, chúng ta sẽ xem xét diện tích của không gian sống theo bộ vuông và giá cả.

Bây giờ chúng ta có một tập dữ liệu chứa hai cột như hình dưới đây:

Phải có một số mối tương quan giữa hai biến này để tìm ra chúng ta sẽ cần xây dựng một mô hình có thể dự đoán giá nhà, chúng ta có thể làm như thế nào?

Hãy vẽ biểu đồ dữ liệu này và xem nó trông như thế nào:

con rối vs ansible vs đầu bếp

Ở đây, trục X là giá trên mỗi mét vuông của không gian sống và trục Y là giá của ngôi nhà. Nếu chúng ta vẽ tất cả các điểm dữ liệu, chúng ta sẽ nhận được một biểu đồ phân tán có thể được biểu diễn bằng một đường như thể hiện trong hình trên và nếu chúng ta nhập một số dữ liệu thì nó sẽ dự đoán một số kết quả. Tốt nhất, chúng ta phải tìm một đường giao nhau giữa các điểm dữ liệu tối đa.

Ở đây chúng tôi đang cố gắng tạo một dòng được gọi là:

Y = mX + c

Phương pháp dự đoán mối quan hệ tuyến tính giữa mục tiêu (biến phụ thuộc) và biến dự báo (biến độc lập) được gọi là hồi quy tuyến tính. Nó cho phép chúng ta nghiên cứu và tóm tắt mối quan hệ giữa hai biến.

  • X = Biến độc lập
  • Y = Biến phụ thuộc
  • c = chặn y
  • m = Độ dốc của dòng

Nếu chúng ta coi phương trình, chúng ta có các giá trị của X là một biến độc lập, vì vậy tất cả những gì chúng ta phải làm là tính giá trị của m và c để dự đoán giá trị của Y.

Vậy làm cách nào để tìm được các biến này?

Để tìm các biến này, chúng ta có thể thử một loạt các giá trị và cố gắng tìm ra một đường giao nhau với số lượng điểm dữ liệu tối đa. Nhưng, làm thế nào chúng ta có thể tìm thấy dòng phù hợp nhất?

Vì vậy, để tìm dòng phù hợp nhất, chúng ta có thể sử dụng hàm sai số bình phương nhỏ nhất sẽ tìm sai số giữa giá trị thực của y và giá trị dự đoán y`.

Hàm lỗi bình phương nhỏ nhất có thể được biểu diễn bằng phương trình sau:

Sử dụng chức năng này, chúng ta có thể tìm ra lỗi cho từng điểm dữ liệu dự đoán bằng cách so sánh nó với giá trị thực của điểm dữ liệu. Sau đó, bạn lấy tổng của tất cả các lỗi này và bình phương chúng để tìm ra độ lệch trong dự đoán.

Nếu chúng ta thêm trục thứ ba vào biểu đồ chứa tất cả các giá trị lỗi có thể có và vẽ biểu đồ trong không gian 3 chiều, nó sẽ trông như thế này:

Trong hình ảnh trên, các giá trị lý tưởng sẽ nằm trong phần màu đen dưới cùng sẽ dự đoán giá gần với điểm dữ liệu thực tế. Bước tiếp theo là tìm các giá trị tốt nhất có thể cho m và c. Điều này có thể được thực hiện bằng cách sử dụng kỹ thuật tối ưu hóa được gọi là gradient descent.

Gradient descent là một phương pháp lặp lại, trong đó chúng ta bắt đầu với việc khởi tạo một số bộ giá trị cho các biến của mình và cải thiện chúng từ từ bằng cách giảm thiểu sai số giữa giá trị thực và giá trị dự đoán.

Bây giờ nếu chúng ta nghĩ về thực tế, giá của căn hộ không thực sự chỉ phụ thuộc vào giá mỗi feet vuông, có rất nhiều yếu tố như số lượng phòng ngủ, phòng tắm, v.v. Nếu chúng ta xem xét những đặc điểm đó thì phương trình sẽ giống như vậy như thế này

Y = b0 + b1x1 + b2x2 + & hellip .. + bnxn + c

Đây là hồi quy đa tuyến, thuộc về đại số tuyến tính, ở đây chúng ta có thể sử dụng ma trận kích thước mxn trong đó m là các đặc trưng và n là các điểm dữ liệu.

Hãy xem xét một tình huống khác trong đó chúng ta có thể sử dụng xác suất để tìm tình trạng của ngôi nhà nhằm phân loại một ngôi nhà dựa trên tình trạng tốt hay xấu. Để làm việc này, chúng ta sẽ phải sử dụng một kỹ thuật gọi là hồi quy logistic hoạt động dựa trên xác suất xuất hiện được biểu thị bằng một hàm sigmoid.

Trong bài viết này, chúng tôi đã đề cập đến các điều kiện tiên quyết của học máy và cách chúng được áp dụng trong học máy. Vì vậy, về cơ bản, nó bao gồm thống kê, giải tích, đại số tuyến tính và lý thuyết xác suất. Giải tích có các kỹ thuật được sử dụng để tối ưu hóa, đại số tuyến tính có các thuật toán có thể hoạt động trên các tập dữ liệu khổng lồ, với xác suất chúng tôi có thể dự đoán khả năng xuất hiện và thống kê giúp chúng tôi suy ra những hiểu biết hữu ích từ mẫu tập dữ liệu.

tìm độ dài của mảng javascript

Bây giờ bạn đã biết các Điều kiện tiên quyết đối với Học máy, tôi chắc chắn rằng bạn muốn tìm hiểu thêm. Dưới đây là một số blog sẽ giúp bạn bắt đầu với Khoa học dữ liệu:

Nếu bạn muốn đăng ký một khóa học hoàn chỉnh về Trí tuệ nhân tạo và Học máy, Edureka có một điều đó sẽ giúp bạn thành thạo các kỹ thuật như Học có giám sát, Học không giám sát và Xử lý ngôn ngữ tự nhiên. Nó bao gồm đào tạo về những tiến bộ và phương pháp tiếp cận kỹ thuật mới nhất trong Trí tuệ nhân tạo & Học máy như Học sâu, Mô hình đồ họa và Học tăng cường.