Thống kê cho Học máy: Hướng dẫn cho Người mới bắt đầu



Bài viết về Thống kê cho Học máy này là một hướng dẫn toàn diện về các khái niệm khác nhau về thống kê hệ điều hành với các ví dụ.

Hiểu dữ liệu và có thể tạo ra giá trị từ nó là kỹ năng của thập kỷ. Học máy là một trong những kỹ năng cốt lõi giúp các công ty hoàn thiện nó. Tuy nhiên, để bắt đầu, bạn cần phải xây dựng nền tảng của mình đúng cách. Vì vậy, trong bài viết này, tôi sẽ trình bày một vài khái niệm cơ bản và cung cấp cho bạn các hướng dẫn để bắt đầu hành trình của bạn trong Học máy. Vì vậy, trong bài viết này về thống kê cho học máy, các chủ đề sau sẽ được thảo luận:

  1. Xác suất
  2. Số liệu thống kê
  3. Đại số tuyến tính

Xác suất và Thống kê cho Học máy:





Xác suất là gì?

Xác suất định lượng khả năng xảy ra một sự kiện. Ví dụ: nếu bạn tung một con xúc xắc công bằng, không thiên vị, thì xác suất là một bật lên là 1/6 . Bây giờ, nếu bạn đang tự hỏi why? Sau đó, câu trả lời là khá đơn giản!

cách đặt classpath trong linux

Điều này là do có sáu khả năng và tất cả đều có khả năng xảy ra như nhau (chết công bằng). Do đó chúng tôi có thể thêm 1 + 1 + 1 + 1 + 1 + 1 = 6. Nhưng, vì chúng tôi quan tâm đến sự kiện có 1 lần xuất hiện . Có chỉ một cách sự kiện có thể xảy ra. Vì thế,



Xác suất của 1 lần quay đầu = 1/6

Tương tự là trường hợp với tất cả các số khác vì tất cả các sự kiện đều có khả năng xảy ra như nhau. Đơn giản đúng không?

Chà, một định nghĩa thường xuyên về xác suất cho ví dụ này sẽ giống như thế - xác suất của 1 lần lật ngửa là tỷ số giữa số lần 1 lật lên với tổng số lần con súc sắc được lăn nếu con súc sắc được cuộn vô hạn lần.Điều này có ý nghĩa là gì?



Hãy làm cho nó thú vị hơn. Hãy xem xét hai trường hợp - bạn tung một con xúc xắc công bằng 5 lần. Trong một trường hợp, dãy số tăng lên là - [1,4,2,6,4,3]. Trong trường hợp khác, chúng ta nhận được - [2,2,2,2,2,2]. Bạn nghĩ cái nào có nhiều khả năng hơn?

Cả hai đều có khả năng như nhau. Có vẻ kỳ quặc phải không?

Bây giờ, hãy xem xét một trường hợp khác trong đó tất cả 5 cuộn trong mỗi trường hợp là độc lập . Có nghĩa là, một cuộn không ảnh hưởng đến cuộn kia. Trong trường hợp đầu tiên, khi 6 lần quay lên, nó không có ý tưởng rằng 2 lần tăng lên trước nó. Do đó, tất cả 5 cuộn đều có khả năng như nhau.

Tương tự, 2s thẳng trong trường hợp thứ hai có thể được hiểu là một chuỗi các sự kiện độc lập. Và tất cả những sự kiện này đều có khả năng xảy ra như nhau. Nhìn chung, vì chúng ta có cùng một viên xúc xắc, xác suất của một số cụ thể xuất hiện trong trường hợp một cũng giống như trường hợp hai. Tiếp theo, trong bài viết này về thống kê cho học máy, chúng ta hãy hiểu thuật ngữ Sự độc lập.

Sự độc lập

Hai sự kiện A và B được cho là độc lập nếu sự kiện A không ảnh hưởng đến sự kiện B . Ví dụ, nếu bạn tung một đồng xu và tung một con súc sắc, kết quả của con súc sắc không ảnh hưởng đến việc đồng xu có đầu hay đuôi. Ngoài ra, đối với hai sự kiện độc lập A và B , các xác suất để A và B có thể xảy ra cùng nhau . Vì vậy, ví dụ, nếu bạn muốn xác suất đồng xu hiển thị đầu và chết hiển thị 3.

P (A và B) = P (A) * P (B)

Do đó P = & frac12 (xác suất lật ngửa) * ⅙ (xác suất 3 lật ngửa) = 1/12

Trong ví dụ trước, đối với cả hai trường hợp, P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

Bây giờ, hãy nói về các sự kiện không độc lập. Hãy xem xét bảng sau:

Béo phì Không béo phì
Vấn đề về timBốn nămmười lăm
Không có vấn đề về tim1030

Một cuộc khảo sát với 100 người đã được thực hiện. 60 người có vấn đề về tim và 40 người thì không. Trong số 60 người có vấn đề về tim, 45 người béo phì. Trong số 40 người không có vấn đề về tim, 10 người béo phì. Nếu ai đó hỏi bạn -

  1. Xác suất bị bệnh tim là bao nhiêu?
  2. Xác suất để có một vấn đề về tim và không bị béo phì là bao nhiêu?

Câu trả lời cho những câu hỏi đầu tiên rất dễ - 60/100. Đối với cái thứ hai, nó sẽ là 15/100. Bây giờ hãy xem xét câu hỏi thứ ba - Một người được chọn ngẫu nhiên. Anh ta bị phát hiện mắc bệnh tim. Xác suất anh ta béo phì là bao nhiêu?

Bây giờ hãy nghĩ về thông tin được đưa cho bạn - Người ta biết rằng anh ta bị bệnh tim. Vì vậy, anh ta không thể từ 40 tuổi mà không bị bệnh tim. Chỉ có 60 tùy chọn khả thi (hàng trên cùng trong bảng). Bây giờ, trong số những khả năng bị giảm này, xác suất anh ta bị béo phì là 45/60. Bây giờ, bạn đã biết, các sự kiện độc lập là gì, tiếp theo trong bài viết này về thống kê cho học máy, chúng ta hãy hiểu Xác suất có điều kiện.

Xác suất có điều kiện

Để hiểu các xác suất có điều kiện, chúng ta hãy tiếp tục thảo luận với ví dụ trên. Tình trạng béo phì và tình trạng mắc bệnh tim không độc lập. Nếu béo phì không ảnh hưởng đến các vấn đề về tim, thì số trường hợp béo phì và không béo phì đối với những người có vấn đề về tim sẽ là như nhau.

Ngoài ra, chúng tôi được cho rằng người đó có vấn đề về tim và chúng tôi phải tìm ra xác suất người đó bị béo phì. Vì vậy, xác suất, trong trường hợp này, được cho là phụ thuộc vào thực tế là anh ta có vấn đề về tim. Nếu xác suất của sự kiện A xảy ra là điều kiện cho sự kiện B, chúng tôi biểu diễn nó là

P (A | B)

Bây giờ, có một định lý giúp chúng ta tính xác suất có điều kiện này. Nó được gọi là Quy tắc Bayes .

là một vs có java

P (A | B) = P (A và B) / P (B)

Bạn có thể kiểm tra định lý này bằng cách cắm ví dụ mà chúng ta vừa thảo luận. Nếu bạn đã hiểu cho đến nay, bạn có thể bắt đầu với những điều sau - Naive Bayes . Nó sử dụng các xác suất có điều kiện để phân loại email có phải là thư rác hay không. Nó có thể thực hiện nhiều nhiệm vụ phân loại khác. Nhưng về cơ bản, xác suất có điều kiện là trọng tâm của .

Số liệu thống kê:

Thống kê là được sử dụng để tóm tắt và đưa ra suy luận về một số lượng lớn các điểm dữ liệu. Trong Khoa học dữ liệu và Học máy, bạn thường sẽ bắt gặp các thuật ngữ sau

  • Các biện pháp trung tâm
  • Phân bố (đặc biệt bình thường)

Các biện pháp trung tâm và các biện pháp của chênh lệch

Nghĩa là:

Mean chỉ là một trung bình của các con số . Để tìm ra giá trị trung bình, bạn phải cộng các số và chia nó với số lượng. Ví dụ, giá trị trung bình của [1,2,3,4,5] là 15/5 = 3.

mean-statistics-for-machine-learning

Trung bình:

Trung vị là phần tử giữa của một tập hợp các số khi chúng được sắp xếp theo thứ tự tăng dần. Ví dụ, các số [1,2,4,3,5] được sắp xếp theo thứ tự tăng dần [1,2,3,4,5]. Số chính giữa trong số này là 3. Do đó trung vị là 3. Nhưng nếu số lượng là số chẵn và do đó không có số ở giữa thì sao? Trong trường hợp đó, bạn lấy giá trị trung bình của hai số chính giữa. Đối với một dãy gồm 2n số theo thứ tự tăng dần, tính trung bình của thứ n và (n + 1)thứ tựsố để lấy số trung vị. Ví dụ - [1,2,3,4,5,6] có trung vị (3 + 4) / 2 = 3,5

Chế độ:

Chế độ chỉ đơn giản là số thường xuyên nhất trong một tập hợp các số . Ví dụ, chế độ của [1,2,3,3,4,5,5,5] là 5.

Phương sai:

Phương sai không phải là thước đo trọng tâm. Biện pháp đó cách dữ liệu của bạn được lan truyền xung quanh trung bình . Nó được định lượng là

xlà giá trị trung bình của N số. Bạn lấy một điểm, trừ trung bình, lấy bình phương của sự khác biệt này. Làm điều này cho tất cả N số và tính trung bình của chúng. Căn bậc hai của phương sai được gọi là độ lệch chuẩn. Tiếp theo, trong bài viết này về thống kê cho học máy, chúng ta hãy hiểu Phân phối chuẩn.

Phân phối bình thường

Phân phối giúp chúng tôi hiểu cách dữ liệu của chúng tôi được lan truyền . Ví dụ, trong một mẫu độ tuổi, chúng ta có thể có những người trẻ tuổi nhiều hơn những người lớn tuổi và do đó giá trị độ tuổi nhỏ hơn giá trị lớn hơn. Nhưng làm thế nào để chúng ta xác định một phân phối? Hãy xem xét ví dụ dưới đây

Trục y thể hiện mật độ. Chế độ của phân phối này là 30 vì nó là cao điểm và do đó thường xuyên nhất. Chúng tôi cũng có thể xác định vị trí trung bình. Trung vị nằm tại điểm trên trục x nơi bao phủ một nửa diện tích dưới đường cong. Diện tích dưới bất kỳ phân phối chuẩn nào là 1 vì tổng xác suất của tất cả các sự kiện là 1. Ví dụ:

Trung vị trong trường hợp trên là khoảng 4. Điều này có nghĩa là diện tích dưới đường cong trước 4 cũng giống như sau 4. Hãy xem xét một ví dụ khác

Chúng tôi thấy ba phân phối bình thường. Màu xanh và màu đỏ có cùng giá trị. Màu đỏ có phương sai lớn hơn. Do đó, nó được trải rộng hơn so với màu xanh lam. Nhưng vì diện tích phải bằng 1 nên đỉnh của đường cong màu đỏ ngắn hơn đường cong màu xanh lam, để giữ cho diện tích không đổi.

Hy vọng bạn đã hiểu các thống kê cơ bản và phân phối bình thường. Bây giờ, tiếp theo trong bài viết này về thống kê cho học máy, chúng ta hãy tìm hiểu về Đại số tuyến tính.

Đại số tuyến tính

AI hiện đại sẽ không thể thực hiện được nếu không có Đại số tuyến tính. Nó tạo thành cốt lõi của Học kĩ càng và đã được sử dụng ngay cả trong các thuật toán đơn giản như . Không có bất kỳ sự chậm trễ nào nữa, hãy bắt đầu.

Bạn phải làm quen với vectơ. Chúng là một loại biểu diễn hình học trong không gian. Ví dụ, một vectơ [3,4] có 3 đơn vị dọc theo trục x và 4 đơn vị dọc theo trục y. Hãy xem xét hình ảnh sau -

Vectơ d1 có 0,707 đơn vị dọc theo trục x và 0,707 đơn vị dọc theo trục y. Một vectơ có 1 chiều. Nó nhất thiết phải có độ lớn và hướng. Ví dụ,

Hình trên có vectơ (4,3). Độ lớn của nó là 5 và nó tạo ra 36,9 độ với trục x.

Bây giờ, ma trận là gì? Ma trận là một mảng số nhiều chiều. Nó được sử dụng để làm gì? Chúng ta sẽ thấy ở phía trước. Nhưng trước tiên, hãy xem cách nó được sử dụng.

Ma trận

Một ma trận có thể có nhiều thứ nguyên. Hãy xem xét một ma trận 2 chiều. Nó có hàng (m) và cột (n). Do đó nó có m * n phần tử.

Ví dụ,

Ma trận này có 5 hàng và 5 cột. Hãy gọi nó là A. Do đó A (2,3) là mục nhập ở hàng thứ hai và cột thứ ba là 8.

Bây giờ, bạn đã biết ma trận là gì, chúng ta hãy xem xét các hoạt động khác nhau của ma trận.

Hoạt động ma trận

Bổ sung ma trận

Hai ma trận của tương tự kích thước có thể được thêm vào. Việc bổ sung xảy ra theo yếu tố khôn ngoan.

Nhân bản vô tính

Một ma trận có thể được nhân với một đại lượng vô hướng. Phép nhân như vậy dẫn đến mọi mục nhập trong ma trận nhận được nhân với vô hướng. Vô hướng chỉ là một con số

Ma trận Transpose

Chuyển vị ma trận rất đơn giản. Đối với ma trận A (m, n), gọi A ’là chuyển vị của nó. Sau đó

A '(i, j) = A (j, i)

Ví dụ,

Phép nhân ma trận

Điều này có lẽ là một chút khó khăn hơn các hoạt động khác. Trước khi chúng ta đi sâu vào nó, hãy xác định tích số chấm giữa hai vectơ.

Xét vectơ X = [1,4,6,0] và vectơ Y = [2,3,4,5]. Khi đó tích chấm giữa X và Y được định nghĩa là

cách cài đặt php trên window

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

Vì vậy, đó là phép nhân và phép cộng theo nguyên tố. Hiện nay,chúng ta hãy xem xét hai ma trận A (m, n) và B (n, k), trong đó m, n, k là các thứ nguyên và do đó là số nguyên. Chúng tôi định nghĩa phép nhân ma trận là

Trong ví dụ trên, phần tử đầu tiên của sản phẩm (44) có được bằng tích điểm của hàng đầu tiên của ma trận bên trái với cột đầu tiên của ma trận bên phải. Tương tự, 72 nhận được bằng tích số chấm của hàng đầu tiên của ma trận bên trái với cột thứ hai của ma trận bên phải.

Lưu ý rằng đối với ma trận bên trái, số cột phải bằng số hàng trong cột bên phải. Trong trường hợp của chúng ta, tích AB tồn tại nhưng không tồn tại BA vì m không bằng k. Đối với hai ma trận A (m, n) và B (n, k), tích AB được xác định và số chiều của tích là (m, k) (kích thước ngoài cùng của (m, n), (n, k )). Nhưng BA không được xác định trừ khi m = k.

Với điều này, chúng ta sẽ kết thúc bài viết này về Thống kê cho Học máy. Tôi hy vọng bạn đã hiểu một số Biệt ngữ Máy học. Tuy nhiên, nó không kết thúc ở đây. Để đảm bảo bạn đã sẵn sàng trong ngành, bạn có thể xem các khóa học của Edureka về Khoa học dữ liệu và AI. Chúng có thể được tìm thấy