Mờ K-Means Clustering trong Mahout



Blog này giới thiệu về phân cụm Fuzzy K-Means trong Apache Mahout.

Fuzzy K-Means chính xác là thuật toán giống như K-mean, là một kỹ thuật phân cụm đơn giản phổ biến. Sự khác biệt duy nhất là, thay vì chỉ định một điểm dành riêng cho một cụm, nó có thể có một số loại mờ hoặc chồng chéo giữa hai hoặc nhiều cụm. Sau đây là các điểm chính, mô tả Fuzzy K-Means:





  • Không giống như K-Means, tìm kiếm cụm cứng, trong đó mỗi điểm thuộc về một cụm, Fuzzy K-Means tìm kiếm các cụm mềm hơn để chồng lên nhau.
  • Một điểm trong một cụm mềm có thể thuộc về nhiều hơn một cụm với một giá trị ái lực nhất định đối với mỗi điểm.
  • Ái lực tỷ lệ thuận với khoảng cách của điểm đó từ trung tâm cụm.
  • Tương tự như K-Means, Fuzzy K-Means hoạt động trên các đối tượng đã xác định số đo khoảng cách và có thể được biểu diễn trong n- không gian vectơ chiều.

Bản đồ K-Means mờ

Không có nhiều sự khác biệt giữa luồng MapReduce của K-Means và Fuzzy K-Means. Việc thực hiện cả hai trong Mahout là tương tự.

Sau đây là các thông số thiết yếu để triển khai Fuzzy K-Means:



khung mùa xuân là gì
  • Bạn cần một tập dữ liệu Vectơ để nhập.
  • Phải có RandomSeedGenerator để gieo k cụm ban đầu.
  • Để đo khoảng cách thì cần phải có SquaredEuclideanDistanceMeasure.
  • Một giá trị lớn của ngưỡng hội tụ, chẳng hạn như –cd 1,0, nếu giá trị bình phương của thước đo khoảng cách đã được sử dụng
  • Giá trị cho maxIterations giá trị mặc định là -x 10.
  • Hệ số chuẩn hóa hoặc hệ số mờ, với giá trị lớn hơn -m 1,0

Có một câu hỏi cho chúng tôi? Đề cập đến họ trong phần bình luận và chúng tôi sẽ liên hệ lại với bạn.

Bài viết liên quan



Học tập có giám sát trong Apache Mahout