Hướng dẫn về Dữ liệu lớn: Tất cả những gì bạn cần biết về Dữ liệu lớn!



Blog Hướng dẫn về Dữ liệu lớn này cung cấp cho bạn cái nhìn tổng quan đầy đủ về Dữ liệu lớn, các đặc điểm, ứng dụng của nó cũng như những thách thức với Dữ liệu lớn.

Hướng dẫn về Dữ liệu lớn

Dữ liệu lớn, bạn chưa nghe thuật ngữ này bao giờ? Tôi chắc chắn bạn có. Trong 4 đến 5 năm gần đây, mọi người đều nói về Dữ liệu lớn. Nhưng bạn có thực sự biết chính xác Dữ liệu lớn này là gì, nó ảnh hưởng như thế nào đến cuộc sống của chúng ta và tại sao các tổ chức đang săn lùng các chuyên gia với ? Trong Hướng dẫn về Dữ liệu lớn này, tôi sẽ cung cấp cho bạn cái nhìn sâu sắc về Dữ liệu lớn.

Dưới đây là các chủ đề mà tôi sẽ trình bày trong Hướng dẫn về Dữ liệu lớn này:





  • Câu chuyện về Dữ liệu lớn
  • Các yếu tố thúc đẩy dữ liệu lớn
  • Dữ liệu lớn là gì?
  • Đặc điểm dữ liệu lớn
  • Các loại dữ liệu lớn
  • Ví dụ về Dữ liệu lớn
  • Các ứng dụng của Dữ liệu lớn
  • Những thách thức với Dữ liệu lớn

Hướng dẫn về Dữ liệu lớn - Edureka

Hãy để tôi bắt đầu Hướng dẫn sử dụng dữ liệu lớn này bằng một câu chuyện ngắn.



Câu chuyện về Dữ liệu lớn

Ngày xưa, mọi người thường đi từ làng này sang làng khác trên một chiếc xe ngựa, nhưng thời gian trôi qua, các làng trở thành thị trấn và người dân tản ra. Khoảng cách di chuyển từ thị trấn này sang thị trấn khác cũng tăng lên. Vì vậy, nó trở thành một vấn đề khi đi lại giữa các thị trấn, cùng với hành lý. Thật bất ngờ, một anh chàng thông minh gợi ý, chúng ta nên chải lông và cho ngựa ăn nhiều hơn, để giải quyết vấn đề này. Khi tôi nhìn vào giải pháp này, nó không phải là xấu, nhưng bạn có nghĩ rằng một con ngựa có thể trở thành một con voi? Tôi không nghĩ vậy. Một anh chàng thông minh khác nói, thay vì 1 con ngựa kéo xe, chúng ta hãy có 4 con ngựa để kéo cùng một chiếc xe. Các bạn nghĩ gì về giải pháp này? Tôi nghĩ rằng đó là một giải pháp tuyệt vời. Giờ đây, mọi người có thể đi những quãng đường lớn trong thời gian ngắn hơn và thậm chí mang theo nhiều hành lý hơn.

Khái niệm tương tự cũng áp dụng cho Dữ liệu lớn. Big Data cho biết, cho đến ngày hôm nay, chúng tôi vẫn ổn với việc lưu trữ dữ liệu vào máy chủ của mình vì khối lượng dữ liệu khá hạn chế và thời gian xử lý dữ liệu này cũng ổn. Nhưng bây giờ trong thế giới công nghệ hiện tại, dữ liệu đang phát triển quá nhanh và mọi người đang dựa vào dữ liệu rất nhiều lần. Ngoài ra, tốc độ dữ liệu đang phát triển, việc lưu trữ dữ liệu vào bất kỳ máy chủ nào cũng trở nên không thể.

Thông qua blog Hướng dẫn về Dữ liệu lớn này, chúng ta hãy khám phá các nguồn Dữ liệu lớn mà các hệ thống truyền thống không lưu trữ và xử lý.



Các yếu tố thúc đẩy dữ liệu lớn

Số lượng dữ liệu trên hành tinh trái đất đang tăng lên theo cấp số nhân vì nhiều lý do. Nhiều nguồn khác nhau và các hoạt động hàng ngày của chúng tôi tạo ra rất nhiều dữ liệu. Với sự phát minh của web, cả thế giới đã trực tuyến, mỗi việc chúng ta làm đều để lại dấu vết kỹ thuật số. Với việc các đối tượng thông minh trực tuyến, tốc độ phát triển dữ liệu đã tăng lên nhanh chóng. Các nguồn chính của Dữ liệu lớn là các trang web truyền thông xã hội, mạng cảm biến, hình ảnh / video kỹ thuật số, điện thoại di động, hồ sơ giao dịch mua, nhật ký web, hồ sơ y tế, tài liệu lưu trữ, giám sát quân sự, thương mại điện tử, nghiên cứu khoa học phức tạp, v.v. Tất cả những thông tin này chiếm khoảng một số nghìn tỷ byte dữ liệu. Đến năm 2020, khối lượng dữ liệu sẽ vào khoảng 40 Zettabyte, tương đương với việc cộng mỗi hạt cát trên hành tinh nhân với bảy mươi lăm.

ví dụ về đối số dòng lệnh java

Dữ liệu lớn là gì?

Dữ liệu lớn là thuật ngữ dùng để chỉ tập hợp các tập dữ liệu lớn và phức tạp, khó lưu trữ và xử lý bằng các công cụ quản lý cơ sở dữ liệu có sẵn hoặc các ứng dụng xử lý dữ liệu truyền thống. Thử thách bao gồm thu thập, quản lý, lưu trữ, tìm kiếm, chia sẻ, chuyển giao, phân tích và trực quan hóa dữ liệu này.

Đặc điểm dữ liệu lớn

Năm đặc điểm xác định Dữ liệu lớn là: Khối lượng, Tốc độ, Sự đa dạng, Tính xác thực và Giá trị.

  1. ÂM LƯỢNG

    Khối lượng đề cập đến 'lượng dữ liệu', đang tăng lên từng ngày với tốc độ rất nhanh. Quy mô dữ liệu được tạo ra bởi con người, máy móc và các tương tác của chúng trên mạng xã hội là rất lớn. Các nhà nghiên cứu đã dự đoán rằng 40 Zettabyte (40.000 Exabyte) sẽ được tạo ra vào năm 2020, tăng gấp 300 lần so với năm 2005.

  2. VELOCITY

    Tốc độ được định nghĩa là tốc độ mà các nguồn khác nhau tạo ra dữ liệu mỗi ngày. Luồng dữ liệu này rất lớn và liên tục. Tính đến thời điểm hiện tại, có 1,03 tỷ Người dùng Hoạt động Hàng ngày (Facebook DAU) trên Di động, tăng 22% so với cùng kỳ năm ngoái. Điều này cho thấy số lượng người dùng đang tăng nhanh như thế nào trên mạng xã hội và tốc độ dữ liệu được tạo ra hàng ngày. Nếu bạn có thể xử lý tốc độ, bạn sẽ có thể tạo thông tin chi tiết và đưa ra quyết định dựa trên dữ liệu thời gian thực.

  3. ĐA DẠNG

    Vì có nhiều nguồn đang đóng góp vào Dữ liệu lớn nên loại dữ liệu mà họ đang tạo là khác nhau. Nó có thể có cấu trúc, bán cấu trúc hoặc không cấu trúc. Do đó, có nhiều loại dữ liệu được tạo ra mỗi ngày. Trước đây, chúng ta thường lấy dữ liệu từ excel và cơ sở dữ liệu, bây giờ dữ liệu đang ở dạng hình ảnh, âm thanh, video, dữ liệu cảm biến, v.v. như trong hình dưới đây. Do đó, nhiều loại dữ liệu phi cấu trúc này tạo ra các vấn đề trong việc thu thập, lưu trữ, khai thác và phân tích dữ liệu.

  4. VERACITY

    Tính xác thực đề cập đến dữ liệu bị nghi ngờ hoặc không chắc chắn của dữ liệu có sẵn do dữ liệu không nhất quán và không đầy đủ. Trong hình ảnh bên dưới, bạn có thể thấy rằng một vài giá trị bị thiếu trong bảng. Ngoài ra, một số giá trị khó được chấp nhận, ví dụ - giá trị tối thiểu 15000 ở hàng thứ 3, không thể thực hiện được. Sự không nhất quán và không đầy đủ này chính là Tính xác thực.
    Dữ liệu có sẵn đôi khi có thể lộn xộn và khó tin cậy. Với nhiều dạng dữ liệu lớn, chất lượng và độ chính xác rất khó kiểm soát như các bài đăng trên Twitter với thẻ bắt đầu bằng #, viết tắt, lỗi chính tả và lối nói thông tục. Khối lượng thường là lý do đằng sau sự thiếu chất lượng và độ chính xác của dữ liệu.

    • Do dữ liệu không chắc chắn, 1 trong 3 nhà lãnh đạo doanh nghiệp không tin tưởng vào thông tin họ sử dụng để đưa ra quyết định.
    • Trong một cuộc khảo sát cho thấy 27% người được hỏi không chắc chắn về mức độ chính xác của dữ liệu của họ.
    • Chất lượng dữ liệu kém khiến nền kinh tế Mỹ tiêu tốn khoảng 3,1 nghìn tỷ USD mỗi năm.
  5. GIÁ TRỊ

    Sau khi thảo luận về Khối lượng, Vận tốc, Sự đa dạng và Tính xác thực, có một V khác cần được tính đến khi xem xét Dữ liệu lớn, tức là Giá trị. Tất cả đều tốt và tốt khi có quyền truy cập vàodữ liệunhưngtrừ khi chúng ta có thể biến nó thành giá trị thì nó là vô ích. Ý tôi là bằng cách biến nó thành giá trị, Nó có làm tăng thêm lợi ích của các tổ chức đang phân tích dữ liệu lớn không? Tổ chức đang làm việc trên Dữ liệu lớn có đạt được ROI (Lợi tức đầu tư) cao không? Trừ khi, nó làm tăng thêm lợi nhuận của họ bằng cách làm việc trên Dữ liệu lớn, thì điều đó là vô ích.

Xem qua video Dữ liệu lớn của chúng tôi bên dưới để biết thêm về Dữ liệu lớn:

Hướng dẫn sử dụng dữ liệu lớn cho người mới bắt đầu | Dữ liệu lớn là gì | Edureka

Như đã thảo luận trong Đa dạng, có nhiều loại dữ liệu khác nhau đang được tạo ra mỗi ngày. Vì vậy, bây giờ chúng ta hãy hiểu các loại dữ liệu:

Các loại dữ liệu lớn

Dữ liệu lớn có thể có ba loại:

  • Có cấu trúc
  • Bán cấu trúc
  • Không có cấu trúc

  1. Có cấu trúc

    Dữ liệu có thể được lưu trữ và xử lý ở định dạng cố định được gọi là Dữ liệu có cấu trúc. Dữ liệu được lưu trữ trong hệ quản trị cơ sở dữ liệu quan hệ (RDBMS) là một ví dụ về dữ liệu 'có cấu trúc'. Dễ dàng xử lý dữ liệu có cấu trúc vì nó có một lược đồ cố định. Ngôn ngữ truy vấn có cấu trúc (SQL) thường được sử dụng để quản lý loại Dữ liệu như vậy.

  2. Bán cấu trúc

    Dữ liệu bán cấu trúc là loại dữ liệu không có cấu trúc chính thức của mô hình dữ liệu, tức là định nghĩa bảng trong DBMS quan hệ, nhưng tuy nhiên nó có một số thuộc tính tổ chức như thẻ và các dấu hiệu khác để phân tách các phần tử ngữ nghĩa giúp dễ dàng hơn để phân tích. Tệp XML hoặc tài liệu JSON là những ví dụ về dữ liệu bán cấu trúc.

  3. Không có cấu trúc

    Dữ liệu có dạng không xác định và không thể được lưu trữ trong RDBMS và không thể được phân tích trừ khi nó được chuyển đổi thành định dạng có cấu trúc được gọi là dữ liệu phi cấu trúc. Tệp Văn bản và các nội dung đa phương tiện như hình ảnh, âm thanh, video là ví dụ về dữ liệu phi cấu trúc. Dữ liệu phi cấu trúc đang phát triển nhanh hơn những dữ liệu khác, các chuyên gia nói rằng 80% dữ liệu trong một tổ chức là không có cấu trúc.

Cho đến bây giờ, tôi mới chỉ giới thiệu về Dữ liệu lớn. Hơn nữa, hướng dẫn Dữ liệu lớn này nói về các ví dụ, ứng dụng và thách thức trong Dữ liệu lớn.

Ví dụ về Dữ liệu lớn

Hàng ngày, chúng tôi tải lên hàng triệu byte dữ liệu. 90% dữ liệu của thế giới đã được tạo trong hai năm qua.

trừu tượng hóa dữ liệu trong c ++
  • Walmart xử lý nhiều hơn 1.000.000 khách hàng giao dịch hàng giờ.
  • Facebook lưu trữ, truy cập và phân tích Hơn 30 Petabyte dữ liệu do người dùng tạo.
  • Hơn 230 triệu tweet được tạo mỗi ngày.
  • Nhiều hơn 5 tỷ mọi người đang gọi điện, nhắn tin, viết tweet và duyệt web trên điện thoại di động trên toàn thế giới.
  • Người dùng YouTube tải lên 48 giờ video mới mỗi phút trong ngày.
  • Amazon xử lý 15 triệu khách hàng nhấp vào luồng dữ liệu người dùng mỗi ngày để giới thiệu sản phẩm.
  • 294 tỷ email được gửi mỗi ngày. Các dịch vụ phân tích dữ liệu này để tìm ra các thư rác.
  • Những chiếc ô tô hiện đại có gần 100 cảm biến trong đó giám sát mức nhiên liệu, áp suất lốp, v.v., mỗi xe tạo ra rất nhiều dữ liệu cảm biến.

Các ứng dụng của Dữ liệu lớn

Chúng ta không thể nói về dữ liệu mà không nói về con người, những người đang được hưởng lợi từ các ứng dụng Dữ liệu lớn. Hầu như tất cả các ngành công nghiệp ngày nay đang tận dụng các ứng dụng Dữ liệu lớn theo cách này hay cách khác.

  • Chăm sóc sức khỏe thông minh hơn : Sử dụng các petabyte dữ liệu của bệnh nhân, tổ chức có thể trích xuất thông tin có ý nghĩa và sau đó xây dựng các ứng dụng có thể dự đoán trước tình trạng xấu đi của bệnh nhân.
  • Viễn thông : Các lĩnh vực viễn thông thu thập thông tin, phân tích và đưa ra giải pháp cho các vấn đề khác nhau. Bằng cách sử dụng các ứng dụng Dữ liệu lớn, các công ty viễn thông đã có thể giảm thiểu đáng kể tình trạng mất gói dữ liệu, xảy ra khi mạng bị quá tải và do đó, cung cấp kết nối thông suốt cho khách hàng của họ.
  • Bán lẻ : Bán lẻ có một số lợi nhuận thấp nhất và là một trong những người hưởng lợi lớn nhất từ ​​dữ liệu lớn. Vẻ đẹp của việc sử dụng dữ liệu lớn trong bán lẻ là hiểu được hành vi của người tiêu dùng. Công cụ đề xuất của Amazon cung cấp đề xuất dựa trên lịch sử duyệt web của người tiêu dùng.
  • Điều khiển giao thông : Ùn tắc giao thông là một thách thức lớn đối với nhiều thành phố trên toàn cầu. Sử dụng hiệu quả dữ liệu và cảm biến sẽ là chìa khóa để quản lý giao thông tốt hơn khi các thành phố ngày càng trở nên đông đúc dân cư.
  • Chế tạo : Phân tích dữ liệu lớn trong ngành sản xuất có thể giảm thiểu các khuyết tật của thành phần, cải thiện chất lượng sản phẩm, tăng hiệu quả và tiết kiệm thời gian và tiền bạc.
  • Chất lượng Tìm kiếm : Mỗi khi chúng tôi trích xuất thông tin từ google, chúng tôi đồng thời tạo ra dữ liệu cho nó. Google lưu trữ dữ liệu này và sử dụng nó để cải thiện chất lượng tìm kiếm.

Ai đó đã nói đúng: 'Không phải mọi thứ trong vườn đều là Rosy!' . Cho đến bây giờ trong hướng dẫn về Dữ liệu lớn này, tôi mới chỉ cho bạn thấy bức tranh toàn cảnh về Dữ liệu lớn. Nhưng nếu việc tận dụng Dữ liệu lớn quá dễ dàng, bạn có nghĩ rằng tất cả các tổ chức sẽ đầu tư vào nó không? Hãy để tôi nói trước với bạn, đó không phải là trường hợp. Có một số thách thức đi kèm khi bạn làm việc với Dữ liệu lớn.

Bây giờ bạn đã quen với Dữ liệu lớn và các tính năng khác nhau của nó, phần tiếp theo của blog này về Hướng dẫn Dữ liệu lớn sẽ làm sáng tỏ một số thách thức chính mà Dữ liệu lớn phải đối mặt.

Những thách thức với Dữ liệu lớn

Hãy để tôi cho bạn biết một số thách thức đi kèm với Dữ liệu lớn:

  1. Chất lượng dữ liệu - Vấn đề ở đây là 4thứ tựV tức là tính xác thực. Dữ liệu ở đây rất lộn xộn, không nhất quán và không đầy đủ. Dữ liệu bẩn gây thiệt hại 600 tỷ đô la cho các công ty hàng năm ở Hoa Kỳ.
  1. Khám phá - Tìm hiểu thông tin chi tiết về Dữ liệu lớn cũng giống như mò kim đáy bể. Việc phân tích hàng petabyte dữ liệu bằng các thuật toán cực kỳ mạnh mẽ để tìm ra các mẫu và thông tin chi tiết là rất khó.
  1. Lưu trữ - Tổ chức càng có nhiều dữ liệu thì các vấn đề quản lý tổ chức càng phức tạp. Câu hỏi đặt ra ở đây là “Lưu trữ nó ở đâu?”. Chúng tôi cần một hệ thống lưu trữ có thể dễ dàng tăng hoặc giảm quy mô theo yêu cầu.
  1. phân tích - Trong trường hợp Dữ liệu lớn, hầu hết thời gian chúng ta không biết về loại dữ liệu mà chúng ta đang xử lý, vì vậy việc phân tích dữ liệu đó càng khó khăn hơn.
  1. Bảo vệ - Vì dữ liệu có kích thước lớn nên việc giữ an toàn cho nó là một thách thức khác. Nó bao gồm xác thực người dùng, hạn chế quyền truy cập dựa trên người dùng, ghi lại lịch sử truy cập dữ liệu, sử dụng mã hóa dữ liệu thích hợp, v.v.
  1. Thiếu tài năng - Có rất nhiều dự án Dữ liệu lớn trong các tổ chức lớn, nhưng một nhóm các nhà phát triển, nhà khoa học dữ liệu và nhà phân tích tinh vi cũng có đủ kiến ​​thức về miền vẫn là một thách thức.

Hadoop để giải cứu

Chúng ta có một vị cứu tinh để đối phó với những thách thức về Dữ liệu lớn - Hadoop . Hadoop là một khung lập trình mã nguồn mở, dựa trên Java, hỗ trợ lưu trữ và xử lý các tập dữ liệu cực lớn trong môi trường máy tính phân tán. Nó là một phần của dự án Apache do Apache Software Foundation tài trợ.

Hadoop với quy trình xử lý phân tán, xử lý khối lượng lớn dữ liệu có cấu trúc và phi cấu trúc hiệu quả hơn so với kho dữ liệu doanh nghiệp truyền thống. Hadoop giúp nó có thể chạy các ứng dụng trên các hệ thống với hàng nghìn nút phần cứng hàng hóa và xử lý hàng nghìn terabyte dữ liệu. Các tổ chức đang áp dụng Hadoop vì nó là một phần mềm mã nguồn mở và có thể chạy trên phần cứng hàng hóa (máy tính cá nhân của bạn).Tiết kiệm chi phí ban đầu rất đáng kể vì phần cứng hàng hóa rất rẻ. Khi dữ liệu tổ chức tăng lên, bạn cần phải thêm ngày càng nhiều phần cứng hàng hóa để lưu trữ và do đó, Hadoop tỏ ra kinh tế.Ngoài ra, Hadoop có một cộng đồng Apache mạnh mẽ đằng sau nó, tiếp tục đóng góp vào sự phát triển của nó.

Như đã hứa trước đó, thông qua blog Hướng dẫn về Dữ liệu lớn này, tôi đã cung cấp cho bạn những hiểu biết tối đa về Dữ liệu lớn. Đây là phần cuối của Hướng dẫn Dữ liệu lớn. Bây giờ, bước tiếp theo là biết và học Hadoop. Chúng ta có một loạt hướng dẫn về Hadoop blog sẽ cung cấp kiến ​​thức chi tiết về hệ sinh thái Hadoop hoàn chỉnh.

Chúc mọi điều tốt lành, Chúc mừng Hadooping!

Bây giờ bạn đã hiểu Dữ liệu lớn là gì, hãy xem của Edureka, một công ty học trực tuyến đáng tin cậy với mạng lưới hơn 250.000 người học hài lòng trải dài trên toàn cầu. Khóa đào tạo Chứng chỉ Edureka Big Data Hadoop giúp người học trở thành chuyên gia trong lĩnh vực HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume và Sqoop bằng các trường hợp sử dụng thời gian thực trên miền Bán lẻ, Truyền thông xã hội, Hàng không, Du lịch, Tài chính.

Có một câu hỏi cho chúng tôi? Vui lòng đề cập đến nó trong phần bình luận và chúng tôi sẽ liên hệ lại với bạn.

Bài viết liên quan:

java sử dụng cái này khi nào