SQL cho khoa học dữ liệu: Giải pháp một cửa cho người mới bắt đầu



Bài đăng trên blog này về SQL for Data Science sẽ giúp bạn hiểu cách SQL có thể được sử dụng để lưu trữ, truy cập và truy xuất dữ liệu để thực hiện phân tích dữ liệu.

Kể từ thời điểm Khoa học dữ liệu được xếp hạng ở vị trí số 1 vì là công việc hứa hẹn nhất của thời đại, tất cả chúng ta đang cố gắng tham gia cuộc đua . Bài đăng trên blog này về SQL for Data Science sẽ giúp bạn hiểu cách SQL có thể được sử dụng để lưu trữ, truy cập và truy xuất dữ liệu để thực hiện phân tích dữ liệu.

Đây là danh sách các chủ đề sẽ được đề cập trong blog này:





    1. Tại sao SQL là cần thiết cho khoa học dữ liệu?
    2. SQL là gì?
    3. Khái niệm cơ bản về SQL
    4. Cài đặt MySQL
    5. Thực hành

Tại sao SQL là cần thiết cho khoa học dữ liệu?

Bạn có biết rằng chúng tôi đang tạo ra hơn 2,5 nghìn tỷ byte dữ liệu mỗi ngày không? Tốc độ tạo dữ liệu này là lý do đằng sau sự phổ biến của các công nghệ cao cấp như Khoa học dữ liệu , , và như thế.

Thu thập thông tin chi tiết hữu ích từ dữ liệu được gọi là Khoa học dữ liệu. Khoa học dữ liệu liên quan đến việc trích xuất, xử lý và phân tích hàng tấn dữ liệu. Hiện tại những gì chúng ta cần là có thể được sử dụng để lưu trữ và quản lý lượng dữ liệu khổng lồ này.



Khoa học dữ liệu là gì - Edureka

Đây là đâu SQL xuất hiện.

SQL có thể được sử dụng để lưu trữ, truy cập và trích xuất một lượng lớn dữ liệu nhằm thực hiện toàn bộ quy trình Khoa học Dữ liệu một cách trơn tru hơn.



SQL là gì?

SQL là viết tắt của Structured Query Language là một ngôn ngữ truy vấn nhằm mục đích quản lý Cơ sở dữ liệu quan hệ.

Nhưng chính xác thì Cơ sở dữ liệu quan hệ là gì?

Cơ sở dữ liệu quan hệ là một nhóm các bảng được xác định rõ ràng mà từ đó dữ liệu có thể được truy cập, chỉnh sửa, cập nhật, v.v. mà không cần phải thay đổi các bảng cơ sở dữ liệu. SQL là tiêu chuẩn (API) cho cơ sở dữ liệu quan hệ.

Trở lại với SQL, lập trình SQL có thể được sử dụng để thực hiện nhiều hành động trên dữ liệu như truy vấn, chèn, cập nhật, xóa bản ghi cơ sở dữ liệu. Ví dụ về cơ sở dữ liệu quan hệ sử dụng SQL bao gồm Cơ sở dữ liệu MySQL, Oracle, v.v.

Để tìm hiểu thêm về SQL, bạn có thể xem qua các blog sau:

  1. Hiểu các kiểu dữ liệu SQL - Tất cả những gì bạn cần biết về kiểu dữ liệu SQL
  2. TẠO BẢNG trong SQL - Mọi thứ bạn cần biết về tạo bảng trong SQL

Trước khi bắt đầu với bản trình diễn về SQL, chúng ta hãy làm quen với các lệnh SQL cơ bản.

Khái niệm cơ bản về SQL

SQL cung cấp một tập hợp các lệnh đơn giản để sửa đổi bảng dữ liệu, hãy cùng xem qua một số lệnh SQL cơ bản:

  • TẠO NÊN CƠ SỞ DỮ LIỆU - tạo một cơ sở dữ liệu mới
  • TẠO BẢNG - tạo một bảng mới
  • CHÈN VÀO - chèn dữ liệu mới vào cơ sở dữ liệu
  • LỰA CHỌN - trích xuất dữ liệu từ cơ sở dữ liệu
  • CẬP NHẬT - cập nhật dữ liệu trong cơ sở dữ liệu
  • XÓA BỎ - xóa dữ liệu khỏi cơ sở dữ liệu
  • ALTER DATABASE - sửa đổi cơ sở dữ liệu
  • BẢNG ALTER - sửa đổi một bảng
  • DROP BẢNG - xóa một bảng
  • TẠO CHỈ SỐ - tạo một chỉ mục để tìm kiếm một phần tử
  • DROP INDEX - xóa một chỉ số

Để hiểu rõ hơn về SQL, hãy cài đặt MySQL và xem cách bạn có thể xử lý dữ liệu.

Cài đặt MySQL

Cài đặt MySQL là một nhiệm vụ đơn giản. Đây là một hướng dẫn từng bước một điều đó sẽ giúp bạn cài đặt MySQL trên hệ thống của mình.

Sau khi bạn cài đặt xong MySQL, hãy làm theo phần bên dưới để có một bản demo đơn giản sẽ cho bạn thấy cách bạn có thể chèn, thao tác và sửa đổi dữ liệu.

chương trình c ++ để sắp xếp một mảng theo thứ tự tăng dần

SQL cho khoa học dữ liệu - MySQL Demo

Trong phần trình diễn này, chúng ta sẽ xem cách tạo cơ sở dữ liệu và xử lý chúng. Đây là phần trình diễn ở cấp độ người mới bắt đầu để giúp bạn bắt đầu với phân tích dữ liệu trên SQL.

Vậy hãy bắt đầu!

Bước 1: Tạo cơ sở dữ liệu SQL

Cơ sở dữ liệu SQL là một kho lưu trữ nơi dữ liệu có thể được lưu trữ ở định dạng có cấu trúc. Bây giờ hãy tạo cơ sở dữ liệu bằng cách sử dụng MySQL :

TẠO CƠ SỞ DỮ LIỆU edureka SỬ DỤNG edureka

Trong đoạn mã trên, có hai lệnh SQL:

Ghi chú : Các lệnh SQL được định nghĩa bằng chữ in hoa và dấu chấm phẩy được sử dụng để kết thúc một lệnh SQL.

  1. TẠO CƠ SỞ DỮ LIỆU: Lệnh này tạo một cơ sở dữ liệu có tên là ‘edureka’

  2. SỬ DỤNG: Lệnh này được sử dụng để kích hoạt cơ sở dữ liệu. Ở đây chúng tôi đang kích hoạt cơ sở dữ liệu ‘edureka’.

Bước 2: Tạo bảng với các tính năng dữ liệu bắt buộc

Tạo bảng cũng đơn giản như tạo cơ sở dữ liệu. Bạn chỉ cần xác định các biến hoặc các tính năng của bảng với các kiểu dữ liệu tương ứng của chúng. Hãy xem cách này có thể được thực hiện như thế nào:

TẠO đồ chơi BẢNG (TID INTEGER NOT NULL PRIMARY KEY AUTO_INCREMENT, Item_name TEXT, Price INTEGER, Quantity INTEGER)

Trong đoạn mã trên, những điều sau đây xảy ra:

  1. Sử dụng lệnh ‘CREATE TABLE’ để tạo một bảng được gọi là đồ chơi.
  2. Bảng đồ chơi có 4 tính năng, đó là TID (ID giao dịch), Tên_mặt hàng, Giá và Số lượng.
  3. Mỗi biến được xác định với các kiểu dữ liệu tương ứng của chúng.
  4. Biến TID được khai báo là một khóa chính. Về cơ bản, khóa chính biểu thị một biến có thể lưu trữ một giá trị duy nhất.

Bạn có thể kiểm tra thêm chi tiết của bảng đã xác định bằng cách sử dụng lệnh sau:

MÔ TẢ đồ chơi

Bước 3: Chèn dữ liệu vào bảng

Bây giờ chúng ta đã tạo một bảng, hãy lấp đầy nó bằng một số giá trị. Trước đó trong blog này, tôi đã đề cập đến cách bạn có thể thêm dữ liệu vào bảng chỉ bằng một lệnh duy nhất, tức là CHÈN VÀO.

Hãy xem cách này được thực hiện như thế nào:

cách sử dụng phương thức tostring trong java
CHÈN VÀO GIÁ TRỊ đồ chơi (NULL, 'Xe lửa', 550, 88) CHÈN VÀO GIÁ TRỊ đồ chơi (NULL, 'Hotwheels_car', 350, 80) CHÈN VÀO GIÁ TRỊ đồ chơi (NULL, 'Magic_Pencil', 70, 100) CHÈN VÀO GIÁ TRỊ đồ chơi ( NULL, 'Dog_house', 120, 54) CHÈN VÀO GIÁ TRỊ đồ chơi (NULL, 'Ván trượt', 700, 42) CHÈN VÀO GIÁ TRỊ đồ chơi (NULL, 'GI Joe', 300, 120)

Trong đoạn mã trên, chúng tôi chỉ cần chèn 6 quan sát vào bảng 'đồ chơi' của mình bằng cách sử dụng lệnh INSERT INTO. Đối với mỗi quan sát, trong dấu ngoặc, tôi đã chỉ định giá trị của từng biến hoặc đối tượng được xác định trong khi tạo bảng.

Biến TID được đặt thành NULL vì nó tự động tăng từ 1.

Bây giờ, hãy hiển thị tất cả dữ liệu có trong bảng của chúng ta. Điều này có thể được thực hiện bằng cách sử dụng lệnh dưới đây:

CHỌN * TỪ đồ chơi


Bước 4: Sửa đổi các mục dữ liệu

Giả sử bạn quyết định tăng giá của G.I. Joe vì nó mang lại cho bạn rất nhiều khách hàng. Bạn sẽ cập nhật giá của biến trong cơ sở dữ liệu như thế nào?

Thật đơn giản, chỉ cần sử dụng lệnh dưới đây:

CẬP NHẬT bộ đồ chơi Giá = 350 WHERE TID = 6

Lệnh UPDATE cho phép bạn sửa đổi bất kỳ giá trị / biến nào được lưu trữ trong bảng. Tham số SET cho phép bạn chọn một tính năng cụ thể và tham số WHERE được sử dụng để xác định biến / giá trị mà bạn muốn thay đổi. Trong lệnh trên, tôi đã cập nhật giá của mục nhập dữ liệu có TID là 6 (G.I. Joe).

Bây giờ hãy xem bảng đã cập nhật:

CHỌN * TỪ đồ chơi

Bạn cũng có thể sửa đổi những gì bạn muốn hiển thị bằng cách chỉ tham chiếu đến các cột bạn muốn xem. Ví dụ: lệnh dưới đây sẽ chỉ hiển thị tên của đồ chơi và giá tương ứng của nó:

CHỌN Item_name, Giá TỪ đồ chơi

Bước 5: Truy xuất dữ liệu

Vì vậy, sau khi chèn dữ liệu và sửa đổi, cuối cùng đã đến lúc trích xuất và truy xuất dữ liệu theo yêu cầu nghiệp vụ. Đây là nơi dữ liệu có thể được truy xuất để phân tích dữ liệu sâu hơn và mô hình hóa dữ liệu.

Lưu ý rằng đó là một ví dụ đơn giản để giúp bạn bắt đầu với SQL, tuy nhiên, trong các trường hợp thực tế, dữ liệu phức tạp hơn nhiều và có kích thước lớn. Mặc dù vậy, các lệnh SQL vẫn được giữ nguyên và đó là điều làm cho SQL trở nên đơn giản và dễ hiểu. Nó có thể xử lý các tập dữ liệu phức tạp với một tập hợp các lệnh SQL đơn giản.

Bây giờ, hãy truy xuất dữ liệu với một vài sửa đổi. Tham khảo đoạn mã dưới đây và cố gắng hiểu nó hoạt động gì mà không cần xem đầu ra:

CHỌN * TỪ đồ chơi GIỚI HẠN 2

Bạn đoán nó! Nó hiển thị hai quan sát đầu tiên có trong bảng của tôi.

Hãy thử điều gì đó thú vị hơn.

CHỌN * TỪ ĐƠN HÀNG ĐƠN HÀNG THEO Giá ASC

Như trong hình, các giá trị được sắp xếp theo thứ tự tăng dần của biến giá. Nếu bạn muốn tìm ba mặt hàng được mua thường xuyên nhất, bạn sẽ làm gì?

Nó thực sự khá đơn giản!

CHỌN * TỪ đồ chơi ĐẶT HÀNG THEO SỐ LƯỢNG MÔ TẢ GIỚI HẠN 3

Hãy thử một lần nữa.

CHỌN * TỪ đồ chơi TẠI ĐÂU Giá> 400 ĐƠN HÀNG THEO Giá ASC


Truy vấn này trích xuất các chi tiết của đồ chơi có giá hơn 400 và sắp xếp đầu ra theo thứ tự tăng dần của giá.

Vì vậy, đó là cách bạn có thể xử lý dữ liệu bằng cách sử dụng SQL. Giờ bạn đã biết kiến ​​thức cơ bản về SQL cho Khoa học dữ liệu, tôi chắc chắn rằng bạn muốn tìm hiểu thêm. Dưới đây là một số blog để giúp bạn bắt đầu:

  1. Khoa học dữ liệu là gì? Hướng dẫn cho người mới bắt đầu về khoa học dữ liệu
  2. Hướng dẫn sử dụng MySQL - Hướng dẫn cho người mới bắt đầu học MySQL

Nếu bạn muốn đăng ký một khóa học hoàn chỉnh về Trí tuệ nhân tạo và Học máy, Edureka có một điều đó sẽ giúp bạn thành thạo các kỹ thuật như Học có giám sát, Học không giám sát và Xử lý ngôn ngữ tự nhiên. Nó bao gồm đào tạo về những tiến bộ và phương pháp tiếp cận kỹ thuật mới nhất trong Trí tuệ nhân tạo & Học máy như Học sâu, Mô hình đồ họa và Học tăng cường.