Hướng dẫn về gấu trúc Python: Tìm hiểu về gấu trúc để phân tích dữ liệu



Trong hướng dẫn Python Pandas này, bạn sẽ tìm hiểu các hoạt động khác nhau của Pandas. Nó cũng bao gồm một ca sử dụng, nơi bạn có thể phân tích dữ liệu bằng cách sử dụng Pandas.

Trong blog này, chúng ta sẽ thảo luận về phân tích dữ liệu bằng cách sử dụng Pandas trong Python.Hôm nay, là một kỹ năng nóng trong ngành đã vượt qua PHP vào năm 2017 và C # vào năm 2018 về mức độ phổ biến và sử dụng nói chung.Trước khi nói về Pandas, người ta phải hiểu khái niệm về mảng Numpy. Tại sao? Bởi vì Pandas là một thư viện phần mềm mã nguồn mở được xây dựng dựa trên . Trong Hướng dẫn về gấu trúc Python này, tôi sẽ đưa bạn qua các chủ đề sau, sẽ đóng vai trò là nguyên tắc cơ bản cho các blog sắp tới:

Bắt đầu nào. :-)





Python Pandas là gì?

Gấu trúc được sử dụng để thao tác, phân tích và làm sạch dữ liệu. Gấu trúc Python rất phù hợp với các loại dữ liệu khác nhau, chẳng hạn như:

  • Dữ liệu dạng bảng với các cột được nhập không đồng nhất
  • Dữ liệu chuỗi thời gian có thứ tự và không có thứ tự
  • Dữ liệu ma trận tùy ý với nhãn hàng & cột
  • Dữ liệu không có nhãn
  • Bất kỳ dạng tập hợp dữ liệu quan sát hoặc thống kê nào khác

Làm thế nào để cài đặt Pandas?

Để cài đặt Python Pandas, hãy vào dòng lệnh / terminal của bạn và nhập “pip install pandas” hoặc nếu không, nếu bạn đã cài đặt anaconda trong hệ thống của mình, chỉ cần nhập “conda install pandas”. Sau khi quá trình cài đặt hoàn tất, hãy truy cập IDE của bạn (Jupyter, PyCharm, v.v.) và chỉ cần nhập bằng cách gõ: “nhập gấu trúc dưới dạng pd”



Tiếp tục trong hướng dẫn về gấu trúc Python, chúng ta hãy xem một số hoạt động của nó:

Hoạt động Python Pandas

Sử dụng gấu trúc Python, bạn có thể thực hiện rất nhiều thao tác với chuỗi, khung dữ liệu, dữ liệu bị thiếu, nhóm theo v.v. Một số thao tác phổ biến để thao tác dữ liệu được liệt kê dưới đây:



PandasOperations - Python Pandas Tutorial - Edureka

Bây giờ, chúng ta hãy hiểu từng thao tác này.

Cắt khung dữ liệu

Để thực hiện cắt dữ liệu, bạn cần một khung dữ liệu. Đừng lo lắng, khung dữ liệu là cấu trúc dữ liệu 2 chiều và là đối tượng gấu trúc phổ biến nhất. Vì vậy, trước tiên, hãy tạo khung dữ liệu.

Tham khảo đoạn mã dưới đây để triển khai nó trong PyCharm:

nhập gấu trúc dưới dạng pd XYZ_web = {'Ngày': [1,2,3,4,5,6], 'Khách truy cập': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) print (df)

Đầu ra :

Số lượt truy cập trong ngày Bounce_Rate 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350

câu lệnh goto trong c ++

Đoạn mã trên sẽ chuyển từ điển thành Khung dữ liệu gấu trúc cùng với chỉ mục ở bên trái. Bây giờ, chúng ta hãy cắt một cột cụ thể từ khung dữ liệu này. Tham khảo hình ảnh bên dưới:

print (df.head (2))

Đầu ra:

Số lượt truy cập trong ngày Bounce_Rate 0 20 1 1000 1 20 2 700

Tương tự, nếu bạn muốn hai hàng cuối cùng của dữ liệu, hãy nhập lệnh dưới đây:

print (df.tail (2))

Đầu ra:

Số lượt truy cập trong ngày Bounce_Rate 4 10 5 400 5 34 6 350

Tiếp theo trong hướng dẫn Python Pandas, chúng ta hãy thực hiện hợp nhất và nối.

Hợp nhất & Gia nhập

Khi hợp nhất, bạn có thể hợp nhất hai khung dữ liệu để tạo thành một khung dữ liệu duy nhất. Bạn cũng có thể quyết định những cột nào bạn muốn làm cho chung. Hãy để tôi thực hiện điều đó một cách thực tế, đầu tiên tôi sẽ tạo ba khung dữ liệu, trong đó có một số cặp khóa-giá trị và sau đó hợp nhất các khung dữ liệu với nhau. Tham khảo mã bên dưới:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Đầu ra:

nhập gấu trúc dưới dạng pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, index = [2005, 2006,2007,2008]) merge = pd.merge (df1, df2) print (merge)

Như bạn có thể thấy ở trên, hai khung dữ liệu đã hợp nhất thành một khung dữ liệu duy nhất. Bây giờ, bạn cũng có thể chỉ định cột mà bạn muốn tạo cột chung. Ví dụ: tôi muốn cột “HPI” là chung và đối với mọi thứ khác, tôi muốn các cột riêng biệt. Vì vậy, hãy để tôi thực hiện điều đó một cách thiết thực:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) merge = pd.merge (df1, df2, on = 'HPI') print (merge)

Đầu ra:

IND_GDP Int_Rate Low_Tier_HPI Thất nghiệp 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Tiếp theo, hãy để chúng tôi hiểu tham gia trong hướng dẫn gấu trúc python. Đó là một phương pháp thuận tiện khác để kết hợp hai khung dữ liệu được lập chỉ mục khác nhau thành một khung dữ liệu kết quả duy nhất. Điều này khá giống với thao tác “hợp nhất”, ngoại trừ thao tác kết hợp sẽ nằm trên “chỉ mục” thay vì “cột”. Hãy để chúng tôi thực hiện nó một cách thiết thực.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Thất nghiệp': [1,3,5,6]}, index = [2001, 2003,2004,2004]) đã tham gia = df1. tham gia (df2) print (đã tham gia)

Đầu ra:

IND_GDP Int_Rate Low_Tier_HPI Thất nghiệp 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Như bạn có thể nhận thấy trong kết quả ở trên, vào năm 2002 (chỉ mục), không có giá trị nào được gắn vào cột “low_tier_HPI” và “thất nghiệp”, do đó nó đã in NaN (Không phải là Số). Sau đó vào năm 2004, cả hai giá trị đều có sẵn, do đó nó đã in các giá trị tương ứng.

Bạn có thể xem qua bản ghi hướng dẫn Python Pandas này, nơi người hướng dẫn của chúng tôi đã giải thích các chủ đề một cách chi tiết với các ví dụ sẽ giúp bạn hiểu rõ hơn về khái niệm này.

Python để phân tích dữ liệu | Hướng dẫn Python Pandas | Đào tạo Python | Edureka


Tiếp tục trong hướng dẫn về gấu trúc Python, hãy để chúng tôi hiểu cách nối hai khung dữ liệu dữ liệu.

Kết nối

Kết nối về cơ bản sẽ gắn kết các khung dữ liệu lại với nhau. Bạn có thể chọn thứ nguyên mà bạn muốn nối. Đối với điều đó, chỉ cần sử dụng “pd.concat” và chuyển vào danh sách các khung dữ liệu để ghép với nhau. Hãy xem xét ví dụ dưới đây.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)

Đầu ra:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Như bạn có thể thấy ở trên, hai khung dữ liệu được gắn với nhau trong một khung dữ liệu duy nhất, nơi chỉ mục bắt đầu từ năm 2001 cho đến năm 2008. Tiếp theo, bạn cũng có thể chỉ định trục = 1 để nối, hợp nhất hoặc hủy dọc các cột. Tham khảo mã bên dưới:

tổng các chữ số trong java
df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], axis = 1) print (concat)

Đầu ra:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80,0 50,0 2,0 NaN NaN NaN 2002 90,0 45,0 1,0 NaN NaN NaN 2003 70,0 45,0 2,0 NaN NaN NaN 2004 60,0 67,0 3,0 NaN NaN NaN 2005 NaN NaN NaN 80,0 50,0 2,0 2006 NaN NaN NaN 90,0 45,0 1,0 2007 NaN NaN NaN 70,0 45,0 2,0 2008 NaN NaN NaN 60,0 67,0 3,0

Như bạn có thể ở trên, có rất nhiều giá trị bị thiếu. Điều này xảy ra vì các khung dữ liệu không có giá trị cho tất cả các chỉ mục bạn muốn nối. Do đó, bạn nên đảm bảo rằng bạn có tất cả thông tin được sắp xếp chính xác khi bạn nối hoặc nối trên trục.

Thay đổi chỉ mục

Tiếp theo trong hướng dẫn về gấu trúc python, chúng ta sẽ hiểu cách thay đổi giá trị chỉ mục trong khung dữ liệu. Ví dụ: chúng ta hãy tạo khung dữ liệu với một số cặp giá trị khóa trong từ điển và thay đổi các giá trị chỉ mục. Hãy xem xét ví dụ dưới đây:

Hãy để chúng tôi xem nó thực sự xảy ra như thế nào:

nhập gấu trúc dưới dạng pd df = pd.DataFrame ({'Ngày': [1,2,3,4], 'Khách truy cập': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Day', inplace = True) print (df)

Đầu ra:

Số lượt truy cập Bounce_Rate Ngày 1 20 200 2 45 100 3 60 230 4 10 300

Như bạn có thể nhận thấy trong kết quả ở trên, giá trị chỉ mục đã được thay đổi đối với cột 'Ngày'.

Thay đổi các tiêu đề cột

Bây giờ chúng ta hãy thay đổi tiêu đề của cột trong hướng dẫn pandas python này. Chúng ta hãy lấy cùng một ví dụ, trong đó tôi sẽ thay đổi tiêu đề cột từ “Khách truy cập” thành “Người dùng”. Vì vậy, hãy để tôi thực hiện nó một cách thực tế.

nhập gấu trúc dưới dạng pd df = pd.DataFrame ({'Ngày': [1,2,3,4], 'Khách truy cập': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (cột = {'Khách truy cập': 'Người dùng'}) print (df)

Đầu ra:

Số người dùng trong ngày Bounce_Rate 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

Như bạn thấy ở trên, tiêu đề cột “Khách truy cập” đã được đổi thành “Người dùng”. Tiếp theo trong hướng dẫn về pandas python, chúng ta hãy thực hiện trộn dữ liệu.

Data Munging

Trong Data munging, bạn có thể chuyển đổi một dữ liệu cụ thể sang một định dạng khác. Ví dụ: nếu bạn có tệp .csv, bạn cũng có thể chuyển đổi tệp đó thành .html hoặc bất kỳ định dạng dữ liệu nào khác. Vì vậy, hãy để tôi thực hiện điều này một cách thiết thực.

nhập gấu trúc dưới dạng pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-young-Thất nghiệpAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Khi bạn chạy mã này, một tệp HTML sẽ được tạo có tên là “edu.html”. Bạn có thể sao chép trực tiếp đường dẫn của tệp và dán vào trình duyệt của mình, nơi hiển thị dữ liệu ở định dạng HTML. Tham khảo ảnh chụp màn hình dưới đây:


Tiếp theo trong hướng dẫn về pandas python, chúng ta hãy xem xét một trường hợp sử dụng nói về tình trạng thất nghiệp của thanh niên toàn cầu.

Hướng dẫn Python Pandas: Trường hợp sử dụng để phân tích dữ liệu thất nghiệp của thanh niên

Báo cáo vấn đề :Bạn được cung cấp một tập dữ liệu bao gồm phần trăm thanh niên thất nghiệp trên toàn cầu từ năm 2010 đến năm 2014. Bạn phải sử dụng tập dữ liệu này và tìm sự thay đổi trong phần trăm thanh niên cho mọi quốc gia từ năm 2010-2011.

Trước tiên, hãy để chúng tôi hiểu tập dữ liệu chứa các cột như Tên quốc gia, Mã quốc gia và năm từ 2010 đến 2014. Bây giờ sử dụng pandas, chúng tôi sẽ sử dụng “pd.read_csv” để đọc tệp định dạng tệp .csv.
Tham khảo ảnh chụp màn hình bên dưới:

Chúng ta hãy tiếp tục và thực hiện phân tích dữ liệu, trong đó chúng ta sẽ tìm hiểu tỷ lệ phần trăm thay đổi trong thanh niên thất nghiệp từ năm 2010 đến năm 2011. Sau đó, chúng ta sẽ hình dung tương tự bằng cách sử dụng thư viện, là một thư viện mạnh mẽ để trực quan hóa bằng Python. Nó có thể được sử dụng trong các tập lệnh Python, trình bao, máy chủ ứng dụng web và các bộ công cụ GUI khác. Bạn có thể sử dụng đọc thêm tại đây:

Bây giờ, chúng ta hãy triển khai mã trong PyCharm:

nhập gấu trúc dưới dạng pd nhập matplotlib.pyplot dưới dạng plt từ matplotlib import style style.use ('fivethirtyeight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-young-failAPI_ILO_country_YU.csv', index_col = 0) df = country. head (5) df = df.set_index (['Mã quốc gia']) sd = sd.reindex (cột = ['2010', '2011']) db = sd.diff (trục = 1) db.plot (loại = 'bar') plt.show ()

Như bạn thấy ở trên, tôi đã thực hiện phân tích 5 hàng trên cùng của khung dữ liệu quốc gia. Tiếp theo, tôi đã xác định một giá trị chỉ mục là “Mã quốc gia” và sau đó lập chỉ mục lại cột đó thành 2010 và 2011. Sau đó, chúng ta có thêm một khung dữ liệu db, in ra sự khác biệt giữa hai cột hoặc phần trăm thay đổi của thanh niên thất nghiệp. từ năm 2010 đến năm 2011. Cuối cùng, tôi đã vẽ một barplot bằng cách sử dụng thư viện Matplotlib trong Python.


Bây giờ nếu bạn nhận thấy trong âm mưu trên, ở Afghanistan (AFG) từ năm 2010 đến năm 2011, đã có sự gia tăng khoảng thanh niên thất nghiệp. 0,25%. Ở Angola (AGO), có một xu hướng tiêu cực có nghĩa là tỷ lệ thanh niên thất nghiệp đã giảm xuống. Tương tự, bạn có thể thực hiện phân tích trên các bộ dữ liệu khác nhau.

lớp ngẫu nhiên trong ví dụ java

Tôi hy vọng blog của tôi về “Hướng dẫn về gấu trúc Python” phù hợp với bạn. Để có kiến ​​thức chuyên sâu về python cùng với các ứng dụng khác nhau của nó, bạn có thể đăng ký tham gia trực tiếp của Edureka với hỗ trợ 24/7 và quyền truy cập trọn đời.

Có một câu hỏi cho chúng tôi? Vui lòng đề cập đến nó trong phần nhận xét của blog “Hướng dẫn Python Pandas” này và chúng tôi sẽ liên hệ lại với bạn trong thời gian sớm nhất.