Image default
Máy Tính

Tại sao Python trong Excel là công cụ đột phá cho phân tích và xử lý dữ liệu của bạn?

Vào cuối năm 2023, Microsoft đã công bố tính năng tích hợp Python trong Excel. Giống như nhiều người, ban đầu tôi tỏ ra khá hoài nghi và vẫn tiếp tục dựa vào VBA cùng các công thức Excel truyền thống cho mọi tác vụ phân tích và trực quan hóa dữ liệu. Tuy nhiên, sau khi nghe được những lời bàn tán về tiềm năng của nó trên các diễn đàn, tôi cuối cùng đã “dấn thân” vào thế giới Python bên trong Excel, và sự kết hợp này đã vượt xa mọi kỳ vọng của tôi.

Khả năng tận dụng các thư viện Python mạnh mẽ trực tiếp trong môi trường Excel quen thuộc đã thay đổi cơ bản cách tôi tiếp cận dữ liệu. Nhìn lại, tôi không khỏi tự hỏi tại sao mình không khám phá điều này sớm hơn. Microsoft Excel trên Windows hiện hỗ trợ một tập hợp các thư viện Python cốt lõi từ Anaconda, và bạn hoàn toàn có thể sử dụng câu lệnh import trong Python để tích hợp thêm nhiều thư viện khác thông qua Anaconda.

Màn hình máy tính hiển thị mã Python chạy trong môi trường Excel với ánh sáng đèn LED nền.Màn hình máy tính hiển thị mã Python chạy trong môi trường Excel với ánh sáng đèn LED nền.

Làm sạch và chuẩn hóa dữ liệu khách hàng hiệu quả

Ảnh chụp màn hình minh họa khả năng tích hợp và hỗ trợ Python trong Microsoft Excel, đặc biệt cho việc làm sạch dữ liệu.Ảnh chụp màn hình minh họa khả năng tích hợp và hỗ trợ Python trong Microsoft Excel, đặc biệt cho việc làm sạch dữ liệu.

Nguồn: Microsoft

Đối với công việc kinh doanh thương mại điện tử của tôi, tôi thường xuyên nhận dữ liệu khách hàng từ nhiều nguồn khác nhau. Mỗi tệp lại có định dạng không nhất quán: từ các định dạng ngày khác nhau, kiểu địa chỉ đa dạng, cho đến tên khách hàng với các kiểu chữ hoa/thường lẫn lộn. Việc làm sạch dữ liệu này thủ công trong Excel là một cơn ác mộng, tốn thời gian và rất dễ mắc lỗi. Đây chính là lúc thư viện Pandas của Python đã giúp công việc của tôi trở nên dễ dàng hơn rất nhiều.

Đầu tiên, tôi cần sao chép và dán dữ liệu từ mỗi nguồn vào các trang tính riêng biệt trong sổ làm việc Excel của mình, sau đó sử dụng mã Python để làm sạch định dạng ngày và chuẩn hóa địa chỉ, tên khách hàng. Giả sử tên khách hàng nằm ở cột B của Sheet 3, tôi có thể sử dụng đoạn mã dưới đây để thực hiện công việc:

=PY("""import pandas as pdnames = pd.DataFrame({'Name': xl('Sheet3!B1:B100')})names['Name'] = names['Name'].str.title()names""")

Lệnh .str.title() có tác dụng chuyển đổi các chuỗi văn bản thành kiểu chữ hoa ở đầu mỗi từ (title case). Việc mà trước đây phải mất hàng giờ nay chỉ còn vài phút. Dữ liệu đã sạch sẽ, nhất quán và sẵn sàng để phân tích.

Phân tích xu hướng bán hàng chuyên sâu

Trong khi Excel cung cấp một số hàm và thủ thuật để phân tích xu hướng bán hàng, Python đã đưa toàn bộ trải nghiệm này lên một tầm cao mới. Bất cứ khi nào tôi muốn trực quan hóa xu hướng doanh số, xác định các tháng đỉnh điểm và phát hiện bất kỳ sự sụt giảm tiềm ẩn nào, tôi đều ưu tiên sử dụng các thư viện Pandas và Matplotlib để hoàn thành công việc.

Giả sử dữ liệu bán hàng của tôi nằm trong một trang tính Excel có tên ‘SalesData’ với các chi tiết sau:

  • Cột A: Tháng (Tháng 1, Tháng 2, Tháng 3,…)
  • Cột B: Dữ liệu bán hàng với các giá trị số

Tôi có thể đơn giản chạy một đoạn mã Python vào một ô Excel. Đoạn mã này sẽ nhập các thư viện Pandas và Matplotlib – những công cụ thiết yếu cho việc phân tích dữ liệu và tạo biểu đồ. Nó tải dữ liệu từ trang tính ‘SalesData’ vào một DataFrame của Pandas, chuyển đổi doanh số thành dữ liệu số, tạo biểu đồ đường, tính toán và vẽ đường trung bình động, và hiển thị biểu đồ đã tạo. Việc này giúp tiết kiệm thời gian và công sức đáng kể so với các phương pháp thủ công trong Excel.

Ví dụ về việc sử dụng DataFrame của thư viện Pandas trong môi trường Python trên Excel để phân tích dữ liệu bán hàng.Ví dụ về việc sử dụng DataFrame của thư viện Pandas trong môi trường Python trên Excel để phân tích dữ liệu bán hàng.

Trong một ví dụ khác, giả sử bạn có bốn cột là Date (Ngày), Product (Sản phẩm), Quantity (Số lượng) và Sales (Doanh số) trong Excel. Bạn có thể chọn toàn bộ cơ sở dữ liệu, sử dụng thư viện Pandas để tạo DataFrame (về cơ bản là tải dữ liệu của bạn lên Python để phân tích dữ liệu), lấy đó làm tham chiếu và chọn phương thức describe để kiểm tra dữ liệu liên quan. Tham khảo ảnh chụp màn hình dưới đây:

=PY xl("G6").describe()

Ảnh chụp màn hình thể hiện kết quả của phương thức describe() trong Python trên Excel, cung cấp tóm tắt thống kê dữ liệu.Ảnh chụp màn hình thể hiện kết quả của phương thức describe() trong Python trên Excel, cung cấp tóm tắt thống kê dữ liệu.

Tôi thậm chí có thể tiến thêm một bước và yêu cầu nó mô tả các sản phẩm. Tôi đã thêm đoạn mã [“Product”] vào Python và bạn hãy tự mình xem kết quả. Tôi có thể nhanh chóng thấy số lượng sản phẩm, số lượng sản phẩm độc nhất, các sản phẩm hàng đầu và tần suất của chúng.

=PY xl("G6")["Product"].describe()

Ví dụ kiểm tra chi tiết dữ liệu sản phẩm bằng cách sử dụng Python trong Excel, hiển thị số lượng và tần suất sản phẩm.Ví dụ kiểm tra chi tiết dữ liệu sản phẩm bằng cách sử dụng Python trong Excel, hiển thị số lượng và tần suất sản phẩm.

Tôi vẫn chưa khám phá hết tiềm năng của tính năng này. Khả năng ứng dụng là vô tận. Tôi có thể tính tổng doanh số cho từng ngày, tạo biểu đồ và làm nhiều hơn nữa với thư viện Pandas. Nếu bạn là người mới bắt đầu với Python, bạn có thể gặp khó khăn trong việc viết mã hoặc gặp phải lỗi. Bạn có thể tận dụng trình chỉnh sửa Python hiển thị từ thanh bên, tìm hiểu về các lỗi và thực hiện các bước cần thiết.

Nếu bạn vừa bắt đầu hành trình Python của mình, hãy tham khảo tài liệu của Pandas để học tất cả các thủ thuật.

Kiểm soát kiểu đầu ra Python trong Excel

Excel mang đến sự linh hoạt để kiểm soát cách Python hiển thị DataFrames. Đôi khi bạn có thể muốn xem dữ liệu ở định dạng thân thiện với Excel thay vì định dạng Python thuần túy.

  1. Mở trang tính Excel của bạn và nhấp vào ô chứa DataFrame.
  2. Tìm menu thả xuống bên cạnh biểu tượng PY màu xanh lá cây ở phía trên.
  3. Chọn kiểu đầu ra mong muốn giữa Python Object (Đối tượng Python) hoặc Excel Value (Giá trị Excel).
    Hướng dẫn thay đổi kiểu đầu ra của dữ liệu Python trong Excel, từ đối tượng Python sang giá trị Excel.Hướng dẫn thay đổi kiểu đầu ra của dữ liệu Python trong Excel, từ đối tượng Python sang giá trị Excel.

Mẹo hay: Đặt tên cho DataFrame để dễ quản lý

Đây là một thủ thuật khác mà tôi thường sử dụng khi khám phá Python trong Excel. Tôi đặt cho DataFrame một tên duy nhất để dễ tham chiếu và cải thiện khả năng đọc hiểu mã. Cách này tốt hơn nhiều so với việc sử dụng toàn bộ mã DataFrame.

  1. Chọn ô DataFrame trong Excel.
  2. Đặt một tên duy nhất ngay trước thanh công thức, gõ dấu =, và nhấn Ctrl + Enter.
    Cách đặt tên cho DataFrame trong Excel để tham chiếu và quản lý mã Python dễ dàng hơn.Cách đặt tên cho DataFrame trong Excel để tham chiếu và quản lý mã Python dễ dàng hơn.

Ngoài Pandas và Matplotlib, Openpyxl, Squarify và Pyexcel là một số thư viện Python phổ biến khác. Tôi nóng lòng muốn đưa chúng vào quy trình làm việc Excel của mình.

Tốt hơn muộn còn hơn không

Trải nghiệm của tôi với Python trong Excel là một khám phá đáng kể. Tôi đã chuyển từ việc điều hướng các công thức phức tạp sang việc thao tác và phân tích dữ liệu một cách dễ dàng với sự trợ giúp của các thư viện Python. Đây không chỉ là việc tự động hóa các tác vụ, mà còn là việc mở khóa một cấp độ khám phá và hiểu biết dữ liệu mới, ngay trong giao diện quen thuộc của các hàng và cột.

Nếu bạn vẫn đang dựa vào các phương pháp Excel truyền thống, tôi đặc biệt khuyên bạn nên dùng thử tính năng tích hợp này. Để bắt đầu, hãy cân nhắc khám phá các thư viện Python này trong Excel.

Related posts

Many Notes: Ứng dụng ghi chú Markdown mã nguồn mở liệu có phải là giải pháp tối ưu?

Administrator

Khám phá những ứng dụng bất ngờ của máy ảo (Virtual Machine) trong công việc hàng ngày

Administrator

Cách Khôi Phục Menu Chuột Phải Cổ Điển Trên Windows 11 Chỉ Với Vài Bước Đơn Giản

Administrator