Apache Hive

Giới Thiệu Apache Hive là một hệ thống lưu trữ dữ liệu được xây dựng trên nền tảng của Hadoop, hỗ trợ phân tích các tập dữ liệu lớn được lưu trữ trong các hệ thống tệp phân tán của Hadoop (HDFS) hoặc S3 bằng cách sử dụng các truy vấn tương tự SQL. Nó…

Spark SQL: Tạo Temp View từ DataFrame

Tạo Temp View Bạn có thể đăng ký bất kỳ DataFrame nào như một bảng hoặc view (một bảng tạm thời) và truy vấn nó bằng cách sử dụng SQL thuần túy với hàm spark.sql (nhớ, spark là biến SparkSession của chúng ta). pythonSao chép mãfrom pyspark.sql import SparkSession # Tạo một SparkSession spark =…

Kế Hoạch Thực Thi Spark

Giới Thiệu Sử dụng hàm explain() trên bất kỳ đối tượng DataFrame nào để xem dòng dữ liệu của DataFrame (hoặc cách Spark sẽ thực thi truy vấn này). Kế hoạch thực thi được đọc từ trên xuống dưới, phần trên là kết quả cuối cùng và phần dưới là nguồn (hoặc các bước xử…

Cài đặt và Lấy Cấu Hình Spark

Cài đặt Cấu hình Spark Phương pháp 1: Xác định cấu hình Spark khi tạo SparkSession thông qua .config pythonSao chép mãspark = SparkSession \ .builder \ .appName(“SparkExample”) \ .config(“spark.sql.warehouse.dir”, “/user/hive/warehouse”) \ .getOrCreate() Nếu bạn cần thiết lập nhiều cấu hình, bạn có thể định nghĩa chúng trong một từ điển hoặc trong tệp yaml…

Spark Session

Giới thiệu SparkSession là gì? Bước đầu tiên trong bất kỳ Ứng dụng Spark nào là tạo một SparkSession. SparkSession hoạt động như quá trình điều khiển để kiểm soát ứng dụng Spark. Khi bạn khởi đầu Spark trong chế độ tương tác, một SparkSession được tạo một cách ngầm định để quản lý Ứng…

Giới thiệu về Apache Spark

Apache Spark là gì? Apache Spark là một công cụ tính toán thống nhất và một tập hợp các thư viện được thiết kế để xử lý dữ liệu song song trên các cụm máy tính. Nó có thể quản lý các cụm máy tính bằng một trình quản lý cụm như trình quản lý…

Hive

1. Giới thiệu Hive Hive Apache Hive là hệ thống lưu trữ dữ liệu được xây dựng trên nền tảng của Hadoop, hỗ trợ phân tích các tập dữ liệu lớn được lưu trữ trong hệ thống tệp phân tán Hadoop (HDFS) hoặc S3 bằng cách sử dụng các truy vấn giống như SQL. Nó…