CentOS 6 下配置 Spark + Python 開發環境記錄

Apache Spark 是一個強大的開源分散式計算框架，廣泛應用於大數據處理和分析。結合 Python 的易用性，Spark 提供了強大的數據處理能力。本文將介紹如何在 CentOS 6 上配置 Spark 和 Python 的開發環境，幫助開發者快速上手。

前期準備

在開始之前，確保你的 CentOS 6 系統已經更新到最新版本。可以使用以下命令進行更新：

sudo yum update

接下來，安裝 Java，因為 Spark 需要 Java 環境。使用以下命令安裝 OpenJDK：

sudo yum install java-1.8.0-openjdk

安裝完成後，可以使用以下命令檢查 Java 是否安裝成功：

java -version

安裝 Python

接下來，我們需要安裝 Python。CentOS 6 默認安裝的 Python 版本可能較舊，因此建議安裝 Python 3。可以使用以下命令安裝 Python 3：

sudo yum install python34

安裝完成後，檢查 Python 版本：

python3 --version

安裝 Spark

現在我們來安裝 Apache Spark。首先，下載 Spark 的最新版本。可以訪問 Apache Spark 官方網站下載適合的版本。以下是使用 wget 命令下載 Spark 的示例：

wget https://archive.apache.org/dist/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

下載完成後，解壓縮文件：

tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz

然後將解壓縮的文件移動到 /opt 目錄：

sudo mv spark-3.1.2-bin-hadoop3.2 /opt/spark

配置環境變量

為了方便使用 Spark，我們需要配置環境變量。編輯 ~/.bashrc 文件，添加以下內容：

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin

保存文件後，執行以下命令使變更生效：

source ~/.bashrc

安裝 PySpark

要在 Python 中使用 Spark，我們需要安裝 PySpark。可以使用 pip 安裝：

pip3 install pyspark

測試安裝

安裝完成後，可以通過以下 Python 代碼測試 Spark 是否正常運行：

from pyspark import SparkContext

sc = SparkContext("local", "test")
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
print(distData.reduce(lambda a, b: a + b))  # 輸出 15
sc.stop()

將上述代碼保存為 test.py，然後運行：

python3 test.py

如果輸出結果為 15，則表示 Spark 和 Python 的開發環境配置成功。

總結

在 CentOS 6 上配置 Spark 和 Python 開發環境的過程相對簡單，通過安裝 Java、Python、Spark 和 PySpark，開發者可以快速開始大數據處理和分析的工作。對於需要高效能計算的應用，選擇合適的 VPS 方案將有助於提升性能和穩定性。無論是選擇香港伺服器還是其他地區的服務，確保選擇符合需求的配置，以支持你的開發工作。

近期文章

服务器设置和教程 · 6 10 月, 2024

CentOS 6 下配置 Spark + Python 開發環境記錄

CentOS 6 下配置 Spark + Python 開發環境記錄

前期準備

安裝 Python

安裝 Spark

配置環境變量

安裝 PySpark

測試安裝

總結

You may also like...

服务器设置和教程 · 6 10 月, 2024

CentOS 6 下配置 Spark + Python 開發環境記錄

前期準備

安裝 Python

安裝 Spark

配置環境變量

安裝 PySpark

測試安裝

總結

You may also like...

Nginx 技巧：使用 try_files 避免不必要的 404 錯誤

ORA-18125: XUST0026 重新驗證模式 string 不受支持 ORACLE 報錯 故障修復 遠程處理

Linux 伺服器安全策略技巧：維護最少的用戶帳戶

ORA-18125: XUST0026 重新驗證模式 string 不受支持 ORACLE 報錯故障修復遠程處理