服务器设置和教程 · 8 10 月, 2024

Ubuntu 18.04 下搭建單機 Hadoop 和 Spark 集群環境

Ubuntu 18.04 下搭建單機 Hadoop 和 Spark 集群環境

在大數據時代,Hadoop 和 Spark 成為了數據處理和分析的兩大主流技術。本文將介紹如何在 Ubuntu 18.04 系統上搭建一個單機的 Hadoop 和 Spark 集群環境,幫助用戶快速上手這些技術。

環境準備

在開始之前,確保你的 Ubuntu 18.04 系統已經更新到最新版本。可以使用以下命令進行更新:

sudo apt update
sudo apt upgrade

接下來,安裝 Java,因為 Hadoop 和 Spark 都依賴於 Java 環境。可以使用以下命令安裝 OpenJDK:

sudo apt install openjdk-8-jdk

安裝完成後,檢查 Java 是否安裝成功:

java -version

安裝 Hadoop

首先,下載 Hadoop 的最新版本。可以從 Apache Hadoop 的官方網站獲取最新的穩定版本。以下是下載和解壓的命令:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz
sudo mv hadoop-3.3.1 /usr/local/hadoop

接下來,設置環境變量。在 ~/.bashrc 文件中添加以下內容:

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

使環境變量生效:

source ~/.bashrc

接下來,配置 Hadoop。編輯 Hadoop 的配置文件,設置核心配置和伺服器配置:

cd $HADOOP_HOME/etc/hadoop
nano core-site.xml

在 core-site.xml 中添加以下配置:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

然後編輯 hdfs-site.xml:

nano hdfs-site.xml

添加以下配置:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

接下來,格式化 HDFS 文件系統:

hdfs namenode -format

啟動 Hadoop 服務:

start-dfs.sh

安裝 Spark

下載 Spark 的最新版本,並解壓到指定目錄:

wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz
sudo mv spark-3.1.2-bin-hadoop3.2 /usr/local/spark

同樣,設置 Spark 的環境變量。在 ~/.bashrc 文件中添加以下內容:

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin

使環境變量生效:

source ~/.bashrc

接下來,啟動 Spark 伺服器:

start-master.sh
start-slave.sh spark://localhost:7077

測試集群

在瀏覽器中訪問 http://localhost:8080,可以看到 Spark 的管理界面,這意味著 Spark 已經成功啟動。你可以通過提交簡單的 Spark 應用來測試集群的運行狀況。

總結

本文介紹了如何在 Ubuntu 18.04 上搭建單機的 Hadoop 和 Spark 集群環境。這些技術在大數據處理和分析中扮演著重要角色,掌握它們將有助於提升數據處理的效率和能力。如果你需要穩定的 VPS 來運行這些應用,Server.HK 提供多種選擇,適合不同需求的用戶。