Ubuntu 18.04 下搭建單機 Hadoop 和 Spark 集群環境

在大數據時代，Hadoop 和 Spark 成為了數據處理和分析的兩大主流技術。本文將介紹如何在 Ubuntu 18.04 系統上搭建一個單機的 Hadoop 和 Spark 集群環境，幫助用戶快速上手這些技術。

環境準備

在開始之前，確保你的 Ubuntu 18.04 系統已經更新到最新版本。可以使用以下命令進行更新：

sudo apt update
sudo apt upgrade

接下來，安裝 Java，因為 Hadoop 和 Spark 都依賴於 Java 環境。可以使用以下命令安裝 OpenJDK：

sudo apt install openjdk-8-jdk

安裝完成後，檢查 Java 是否安裝成功：

java -version

安裝 Hadoop

首先，下載 Hadoop 的最新版本。可以從 Apache Hadoop 的官方網站獲取最新的穩定版本。以下是下載和解壓的命令：

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz
sudo mv hadoop-3.3.1 /usr/local/hadoop

接下來，設置環境變量。在 ~/.bashrc 文件中添加以下內容：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

使環境變量生效：

source ~/.bashrc

接下來，配置 Hadoop。編輯 Hadoop 的配置文件，設置核心配置和伺服器配置：

cd $HADOOP_HOME/etc/hadoop
nano core-site.xml

在 core-site.xml 中添加以下配置：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

然後編輯 hdfs-site.xml：

nano hdfs-site.xml

添加以下配置：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

接下來，格式化 HDFS 文件系統：

hdfs namenode -format

啟動 Hadoop 服務：

start-dfs.sh

安裝 Spark

下載 Spark 的最新版本，並解壓到指定目錄：

wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz
sudo mv spark-3.1.2-bin-hadoop3.2 /usr/local/spark

同樣，設置 Spark 的環境變量。在 ~/.bashrc 文件中添加以下內容：

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin

使環境變量生效：

source ~/.bashrc

接下來，啟動 Spark 伺服器：

start-master.sh
start-slave.sh spark://localhost:7077

測試集群

在瀏覽器中訪問 http://localhost:8080，可以看到 Spark 的管理界面，這意味著 Spark 已經成功啟動。你可以通過提交簡單的 Spark 應用來測試集群的運行狀況。

總結

本文介紹了如何在 Ubuntu 18.04 上搭建單機的 Hadoop 和 Spark 集群環境。這些技術在大數據處理和分析中扮演著重要角色，掌握它們將有助於提升數據處理的效率和能力。如果你需要穩定的 VPS 來運行這些應用，Server.HK 提供多種選擇，適合不同需求的用戶。

近期文章

服务器设置和教程 · 8 10 月, 2024

Ubuntu 18.04 下搭建單機 Hadoop 和 Spark 集群環境

Ubuntu 18.04 下搭建單機 Hadoop 和 Spark 集群環境

環境準備

安裝 Hadoop

安裝 Spark

測試集群

總結

You may also like...

服务器设置和教程 · 8 10 月, 2024

Ubuntu 18.04 下搭建單機 Hadoop 和 Spark 集群環境

環境準備

安裝 Hadoop

安裝 Spark

測試集群

總結

You may also like...

用還是不用MongoDB？悲催用戶炮轟10gen CTO

MSSQL：綁定連接的技術之旅（mssql bind）

犬類科學數據庫：探索狗狗世界的神奇之處 (犬類科學數據庫)