Ubuntu 18.04 下搭建單機 Hadoop 和 Spark 集群環境
在大數據時代,Hadoop 和 Spark 成為了數據處理和分析的兩大主流技術。本文將介紹如何在 Ubuntu 18.04 系統上搭建一個單機的 Hadoop 和 Spark 集群環境,幫助用戶快速上手這些技術。
環境準備
在開始之前,確保你的 Ubuntu 18.04 系統已經更新到最新版本。可以使用以下命令進行更新:
sudo apt update
sudo apt upgrade接下來,安裝 Java,因為 Hadoop 和 Spark 都依賴於 Java 環境。可以使用以下命令安裝 OpenJDK:
sudo apt install openjdk-8-jdk安裝完成後,檢查 Java 是否安裝成功:
java -version安裝 Hadoop
首先,下載 Hadoop 的最新版本。可以從 Apache Hadoop 的官方網站獲取最新的穩定版本。以下是下載和解壓的命令:
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz
sudo mv hadoop-3.3.1 /usr/local/hadoop接下來,設置環境變量。在 ~/.bashrc 文件中添加以下內容:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64使環境變量生效:
source ~/.bashrc接下來,配置 Hadoop。編輯 Hadoop 的配置文件,設置核心配置和伺服器配置:
cd $HADOOP_HOME/etc/hadoop
nano core-site.xml在 core-site.xml 中添加以下配置:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>然後編輯 hdfs-site.xml:
nano hdfs-site.xml添加以下配置:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>接下來,格式化 HDFS 文件系統:
hdfs namenode -format啟動 Hadoop 服務:
start-dfs.sh安裝 Spark
下載 Spark 的最新版本,並解壓到指定目錄:
wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz
sudo mv spark-3.1.2-bin-hadoop3.2 /usr/local/spark同樣,設置 Spark 的環境變量。在 ~/.bashrc 文件中添加以下內容:
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin使環境變量生效:
source ~/.bashrc接下來,啟動 Spark 伺服器:
start-master.sh
start-slave.sh spark://localhost:7077測試集群
在瀏覽器中訪問 http://localhost:8080,可以看到 Spark 的管理界面,這意味著 Spark 已經成功啟動。你可以通過提交簡單的 Spark 應用來測試集群的運行狀況。
總結
本文介紹了如何在 Ubuntu 18.04 上搭建單機的 Hadoop 和 Spark 集群環境。這些技術在大數據處理和分析中扮演著重要角色,掌握它們將有助於提升數據處理的效率和能力。如果你需要穩定的 VPS 來運行這些應用,Server.HK 提供多種選擇,適合不同需求的用戶。