本教程展示瞭如何在 Apache CentOS 7 上安裝 Hadoop。對於那些不熟悉的人來說,Apache Hadoop 是一個用 Java 編寫的開源軟件框架,用於分佈式存儲和分佈式處理,分佈在計算機集群中以處理非常大的數據集。每個在易發生故障的計算機集群上都具有高可用性,因為庫本身旨在檢測和處理應用層的故障,而不是依靠硬件來提供高可用性提供服務。
本文假設您至少具有 Linux 的基本知識,知道如何使用 shell,最重要的是,您在自己的 VPS 上託管您的網站。安裝非常簡單。 逐步了解如何在 Apache CentOS 7 上安裝 Hadoop。
先決條件
- 運行以下操作系統之一的服務器:CentOS 7。
- 我們建議使用全新的操作系統安裝來防止潛在問題。
- SSH 訪問服務器(如果在桌面上打開終端)。
- 一種
non-root sudo user
或訪問root user
我們建議您充當non-root sudo user
但是,如果您在以 root 身份操作時不小心,可能會損壞您的系統。
在 Apache CentOS 7 上安裝 Hadoop
步驟 1. 安裝 Java。
Hadoop 是基於 Java 的,因此請確保您的系統上安裝了 Java JDK。 如果您的系統上沒有安裝 Java,請先使用下面的鏈接安裝它。
- 在 CentOS 7 上安裝 Java JDK 8
[email protected] ~# java -version java version "1.8.0_45" Java(TM) SE Runtime Environment (build 1.8.0_45-b14) Java HotSpot(TM) 64-Bit Server VM (build 25.45-b02, mixed mode)
步驟 2. 安裝 Apache Hadoop。
建議創建普通用戶來配置 Apache Hadoop。使用以下命令創建用戶:
useradd hadoop passwd hadoop
創建用戶後,您還需要為您的帳戶設置基於密鑰的 ssh。為此,請運行以下命令:
su - hadoop ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys
在撰寫本文時下載 Apache Hadoop 的最新穩定版本 2.7.0。
wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.0/hadoop-2.7.0.tar.gz tar xzf hadoop-2.7.0.tar.gz mv hadoop-2.7.0 hadoop
步驟 3. 配置 Apache Hadoop。
設置 Hadoop 使用的環境變量。 編輯你的 ~/.bashrc 文件並將以下值添加到文件末尾:
HADOOP_HOME=/home/hadoop/hadoop HADOOP_INSTALL=$HADOOP_HOME HADOOP_MAPRED_HOME=$HADOOP_HOME HADOOP_COMMON_HOME=$HADOOP_HOME HADOOP_HDFS_HOME=$HADOOP_HOME YARN_HOME=$HADOOP_HOME HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
將環境變量應用於當前正在運行的會話。
source ~/.bashrc
立即編輯 $HADOOP_HOME/etc/hadoop/hadoop-env.sh
打開文件並設置 JAVA_HOME 環境變量。
JAVA_HOME=/usr/jdk1.8.0_45/
Hadoop 有許多配置文件,必鬚根據您的 Hadoop 基礎架構的要求進行配置。讓我們從配置一個基本的 Hadoop 單節點集群設置開始。
cd $HADOOP_HOME/etc/hadoop
編輯 core-site.xml
:
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>
編輯 hdfs-site.xml
:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </property> </configuration>
編輯 mapred-site.xml
:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
編輯 yarn-site.xml
:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
使用以下命令格式化名稱節點:不要忘記檢查存儲目錄。
hdfs namenode -format
使用以下命令啟動所有 Hadoop 服務:
cd $HADOOP_HOME/sbin/ start-dfs.sh start-yarn.sh
要檢查所有服務是否已成功啟動,請使用jps
‘ 命令:
jps
步驟 4. 訪問 Apache Hadoop。
默認情況下,Apache Hadoop 在 HTTP 端口 8088 和端口 50070 上可用。打開您喜歡的瀏覽器並轉到 https://your-domain.com:50070
還 https://server-ip:50070
如果您使用防火牆,請打開端口 8088 和 50070 以啟用對控制面板的訪問。
訪問端口 8088 以獲取有關集群和所有應用程序的信息。
恭喜! 您已成功安裝 Apache Hadoop。感謝您使用本教程在您的 Apache CentOS 7 系統上安裝 Hadoop。如需更多幫助或有用信息,我們建議您查看 Apache Hadoop官網.