HDFS編程實(shí)踐

鏈接：https://pan.baidu.com/s/1JYAmSar89wg9xmmj7IAcRA
提取碼：07uu
--來(lái)自百度網(wǎng)盤超級(jí)會(huì)員V6的分享

1、利用Shell命令與HDFS進(jìn)行交互

Hadoop支持很多Shell命令，其中fs是HDFS最常用的命令，利用fs可以查看HDFS文件系統(tǒng)的目錄結(jié)構(gòu)、上傳和下載數(shù)據(jù)、創(chuàng)建文件等。

注意，實(shí)際上有三種shell命令方式。

hadoop fs適用于任何不同的文件系統(tǒng)，比如本地文件系統(tǒng)和HDFS文件系統(tǒng)

hadoop dfs只能適用于HDFS文件系統(tǒng)

hdfs dfs跟hadoop dfs的命令作用一樣，也只能適用于HDFS文件系統(tǒng)

我們可以在終端輸入如下命令，查看fs總共支持了哪些命令

hadoop@hadoop-master:~$ hadoop fs
Usage: hadoop fs [generic options]
	[-appendToFile <localsrc> ... <dst>]
	[-cat [-ignoreCrc] <src> ...]
	[-checksum <src> ...]
	[-chgrp [-R] GROUP PATH...]
	[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
	[-chown [-R] [OWNER][:[GROUP]] PATH...]
	[-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] <localsrc> ... <dst>]
	[-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
	[-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] <path> ...]
	[-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>]
	[-createSnapshot <snapshotDir> [<snapshotName>]]
	[-deleteSnapshot <snapshotDir> <snapshotName>]
	[-df [-h] [<path> ...]]
	[-du [-s] [-h] [-v] [-x] <path> ...]
	[-expunge]
	[-find <path> ... <expression> ...]
	[-get [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
	[-getfacl [-R] <path>]
	[-getfattr [-R] {-n name | -d} [-e en] <path>]
	[-getmerge [-nl] [-skip-empty-file] <src> <localdst>]
	[-head <file>]
	[-help [cmd ...]]
	[-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [-e] [<path> ...]]
	[-mkdir [-p] <path> ...]
	[-moveFromLocal <localsrc> ... <dst>]
	[-moveToLocal <src> <localdst>]
	[-mv <src> ... <dst>]
	[-put [-f] [-p] [-l] [-d] <localsrc> ... <dst>]
	[-renameSnapshot <snapshotDir> <oldName> <newName>]
	[-rm [-f] [-r|-R] [-skipTrash] [-safely] <src> ...]
	[-rmdir [--ignore-fail-on-non-empty] <dir> ...]
	[-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]
	[-setfattr {-n name [-v value] | -x name} <path>]
	[-setrep [-R] [-w] <rep> <path> ...]
	[-stat [format] <path> ...]
	[-tail [-f] [-s <sleep interval>] <file>]
	[-test -[defsz] <path>]
	[-text [-ignoreCrc] <src> ...]
	[-touch [-a] [-m] [-t TIMESTAMP ] [-c] <path> ...]
	[-touchz <path> ...]
	[-truncate [-w] <length> <path> ...]
	[-usage [cmd ...]]

在終端輸入如下命令，可以查看具體某個(gè)命令的作用

例如：我們查看put命令如何使用，可以輸入如下命令

hadoop@hadoop-master:~$ hadoop fs -help put
-put [-f] [-p] [-l] [-d] <localsrc> ... <dst> :
  Copy files from the local file system into fs. Copying fails if the file already
  exists, unless the -f flag is given.
  Flags:
                                                                       
  -p  Preserves access and modification times, ownership and the mode. 
  -f  Overwrites the destination if it already exists.                 
  -l  Allow DataNode to lazily persist the file to disk. Forces        
         replication factor of 1. This flag will result in reduced
         durability. Use with care.
                                                        
  -d  Skip creation of temporary file(<dst>._COPYING_).

1.1 目錄操作

需要注意的是，Hadoop系統(tǒng)安裝好以后，第一次使用HDFS時(shí)，需要首先在HDFS中創(chuàng)建用戶目錄。本教程全部采用hadoop用戶登錄Linux系統(tǒng)，因此，需要在HDFS中為hadoop用戶創(chuàng)建一個(gè)用戶目錄，命令如下：

hadoop@hadoop-master:~$ hdfs dfs -mkdir -p /user/hadoop

該命令中表示在HDFS中創(chuàng)建一個(gè)“/user/hadoop”目錄，“–mkdir”是創(chuàng)建目錄的操作，“-p”表示如果是多級(jí)目錄，則父目錄和子目錄一起創(chuàng)建，這里“/user/hadoop”就是一個(gè)多級(jí)目錄，因此必須使用參數(shù)“-p”，否則會(huì)出錯(cuò)。
“/user/hadoop”目錄就成為hadoop用戶對(duì)應(yīng)的用戶目錄，可以使用如下命令顯示HDFS中與當(dāng)前用戶hadoop對(duì)應(yīng)的用戶目錄下的內(nèi)容：

hadoop@hadoop-master:~$ hdfs dfs -ls .

該命令中，“-ls”表示列出HDFS某個(gè)目錄下的所有內(nèi)容，“.”表示HDFS中的當(dāng)前用戶目錄，也就是“/user/hadoop”目錄，因此，上面的命令和下面的命令是等價(jià)的：

hadoop@hadoop-master:~$ hdfs dfs -ls /user/hadoop

如果要列出HDFS上的所有目錄，可以使用如下命令：

hadoop@hadoop-master:~$ hdfs dfs -ls

下面，可以使用如下命令創(chuàng)建一個(gè)input目錄：

hadoop@hadoop-master:~$ hdfs dfs -mkdir input

在創(chuàng)建個(gè)input目錄時(shí)，采用了相對(duì)路徑形式，實(shí)際上，這個(gè)input目錄創(chuàng)建成功以后，它在HDFS中的完整路徑是“/user/hadoop/input”。如果要在HDFS的根目錄下創(chuàng)建一個(gè)名稱為input的目錄，則需要使用如下命令：

hadoop@hadoop-master:~$ hdfs dfs -mkdir /input

可以使用rm命令刪除一個(gè)目錄，比如，可以使用如下命令刪除剛才在HDFS中創(chuàng)建的“/input”目錄（不是“/user/hadoop/input”目錄）：

hadoop@hadoop-master:~$ hdfs dfs -rm -r /input

上面命令中，“-r”參數(shù)表示如果刪除“/input”目錄及其子目錄下的所有內(nèi)容，如果要?jiǎng)h除的一個(gè)目錄包含了子目錄，則必須使用“-r”參數(shù)，否則會(huì)執(zhí)行失敗。

1.2 文件操作

在實(shí)際應(yīng)用中，經(jīng)常需要從本地文件系統(tǒng)向HDFS中上傳文件，或者把HDFS中的文件下載到本地文件系統(tǒng)中。

首先，使用vim編輯器，在本地Linux文件系統(tǒng)的“/home/hadoop/”目錄下創(chuàng)建一個(gè)文件myLocalFile.txt，里面可以隨意輸入一些單詞，比如，輸入如下三行：

hadoop@hadoop-master:~$ vim myLocalFile.txt
hadoop@hadoop-master:~$ cat myLocalFile.txt
Hadoop
Spark
XMU DBLAB

然后，可以使用如下命令把本地文件系統(tǒng)的“/home/hadoop/myLocalFile.txt”上傳到HDFS中的當(dāng)前用戶目錄的input目錄下，也就是上傳到HDFS的“/user/hadoop/input/”目錄下：

hadoop@hadoop-master:~$ hdfs dfs -put /home/hadoop/myLocalFile.txt input

可以使用ls命令查看一下文件是否成功上傳到HDFS中，具體如下：

hadoop@hadoop-master:~$ hdfs dfs -ls input/

該命令執(zhí)行后會(huì)顯示類似如下的信息：

Found 1 items
-rw-r--r--   1 hadoop supergroup         23 2022-04-18 10:09 input/myLocalFile.txt

下面使用如下命令查看HDFS中的myLocalFile.txt這個(gè)文件的內(nèi)容：

hadoop@hadoop-master:~$ hdfs dfs -cat input/myLocalFile.txt
Hadoop
Spark
XMU DBLAB

下面把HDFS中的myLocalFile.txt文件下載到本地文件系統(tǒng)中的“/home/hadoop/下載/”這個(gè)目錄下，命令如下：

hadoop@hadoop-master:~$ hdfs dfs -get input/myLocalFile.txt /home/hadoop/

可以使用如下命令，到本地文件系統(tǒng)查看下載下來(lái)的文件myLocalFile.txt：

hadoop@hadoop-master:~$ ls /home/hadoop/
myLocalFile.txt

最后，了解一下如何把文件從HDFS中的一個(gè)目錄拷貝到HDFS中的另外一個(gè)目錄。比如，如果要把HDFS的“/user/hadoop/input/myLocalFile.txt”文件，拷貝到HDFS的另外一個(gè)目錄“/input”中（注意，這個(gè)input目錄位于HDFS根目錄下），可以使用如下命令：

hadoop@hadoop-master:~$ hdfs dfs -cp input/myLocalFile.txt /input

hadoop@hadoop-master:~$ hdfs dfs -ls /input
Found 1 items
-rw-r--r--   1 hadoop supergroup         23 2022-04-18 10:31 /input/myLocalFile.txt

2、利用Web界面管理HDFS

打開Linux自帶的Firefox瀏覽器，點(diǎn)擊此鏈接HDFS的Web界面，即可看到HDFS的web管理界面。WEB界面的訪問(wèn)地址是http://localhost:9870。
圖片.png-326.7kB

3、利用Java API與HDFS進(jìn)行交互

Hadoop不同的文件系統(tǒng)之間通過(guò)調(diào)用Java API進(jìn)行交互，上面介紹的Shell命令，本質(zhì)上就是Java API的應(yīng)用。下面提供了Hadoop官方的Hadoop API文檔，想要深入學(xué)習(xí)Hadoop，可以訪問(wèn)如下網(wǎng)站，查看各個(gè)API的功能。

Hadoop API文檔

利用Java API進(jìn)行交互，需要利用軟件Eclipse編寫Java程序。

3.1 在Ubuntu中安裝Eclipse

Eclipse是常用的程序開發(fā)工具，本教程很多程序代碼都是使用Eclipse開發(fā)調(diào)試，因此，需要在Linux系統(tǒng)中安裝Eclipse。可以到Eclipse官網(wǎng)（https://www.eclipse.org/downloads/）下載安裝包。

下面執(zhí)行如下命令對(duì)文件進(jìn)行解壓縮：

hadoop@hadoop-master:~$ sudo tar -xf eclipse-4.7.0-linux.gtk.x86_64.tar.gz -C /usr/local/

設(shè)置環(huán)境軟連接

hadoop@hadoop-master:~$ sudo mkdir -p /usr/local/eclipse/jre/bin/
hadoop@hadoop-master:~$ sudo ln -s /usr/lib/jvm/jdk1.8.0_162/bin/java /usr/local/eclipse/jre/bin/

然后，執(zhí)行如下命令啟動(dòng)Eclipse：

hadoop@hadoop-master:~$ cd /usr/local/eclipse/
hadoop@hadoop-master:/usr/local/eclipse$ ./eclipse

這時(shí)，就可以看到Eclipse的啟動(dòng)界面了。

3.2 使用Eclipse開發(fā)調(diào)試HDFS Java程序

Hadoop采用Java語(yǔ)言開發(fā)的，提供了Java API與HDFS進(jìn)行交互。上面介紹的Shell命令，在執(zhí)行時(shí)實(shí)際上會(huì)被系統(tǒng)轉(zhuǎn)換成Java API調(diào)用。Hadoop官方網(wǎng)站提供了完整的Hadoop API文檔，想要深入學(xué)習(xí)Hadoop編程，可以訪問(wèn)Hadoop官網(wǎng)查看各個(gè)API的功能和用法。本教程只介紹基礎(chǔ)的HDFS編程。

為了提高程序編寫和調(diào)試效率，本教程采用Eclipse工具編寫Java程序。

現(xiàn)在要執(zhí)行的任務(wù)是：假設(shè)在目錄“hdfs://localhost:9000/user/hadoop”下面有幾個(gè)文件，分別是file1.txt、file2.txt、file3.txt、file4.abc和file5.abc，這里需要從該目錄中過(guò)濾出所有后綴名不為“.abc”的文件，對(duì)過(guò)濾之后的文件進(jìn)行讀取，并將這些文件的內(nèi)容合并到文件“hdfs://localhost:9000/user/hadoop/merge.txt”中。

3.2.1 在Eclipse中創(chuàng)建項(xiàng)目

啟動(dòng)Eclipse。當(dāng)Eclipse啟動(dòng)以后，會(huì)彈出如下圖所示界面，提示設(shè)置工作空間（workspace）。

圖片.png-212.6kB

可以直接采用默認(rèn)的設(shè)置/home/hadoop/workspace，點(diǎn)擊launch按鈕?？梢钥闯?，由于當(dāng)前是采用hadoop用戶登錄了Linux系統(tǒng)，因此，默認(rèn)的工作空間目錄位于hadoop用戶目錄/home/hadoop下。

Eclipse啟動(dòng)以后，會(huì)呈現(xiàn)如下圖所示的界面。
圖片.png-344.5kB

選擇“File–>New–>Java Project”菜單，開始創(chuàng)建一個(gè)Java工程，會(huì)彈出如下圖所示界面。
圖片.png-379kB

在Project name后面輸入工程名稱HDFSExample，選中Use default location，讓這個(gè)Java工程的所有文件都保存到/home/hadoop/workspace/HDFSExample目錄下。在“JRE”這個(gè)選項(xiàng)卡中，可以選擇當(dāng)前的Linux系統(tǒng)中已經(jīng)安裝好的JDK，比如jdk1.8.0_162。然后，點(diǎn)擊界面底部的Next>按鈕，進(jìn)入下一步的設(shè)置。

3.2.2 為項(xiàng)目添加需要用到的JAR包

進(jìn)入下一步的設(shè)置以后，會(huì)彈出如下圖所示界面。
圖片.png-410.3kB

需要在這個(gè)界面中加載該Java工程所需要用到的JAR包，這些JAR包中包含了可以訪問(wèn)HDFS的Java API。這些JAR包都位于Linux系統(tǒng)的Hadoop安裝目錄下，對(duì)于本教程而言，就是在/usr/local/hadoop/share/hadoop目錄下。點(diǎn)擊界面中的“Libraries”選項(xiàng)卡，然后，點(diǎn)擊界面右側(cè)的Add External JARs…按鈕，會(huì)彈出如下圖所示界面。
圖片.png-508.5kB

在該界面中，上面的一排目錄按鈕（即usr、local、hadoop、share、hadoop和common），當(dāng)點(diǎn)擊某個(gè)目錄按鈕時(shí)，就會(huì)在下面列出該目錄的內(nèi)容。
為了編寫一個(gè)能夠與HDFS交互的Java應(yīng)用程序，一般需要向Java工程中添加以下JAR包：

/usr/local/hadoop/share/hadoop/common目錄下的所有JAR包，包括hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar，注意，不包括目錄jdiff、lib、sources和webapps；

/usr/local/hadoop/share/hadoop/common/lib目錄下的所有JAR包；

/usr/local/hadoop/share/hadoop/hdfs目錄下的所有JAR包，注意，不包括目錄jdiff、lib、sources和webapps；

/usr/local/hadoop/share/hadoop/hdfs/lib目錄下的所有JAR包。
比如，如果要把/usr/local/hadoop/share/hadoop/common目錄下的hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar添加到當(dāng)前的Java工程中，可以在界面中點(diǎn)擊目錄按鈕，進(jìn)入到common目錄，然后，界面會(huì)顯示出common目錄下的所有內(nèi)容（如下圖所示）。

圖片.png-512.4kB

請(qǐng)?jiān)诮缑嬷杏檬髽?biāo)點(diǎn)擊選中hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar（不要選中目錄jdiff、lib、sources和webapps），然后點(diǎn)擊界面右下角的“確定”按鈕，就可以把這兩個(gè)JAR包增加到當(dāng)前Java工程中，出現(xiàn)的界面如下圖所示。
圖片.png-545.3kB

從這個(gè)界面中可以看出，hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar已經(jīng)被添加到當(dāng)前Java工程中。然后，按照類似的操作方法，可以再次點(diǎn)擊Add External JARs…按鈕，把剩余的其他JAR包都添加進(jìn)來(lái)。需要注意的是，當(dāng)需要選中某個(gè)目錄下的所有JAR包時(shí)，可以使用Ctrl+A組合鍵進(jìn)行全選操作。全部添加完畢以后，就可以點(diǎn)擊界面右下角的Finish按鈕，完成Java工程HDFSExample的創(chuàng)建。
圖片.png-753.8kB

圖片.png-329.5kB

3.2.3 編寫Java應(yīng)用程序

下面編寫一個(gè)Java應(yīng)用程序。

請(qǐng)?jiān)贓clipse工作界面左側(cè)的Package Explorer面板中（如下圖所示），找到剛才創(chuàng)建好的工程名稱HDFSExample，然后在該工程名稱上點(diǎn)擊鼠標(biāo)右鍵，在彈出的菜單中選擇New–>Class菜單。
圖片.png-422.9kB

選擇New–>Class菜單以后會(huì)出現(xiàn)如下圖所示界面。
圖片.png-378.9kB

在該界面中，只需要在Name后面輸入新建的Java類文件的名稱，這里采用名稱MergeFile，其他都可以采用默認(rèn)設(shè)置，然后，點(diǎn)擊界面右下角Finish按鈕，出現(xiàn)如下圖所示界面。
圖片.png-503.3kB

可以看出，Eclipse自動(dòng)創(chuàng)建了一個(gè)名為“MergeFile.java”的源代碼文件，請(qǐng)?jiān)谠撐募休斎胍韵麓a：

import java.io.IOException;
import java.io.PrintStream;
import java.net.URI;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
 
/**
 * 過(guò)濾掉文件名滿足特定條件的文件 
 */
class MyPathFilter implements PathFilter {
     String reg = null; 
     MyPathFilter(String reg) {
          this.reg = reg;
     }
     public boolean accept(Path path) {
        if (!(path.toString().matches(reg)))
            return true;
        return false;
    }
}
/***
 * 利用FSDataOutputStream和FSDataInputStream合并HDFS中的文件
 */
public class MergeFile {
    Path inputPath = null; //待合并的文件所在的目錄的路徑
    Path outputPath = null; //輸出文件的路徑
    public MergeFile(String input, String output) {
        this.inputPath = new Path(input);
        this.outputPath = new Path(output);
    }
    public void doMerge() throws IOException {
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS","hdfs://localhost:9000");
          conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
        FileSystem fsSource = FileSystem.get(URI.create(inputPath.toString()), conf);
        FileSystem fsDst = FileSystem.get(URI.create(outputPath.toString()), conf);
                //下面過(guò)濾掉輸入目錄中后綴為.abc的文件
        FileStatus[] sourceStatus = fsSource.listStatus(inputPath,
                new MyPathFilter(".*\.abc")); 
        FSDataOutputStream fsdos = fsDst.create(outputPath);
        PrintStream ps = new PrintStream(System.out);
        //下面分別讀取過(guò)濾之后的每個(gè)文件的內(nèi)容，并輸出到同一個(gè)文件中
        for (FileStatus sta : sourceStatus) {
            //下面打印后綴不為.abc的文件的路徑、文件大小
            System.out.print("路徑：" + sta.getPath() + "    文件大?。? + sta.getLen()
                    + "   權(quán)限：" + sta.getPermission() + "   內(nèi)容：");
            FSDataInputStream fsdis = fsSource.open(sta.getPath());
            byte[] data = new byte[1024];
            int read = -1;
 
            while ((read = fsdis.read(data)) > 0) {
                ps.write(data, 0, read);
                fsdos.write(data, 0, read);
            }
            fsdis.close();          
        }
        ps.close();
        fsdos.close();
    }
    public static void main(String[] args) throws IOException {
        MergeFile merge = new MergeFile(
                "hdfs://localhost:9000/user/hadoop/",
                "hdfs://localhost:9000/user/hadoop/merge.txt");
        merge.doMerge();
    }
}

3.2.4 編譯運(yùn)行程序

在開始編譯運(yùn)行程序之前，請(qǐng)一定確保Hadoop已經(jīng)啟動(dòng)運(yùn)行，如果還沒(méi)有啟動(dòng)，需要打開一個(gè)Linux終端，輸入以下命令啟動(dòng)Hadoop：

cd /usr/local/hadoop
./sbin/start-dfs.sh

然后，要確保HDFS的“/user/hadoop”目錄下已經(jīng)存在file1.txt、file2.txt、file3.txt、file4.abc和file5.abc，每個(gè)文件里面有內(nèi)容。這里，假設(shè)文件內(nèi)容如下：

file1.txt的內(nèi)容是： this is file1.txt
file2.txt的內(nèi)容是： this is file2.txt
file3.txt的內(nèi)容是： this is file3.txt
file4.abc的內(nèi)容是： this is file4.abc
file5.abc的內(nèi)容是： this is file5.abc

現(xiàn)在就可以編譯運(yùn)行上面編寫的代碼。可以直接點(diǎn)擊Eclipse工作界面上部的運(yùn)行程序的快捷按鈕，當(dāng)把鼠標(biāo)移動(dòng)到該按鈕上時(shí)，在彈出的菜單中選擇Run As，繼續(xù)在彈出來(lái)的菜單中選擇Java Application，如下圖所示。
圖片.png-802.8kB

然后，會(huì)彈出如下圖所示界面。
圖片.png-134.6kB

在該界面中，點(diǎn)擊界面右下角的OK按鈕，開始運(yùn)行程序。程序運(yùn)行結(jié)束后，會(huì)在底部的Console面板中顯示運(yùn)行結(jié)果信息（如下圖所示）。同時(shí)，Console面板中還會(huì)顯示一些類似log4j:WARN…的警告信息，可以不用理會(huì)。
圖片.png-707.1kB

如果程序運(yùn)行成功，這時(shí)，可以到HDFS中查看生成的merge.txt文件，比如，可以在Linux終端中執(zhí)行如下命令：

hadoop@hadoop-master:~$ hdfs dfs -ls .
hadoop@hadoop-master:~$ hdfs dfs -cat merge.txt
this is file1.txt
this is file2.txt
this is file3.txt

3.2.5 應(yīng)用程序的部署

下面介紹如何把Java應(yīng)用程序生成JAR包，部署到Hadoop平臺(tái)上運(yùn)行。首先，在Hadoop安裝目錄下新建一個(gè)名稱為myapp的目錄，用來(lái)存放我們自己編寫的Hadoop應(yīng)用程序，可以在Linux的終端中執(zhí)行如下命令：

hadoop@hadoop-master:~$ cd /usr/local/hadoop
hadoop@hadoop-master:/usr/local/hadoop$ sudo mkdir myapp

然后，請(qǐng)?jiān)贓clipse工作界面左側(cè)的Package Explorer面板中，在工程名稱HDFSExample上點(diǎn)擊鼠標(biāo)右鍵，在彈出的菜單中選擇Export，如下圖所示。
圖片.png-676.8kB

然后，會(huì)彈出如下圖所示界面。
圖片.png-324kB

在該界面中，選擇Runnable JAR file，然后，點(diǎn)擊Next>按鈕，彈出如下圖所示界面。
圖片.png-508.6kB

在該界面中，Launch configuration用于設(shè)置生成的JAR包被部署啟動(dòng)時(shí)運(yùn)行的主類，需要在下拉列表中選擇剛才配置的類MergeFile-HDFSExample。在Export destination中需要設(shè)置JAR包要輸出保存到哪個(gè)目錄，比如，這里設(shè)置為/usr/local/hadoop/myapp/HDFSExample.jar。在Library handling下面選擇Extract required libraries into generated JAR。然后，點(diǎn)擊Finish按鈕，會(huì)出現(xiàn)如下圖所示界面。
圖片.png-257.1kB

可以忽略該界面的信息，直接點(diǎn)擊界面右下角的OK按鈕，啟動(dòng)打包過(guò)程。打包過(guò)程結(jié)束后，會(huì)出現(xiàn)一個(gè)警告信息界面，如下圖所示。
圖片.png-116.7kB

可以忽略該界面的信息，直接點(diǎn)擊界面右下角的OK按鈕。至此，已經(jīng)順利把HDFSExample工程打包生成了HDFSExample.jar?？梢缘絃inux系統(tǒng)中查看一下生成的HDFSExample.jar文件，可以在Linux的終端中執(zhí)行如下命令：

hadoop@hadoop-master:/usr/local/hadoop$ ll /usr/local/hadoop/myapp/
總用量 56332
drwxr-xr-x  2 root root     4096  4月 18 16:13 ./
drwxr-xr-x 12 root root     4096  4月 18 16:03 ../
-rw-r--r--  1 root root 57673000  4月 18 16:13 HDFSExample.jar

可以看到，/usr/local/hadoop/myapp目錄下已經(jīng)存在一個(gè)HDFSExample.jar文件。

由于之前已經(jīng)運(yùn)行過(guò)一次程序，已經(jīng)生成了merge.txt，因此，需要首先執(zhí)行如下命令刪除該文件：

hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -rm -r merge.txt

現(xiàn)在，就可以在Linux系統(tǒng)中，使用hadoop jar命令運(yùn)行程序，命令如下：

hadoop@hadoop-master:/usr/local/hadoop$ hadoop jar ./myapp/HDFSExample.jar

上面程序執(zhí)行結(jié)束以后，可以到HDFS中查看生成的merge.txt文件，比如，可以在Linux終端中執(zhí)行如下命令：

hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -ls .
Found 8 items
......
merge.txt
drwxrwxrwx   - hadoop supergroup          0 2022-04-14 19:38 
......

hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -cat merge.txt
this is file1.txt
this is file2.txt
this is file3.txt

4、附錄：自己練習(xí)用的代碼文件

下面給出幾個(gè)代碼文件，供讀者自己練習(xí)。

4.1 寫入文件

        import org.apache.hadoop.conf.Configuration;  
        import org.apache.hadoop.fs.FileSystem;
        import org.apache.hadoop.fs.FSDataOutputStream;
        import org.apache.hadoop.fs.Path;
 
        public class Chapter3 {    
                public static void main(String[] args) { 
                        try {
                                Configuration conf = new Configuration();  
                                conf.set("fs.defaultFS","hdfs://localhost:9000");
                                conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
                                FileSystem fs = FileSystem.get(conf);
                                byte[] buff = "Hello world".getBytes(); // 要寫入的內(nèi)容
                                String filename = "test"; //要寫入的文件名
                                FSDataOutputStream os = fs.create(new Path(filename));
                                os.write(buff,0,buff.length);
                                System.out.println("Create:"+ filename);
                                os.close();
                                fs.close();
                        } catch (Exception e) {  
                                e.printStackTrace();  
                        }  
                }  
        }

4.2 判斷文件是否存在

        import org.apache.hadoop.conf.Configuration;
        import org.apache.hadoop.fs.FileSystem;
        import org.apache.hadoop.fs.Path;
 
        public class Chapter3 {
                public static void main(String[] args) {
                            try {
                                    String filename = "test";
 
                                    Configuration conf = new Configuration();
                                    conf.set("fs.defaultFS","hdfs://localhost:9000");
                                    conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
                                    FileSystem fs = FileSystem.get(conf);
                                    if(fs.exists(new Path(filename))){
                                            System.out.println("文件存在");
                                    }else{
                                            System.out.println("文件不存在");
                                    }
                                    fs.close();
                        } catch (Exception e) {
                                e.printStackTrace();
                        }
                }
        }

4.3 讀取文件

        import java.io.BufferedReader;
        import java.io.InputStreamReader;
 
        import org.apache.hadoop.conf.Configuration;
        import org.apache.hadoop.fs.FileSystem;
        import org.apache.hadoop.fs.Path;
        import org.apache.hadoop.fs.FSDataInputStream;
 
        public class Chapter3 {
                public static void main(String[] args) {
                        try {
                                Configuration conf = new Configuration();
                                conf.set("fs.defaultFS","hdfs://localhost:9000");
                                conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
                                FileSystem fs = FileSystem.get(conf);
                                Path file = new Path("test"); 
                                FSDataInputStream getIt = fs.open(file);
                                BufferedReader d = new BufferedReader(new InputStreamReader(getIt));
                                String content = d.readLine(); //讀取文件一行
                                System.out.println(content);
                                d.close(); //關(guān)閉文件
                                fs.close(); //關(guān)閉hdfs
                        } catch (Exception e) {
                                e.printStackTrace();
                        }
                }
        }

本文參考：http://dblab.xmu.edu.cn/blog/2460-2/

本文摘自：https://www.cnblogs.com/

HDFS編程實(shí)踐2022-04-19 11:26:12