123,123

自然語(yǔ)言處理

自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此，這一領(lǐng)域的研究將涉及自然語(yǔ)言，即人們?nèi)粘Ｊ褂玫恼Z(yǔ)言，所以它與語(yǔ)言學(xué)的研究有著密切的聯(lián)系，但又有重要的區(qū)別。自然語(yǔ)言處理并不是一般地研究自然語(yǔ)言，而在于研制能有效地實(shí)現(xiàn)自然語(yǔ)言通信的計(jì)算機(jī)系統(tǒng)，特別是其中的軟件系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分。

　　自然語(yǔ)言處理（NLP）是計(jì)算機(jī)科學(xué)，人工智能，語(yǔ)言學(xué)關(guān)注計(jì)算機(jī)和人類（自然）語(yǔ)言之間的相互作用的領(lǐng)域。語(yǔ)言是人類區(qū)別其他動(dòng)物的本質(zhì)特性。在所有生物中，只有人類才具有語(yǔ)言能力。人類的多種智能都與語(yǔ)言有著密切的關(guān)系。人類的邏輯思維以語(yǔ)言為形式，人類的絕大部分知識(shí)也是以語(yǔ)言文字的形式記載和流傳下來的。因而，它也是人工智能的一個(gè)重要，甚至核心部分。

　　用自然語(yǔ)言與計(jì)算機(jī)進(jìn)行通信，這是人們長(zhǎng)期以來所追求的。因?yàn)樗扔忻黠@的實(shí)際意義，同時(shí)也有重要的理論意義：人們可以用自己最習(xí)慣的語(yǔ)言來使用計(jì)算機(jī)，而無(wú)需再花大量的時(shí)間和精力去學(xué)習(xí)不很自然和習(xí)慣的各種計(jì)算機(jī)語(yǔ)言；人們也可通過它進(jìn)一步了解人類的語(yǔ)言能力和智能的機(jī)制。

　　實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信意味著要使計(jì)算機(jī)既能理解自然語(yǔ)言文本的意義，也能以自然語(yǔ)言文本來表達(dá)給定的意圖、思想等。前者稱為自然語(yǔ)言理解，后者稱為自然語(yǔ)言生成。因此，自然語(yǔ)言處理大體包括了自然語(yǔ)言理解和自然語(yǔ)言生成兩個(gè)部分。歷史上對(duì)自然語(yǔ)言理解研究得較多，而對(duì)自然語(yǔ)言生成研究得較少。但這種狀況已有所改變。

　　無(wú)論實(shí)現(xiàn)自然語(yǔ)言理解，還是自然語(yǔ)言生成，都遠(yuǎn)不如人們?cè)瓉硐胂蟮哪敲春?jiǎn)單，而是十分困難的。從現(xiàn)有的理論和技術(shù)現(xiàn)狀看，通用的、高質(zhì)量的自然語(yǔ)言處理系統(tǒng)，仍然是較長(zhǎng)期的努力目標(biāo)，但是針對(duì)一定應(yīng)用，具有相當(dāng)自然語(yǔ)言處理能力的實(shí)用系統(tǒng)已經(jīng)出現(xiàn)，有些已商品化，甚至開始產(chǎn)業(yè)化。典型的例子有：多語(yǔ)種數(shù)據(jù)庫(kù)和專家系統(tǒng)的自然語(yǔ)言接口、各種機(jī)器翻譯系統(tǒng)、全文信息檢索系統(tǒng)、自動(dòng)文摘系統(tǒng)等。

　　自然語(yǔ)言處理，即實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信，或?qū)崿F(xiàn)自然語(yǔ)言理解和自然語(yǔ)言生成是十分困難的。造成困難的根本原因是自然語(yǔ)言文本和對(duì)話的各個(gè)層次上廣泛存在的各種各樣的歧義性或多義性（ambiguity）。

　　一個(gè)中文文本從形式上看是由漢字（包括標(biāo)點(diǎn)符號(hào)等）組成的一個(gè)字符串。由字可組成詞，由詞可組成詞組，由詞組可組成句子，進(jìn)而由一些句子組成段、節(jié)、章、篇。無(wú)論在上述的各種層次：字（符）、詞、詞組、句子、段，……還是在下一層次向上一層次轉(zhuǎn)變中都存在著歧義和多義現(xiàn)象，即形式上一樣的一段字符串，在不同的場(chǎng)景或不同的語(yǔ)境下，可以理解成不同的詞串、詞組串等，并有不同的意義。一般情況下，它們中的大多數(shù)都是可以根據(jù)相應(yīng)的語(yǔ)境和場(chǎng)景的規(guī)定而得到解決的。也就是說，從總體上說，并不存在歧義。這也就是我們平時(shí)并不感到自然語(yǔ)言歧義，和能用自然語(yǔ)言進(jìn)行正確交流的原因。但是一方面，我們也看到，為了消解歧義，是需要極其大量的知識(shí)和進(jìn)行推理的。如何將這些知識(shí)較完整地加以收集和整理出來；又如何找到合適的形式，將它們存入計(jì)算機(jī)系統(tǒng)中去；以及如何有效地利用它們來消除歧義，都是工作量極大且十分困難的工作。這不是少數(shù)人短時(shí)期內(nèi)可以完成的，還有待長(zhǎng)期的、系統(tǒng)的工作。

　　以上說的是，一個(gè)中文文本或一個(gè)漢字（含標(biāo)點(diǎn)符號(hào)等）串可能有多個(gè)含義。它是自然語(yǔ)言理解中的主要困難和障礙。反過來，一個(gè)相同或相近的意義同樣可以用多個(gè)中文文本或多個(gè)漢字串來表示。

　　因此，自然語(yǔ)言的形式（字符串）與其意義之間是一種多對(duì)多的關(guān)系。其實(shí)這也正是自然語(yǔ)言的魅力所在。但從計(jì)算機(jī)處理的角度看，我們必須消除歧義，而且有人認(rèn)為它正是自然語(yǔ)言理解中的中心問題，即要把帶有潛在歧義的自然語(yǔ)言輸入轉(zhuǎn)換成某種無(wú)歧義的計(jì)算機(jī)內(nèi)部表示。

　　歧義現(xiàn)象的廣泛存在使得消除它們需要大量的知識(shí)和推理，這就給基于語(yǔ)言學(xué)的方法、基于知識(shí)的方法帶來了巨大的困難，因而以這些方法為主流的自然語(yǔ)言處理研究幾十年來一方面在理論和方法方面取得了很多成就，但在能處理大規(guī)模真實(shí)文本的系統(tǒng)研制方面，成績(jī)并不顯著。研制的一些系統(tǒng)大多數(shù)是小規(guī)模的、研究性的演示系統(tǒng)。

　　目前存在的問題有兩個(gè)方面：一方面，迄今為止的語(yǔ)法都限于分析一個(gè)孤立的句子，上下文關(guān)系和談話環(huán)境對(duì)本句的約束和影響還缺乏系統(tǒng)的研究，因此分析歧義、詞語(yǔ)省略、代詞所指、同一句話在不同場(chǎng)合或由不同的人說出來所具有的不同含義等問題，尚無(wú)明確規(guī)律可循，需要加強(qiáng)語(yǔ)用學(xué)的研究才能逐步解決。另一方面，人理解一個(gè)句子不是單憑語(yǔ)法，還運(yùn)用了大量的有關(guān)知識(shí)，包括生活知識(shí)和專門知識(shí)，這些知識(shí)無(wú)法全部貯存在計(jì)算機(jī)里。因此一個(gè)書面理解系統(tǒng)只能建立在有限的詞匯、句型和特定的主題范圍內(nèi)；計(jì)算機(jī)的貯存量和運(yùn)轉(zhuǎn)速度大大提高之后，才有可能適當(dāng)擴(kuò)大范圍.

　　以上存在的問題成為自然語(yǔ)言理解在機(jī)器翻譯應(yīng)用中的主要難題，這也就是當(dāng)今機(jī)器翻譯系統(tǒng)的譯文質(zhì)量離理想目標(biāo)仍相差甚遠(yuǎn)的原因之一；而譯文質(zhì)量是機(jī)譯系統(tǒng)成敗的關(guān)鍵。中國(guó)數(shù)學(xué)家、語(yǔ)言學(xué)家周海中教授曾在經(jīng)典論文《機(jī)器翻譯五十年》中指出：要提高機(jī)譯的質(zhì)量，首先要解決的是語(yǔ)言本身問題而不是程序設(shè)計(jì)問題；單靠若干程序來做機(jī)譯系統(tǒng)，肯定是無(wú)法提高機(jī)譯質(zhì)量的；另外在人類尚未明了大腦是如何進(jìn)行語(yǔ)言的模糊識(shí)別和邏輯判斷的情況下，機(jī)譯要想達(dá)到“信、達(dá)、雅”的程度是不可能的。

　　發(fā)展歷史

　　最早的自然語(yǔ)言理解方面的研究工作是機(jī)器翻譯。1949年，美國(guó)人威弗首先提出了機(jī)器翻譯設(shè)計(jì)方案。20世紀(jì)60年代，國(guó)外對(duì)機(jī)器翻譯曾有大規(guī)模的研究工作，耗費(fèi)了巨額費(fèi)用，但人們當(dāng)時(shí)顯然是低估了自然語(yǔ)言的復(fù)雜性，語(yǔ)言處理的理論和技術(shù)均不成熱，所以進(jìn)展不大。主要的做法是存儲(chǔ)兩種語(yǔ)言的單詞、短語(yǔ)對(duì)應(yīng)譯法的大辭典，翻譯時(shí)一一對(duì)應(yīng)，技術(shù)上只是調(diào)整語(yǔ)言的同條順序。但日常生活中語(yǔ)言的翻譯遠(yuǎn)不是如此簡(jiǎn)單，很多時(shí)候還要參考某句話前后的意思。

　　大約90年代開始，自然語(yǔ)言處理領(lǐng)域發(fā)生了巨大的變化。這種變化的兩個(gè)明顯的特征是：

　?。?）對(duì)系統(tǒng)輸入，要求研制的自然語(yǔ)言處理系統(tǒng)能處理大規(guī)模的真實(shí)文本，而不是如以前的研究性系統(tǒng)那樣，只能處理很少的詞條和典型句子。只有這樣，研制的系統(tǒng)才有真正的實(shí)用價(jià)值。

　?。?）對(duì)系統(tǒng)的輸出，鑒于真實(shí)地理解自然語(yǔ)言是十分困難的，對(duì)系統(tǒng)并不要求能對(duì)自然語(yǔ)言文本進(jìn)行深層的理解，但要能從中抽取有用的信息。例如，對(duì)自然語(yǔ)言文本進(jìn)行自動(dòng)地提取索引詞，過濾，檢索，自動(dòng)提取重要信息，進(jìn)行自動(dòng)摘要等等。

　　同時(shí)，由于強(qiáng)調(diào)了“大規(guī)模”，強(qiáng)調(diào)了“真實(shí)文本”，下面兩方面的基礎(chǔ)性工作也得到了重視和加強(qiáng)。

　?。?）大規(guī)模真實(shí)語(yǔ)料庫(kù)的研制。大規(guī)模的經(jīng)過不同深度加工的真實(shí)文本的語(yǔ)料庫(kù)，是研究自然語(yǔ)言統(tǒng)計(jì)性質(zhì)的基礎(chǔ)。沒有它們，統(tǒng)計(jì)方法只能是無(wú)源之水。

　　（2）大規(guī)模、信息豐富的詞典的編制工作。規(guī)模為幾萬(wàn)，十幾萬(wàn)，甚至幾十萬(wàn)詞，含有豐富的信息（如包含詞的搭配信息）的計(jì)算機(jī)可用詞典對(duì)自然語(yǔ)言處理的重要性是很明顯的。

　　相關(guān)內(nèi)容

　　自然語(yǔ)言處理（NLP）是計(jì)算機(jī)科學(xué)，人工智能，語(yǔ)言學(xué)關(guān)注計(jì)算機(jī)和人類（自然）語(yǔ)言之間的相互作用的領(lǐng)域。因此，自然語(yǔ)言處理是與人機(jī)交互的領(lǐng)域有關(guān)的。在自然語(yǔ)言處理面臨很多挑戰(zhàn)，包括自然語(yǔ)言理解，因此，自然語(yǔ)言處理涉及人機(jī)交互的面積。在NLP諸多挑戰(zhàn)涉及自然語(yǔ)言理解，即計(jì)算機(jī)源于人為或自然語(yǔ)言輸入的意思，和其他涉及到自然語(yǔ)言生成。

　　現(xiàn)代NLP算法是基于機(jī)器學(xué)習(xí)，特別是統(tǒng)計(jì)機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)范式是不同于一般之前的嘗試語(yǔ)言處理。語(yǔ)言處理任務(wù)的實(shí)現(xiàn)，通常涉及直接用手的大套規(guī)則編碼。

　　許多不同類的機(jī)器學(xué)習(xí)算法已應(yīng)用于自然語(yǔ)言處理任務(wù)。這些算法的輸入是一大組從輸入數(shù)據(jù)生成的“特征”。一些最早使用的算法，如決策樹，產(chǎn)生硬的if-then規(guī)則類似于手寫的規(guī)則，是再普通的系統(tǒng)體系。然而，越來越多的研究集中于統(tǒng)計(jì)模型，這使得基于附加實(shí)數(shù)值的權(quán)重，每個(gè)輸入要素柔軟，概率的決策。此類模型具有能夠表達(dá)許多不同的可能的答案，而不是只有一個(gè)相對(duì)的確定性，產(chǎn)生更可靠的結(jié)果時(shí)，這種模型被包括作為較大系統(tǒng)的一個(gè)組成部分的優(yōu)點(diǎn)。

　　自然語(yǔ)言處理研究逐漸從詞匯語(yǔ)義成分的語(yǔ)義轉(zhuǎn)移，進(jìn)一步的，敘事的理解。然而人類水平的自然語(yǔ)言處理，是一個(gè)人工智能完全問題。它是相當(dāng)于解決中央的人工智能問題使計(jì)算機(jī)和人一樣聰明，或強(qiáng)大的AI。自然語(yǔ)言處理的未來一般也因此密切結(jié)合人工智能發(fā)展。

內(nèi)容來自百科網(wǎng)