一文讀懂自然語言處理技術定義與分類

自然語言處理技術是人工智慧的主要分支，並且在很多行業中得到了廣泛的使用，為了能夠更好地使用自然語言處理技術，需要明白自然語言處理技術定義與分類。

一文讀懂自然語言處理技術定義與分類

自然語言處理，英文Natural Language Processing，簡寫NLP。其中的“處理”指的是計算機處理，但計算機無法像人一樣處理文字，需要有自己的處理方式。因此自然語言處理，簡單來說即是計算機接受使用者自然語言形式的輸入，並在內部透過人類所定義的演算法進行加工、計算等系列操作，以模擬人類對自然語言的理解，並返回使用者所期望的結果。按照維基百科的說法，NLP發源於1950年。圖靈於該年提出“圖靈測試”，用以檢驗計算機是否真正擁有智慧。

根據NLP的目標，大致可以將其分為自然語言理解（NLU）和自然語言生成（NLG）兩種。

NLU側重於如何理解文字，包括文字分類、命名實體識別、指代消歧、句法分析、機器閱讀理解等。

NLG則側重於理解文字後如何生成自然文字，包括自動摘要、機器翻譯、問答系統、對話機器人等。

一文讀懂自然語言處理技術定義與分類

兩者間不存在有明顯的界限，如機器閱讀理解實際屬於問答系統的一個子領域。

大致來說，NLP可以分為以下幾個領域：

文字檢索：

多用於大規模資料的檢索，典型的應用有搜尋引擎。

機器翻譯：

跨語種翻譯，該領域目前已較為成熟。目前谷歌翻譯已用上機翻技術。

文字分類/情感分析：

本質上就是個分類問題。目前也較為成熟，難點在於多標籤分類（即一個文字對應多個標籤，把這些標籤全部找到）以及細粒度分類（二極情感分類精度很高，即好中差三類，而五級情感分類精度仍然較低，即好、較好、中、較差、差）

資訊抽取：

從不規則文字中抽取想要的資訊，包括命名實體識別、關係抽取、事件抽取等。應用極廣。

序列標註：

給文字中的每一個字/詞打上相應的標籤。是大多數NLP底層技術的核心，如分詞、詞性標註、關鍵詞抽取、命名實體識別、語義角色標註等等。曾是HMM、CRF的天下，近年來逐步穩定為BiLSTM-CRF體系。

一文讀懂自然語言處理技術定義與分類

文字摘要：

從給定的文字中，聚焦到最核心的部分，自動生成摘要。

問答系統：

接受使用者以自然語言表達的問題，並返回以自然語言表達的回答。常見形式為檢索式、抽取式和生成式三種。近年來互動式也逐漸受到關注。典型應用有智慧客服。

對話系統：

與問答系統有許多相通之處，區別在於問答系統旨在直接給出精準回答，回答是否口語化不在主要考慮範圍內；而對話系統旨在以口語化的自然語言對話的方式解決使用者問題。對話系統目前分閒聊式和任務導向型。前者主要應用有siri、小冰等；後者主要應用有車載聊天機器人。

知識圖譜：

從規則或不規則的文字中提取結構化的資訊，並以視覺化的形式將實體間以何種方式聯絡表現出來。圖譜本身不具有應用意義，建立在圖譜基礎上的知識檢索、知識推理、知識發現才是知識圖譜的研究方向。

文字聚類：

一個古老的領域，但現在仍未研究透徹。從大規模文字資料中自動發現規律。核心在於如何表示文字以及如何度量文字之間的距離。

基本技術：

分詞：

基本算是所有NLP任務中最底層的技術。不論解決什麼問題，分詞永遠是第一步。

詞性標註：

判斷文字中的詞的詞性（名詞、動詞、形容詞等等），一般作為額外特徵使用。

句法分析：

分為句法結構分析和依存句法分析兩種。

詞幹提取：

從單詞各種字首字尾變化、時態變化等變化中還原詞幹，常見於英文文字處理。

命名實體識別：

識別並抽取文字中的實體，一般採用BIO形式。

指代消歧：

文字中的代詞，如“他”“這個”等，還原成其所指實體。

關鍵詞抽取：

提取文字中的關鍵詞，用以表徵文字或下游應用。

詞向量與詞嵌入：

把單詞對映到低維空間中，並保持單詞間相互關係不變。是NLP深度學習技術的基礎。

文字生成：

給定特定的文字輸入，生成所需要的文字，主要應用於文字摘要、對話系統、機器翻譯、問答系統等領域。

別眨眼網

一文讀懂自然語言處理技術定義與分類

相關推薦