一文讀懂自然語言處理技術定義與分類

自然語言處理技術是人工智慧的主要分支,並且在很多行業中得到了廣泛的使用,為了能夠更好地使用自然語言處理技術,需要明白自然語言處理技術定義與分類。

一文讀懂自然語言處理技術定義與分類

一文讀懂自然語言處理技術定義與分類

自然語言處理,英文Natural Language Processing,簡寫NLP。其中的“處理”指的是計算機處理,但計算機無法像人一樣處理文字,需要有自己的處理方式。因此自然語言處理,簡單來說即是計算機接受使用者自然語言形式的輸入,並在內部透過人類所定義的演算法進行加工、計算等系列操作,以模擬人類對自然語言的理解,並返回使用者所期望的結果。按照維基百科的說法,NLP發源於1950年。圖靈於該年提出“圖靈測試”,用以檢驗計算機是否真正擁有智慧。

根據NLP的目標,大致可以將其分為自然語言理解(NLU)和自然語言生成(NLG)兩種。

NLU側重於如何理解文字,包括文字分類、命名實體識別、指代消歧、句法分析、機器閱讀理解等。

NLG則側重於理解文字後如何生成自然文字,包括自動摘要、機器翻譯、問答系統、對話機器人等。

一文讀懂自然語言處理技術定義與分類

一文讀懂自然語言處理技術定義與分類

兩者間不存在有明顯的界限,如機器閱讀理解實際屬於問答系統的一個子領域。

大致來說,NLP可以分為以下幾個領域:

文字檢索:

多用於大規模資料的檢索,典型的應用有搜尋引擎。

機器翻譯:

跨語種翻譯,該領域目前已較為成熟。目前谷歌翻譯已用上機翻技術。

文字分類/情感分析:

本質上就是個分類問題。目前也較為成熟,難點在於多標籤分類(即一個文字對應多個標籤,把這些標籤全部找到)以及細粒度分類(二極情感分類精度很高,即好中差三類,而五級情感分類精度仍然較低,即好、較好、中、較差、差)

資訊抽取:

從不規則文字中抽取想要的資訊,包括命名實體識別、關係抽取、事件抽取等。應用極廣。

序列標註:

給文字中的每一個字/詞打上相應的標籤。是大多數NLP底層技術的核心,如分詞、詞性標註、關鍵詞抽取、命名實體識別、語義角色標註等等。曾是HMM、CRF的天下,近年來逐步穩定為BiLSTM-CRF體系。

一文讀懂自然語言處理技術定義與分類

一文讀懂自然語言處理技術定義與分類

文字摘要:

從給定的文字中,聚焦到最核心的部分,自動生成摘要。

問答系統:

接受使用者以自然語言表達的問題,並返回以自然語言表達的回答。常見形式為檢索式、抽取式和生成式三種。近年來互動式也逐漸受到關注。典型應用有智慧客服。

對話系統:

與問答系統有許多相通之處,區別在於問答系統旨在直接給出精準回答,回答是否口語化不在主要考慮範圍內;而對話系統旨在以口語化的自然語言對話的方式解決使用者問題。對話系統目前分閒聊式和任務導向型。前者主要應用有siri、小冰等;後者主要應用有車載聊天機器人。

知識圖譜:

從規則或不規則的文字中提取結構化的資訊,並以視覺化的形式將實體間以何種方式聯絡表現出來。圖譜本身不具有應用意義,建立在圖譜基礎上的知識檢索、知識推理、知識發現才是知識圖譜的研究方向。

文字聚類:

一個古老的領域,但現在仍未研究透徹。從大規模文字資料中自動發現規律。核心在於如何表示文字以及如何度量文字之間的距離。

基本技術:

分詞:

基本算是所有NLP任務中最底層的技術。不論解決什麼問題,分詞永遠是第一步。

詞性標註:

判斷文字中的詞的詞性(名詞、動詞、形容詞等等),一般作為額外特徵使用。

句法分析:

分為句法結構分析和依存句法分析兩種。

詞幹提取:

從單詞各種字首字尾變化、時態變化等變化中還原詞幹,常見於英文文字處理。

命名實體識別:

識別並抽取文字中的實體,一般採用BIO形式。

指代消歧:

文字中的代詞,如“他”“這個”等,還原成其所指實體。

關鍵詞抽取:

提取文字中的關鍵詞,用以表徵文字或下游應用。

詞向量與詞嵌入:

把單詞對映到低維空間中,並保持單詞間相互關係不變。是NLP深度學習技術的基礎。

文字生成:

給定特定的文字輸入,生成所需要的文字,主要應用於文字摘要、對話系統、機器翻譯、問答系統等領域。