自然語言處理(NLP)領域核心名詞解釋與技術

資訊抽取(IE)

資訊抽取是將嵌入在文字中的非結構化資訊提取並轉換為結構化資料的過程,從自然語言構成的語料中提取出命名實體之間的關係,是一種基於命名實體識別更深層次的研究。資訊抽取的主要過程有三步:首先對非結構化的資料進行自動化處理,其次是針對性的抽取文字資訊,最後對抽取的資訊進行結構化表示。資訊抽取最基本的工作是命名實體識別,而核心在於對實體關係的抽取。

[6]

自動文摘

自動文摘是利用計算機按照某一規則自動地對文字資訊進行提取、集合成簡短摘要的一種資訊壓縮技術,旨在實現兩個目標:首先使語言的簡短,其次要保留重要資訊。

[6]

語音識別技術

語音識別技術就是讓機器透過識別和理解過程把語音訊號轉變為相應的文字或命令的技術,也就是讓機器聽懂人類的語音,其目標是將人類語音中的詞彙內容轉化為計算機可讀的資料。要做到這些,首先必須將連續的講話分解為詞、音素等單位,還需要建立一套理解語義的規則。語音識別技術從流程上講有前端降噪、語音切割分幀、特徵提取、狀態匹配幾個部分。而其框架可分成聲學模型、語言模型和解碼三個部分。

[7]

Transformer 模型

Transformer 模型在2017 年,由Google 團隊中首次提出。Transformer 是一種基於注意力機制來加速深度學習演算法的模型,模型由一組編碼器和一組解碼器組成,編碼器負責處理任意長度的輸入並生成其表達,解碼器負責把新表達轉換為目的詞。Transformer 模型利用注意力機制獲取所有其他單詞之間的關係,生成每個單詞的新表示。Transformer 的優點是注意力機制能夠在不考慮單詞位置的情況下,直接捕捉句子中所有單詞之間的關係。模型拋棄之前傳統的encoder-decoder 模型必須結合RNN 或者CNN(Convolutional Neural Networks, CNN)的固有模式,使用全Attention 的結構代替了LSTM,減少計算量和提高並行效率的同時不損害最終的實驗結果。但是此模型也存在缺陷。首先此模型計算量太大,其次還存在位置資訊利用不明顯的問題,無法捕獲長距離的資訊。

[8]

基於傳統機器學習的自然語言處理技術

自然語言處理可將處理任務進行分類,形成多個子任務,傳統的機械學習方法可利用SVM(支援向量機模型)、

Markov(馬爾科夫模型)、CRF(條件隨機場模型)等方法對自然語言中多個子任務進行處理,進一步提高處理結果的精度。但是,從實際應用效果上來看,仍存在著以下不足:(1)傳統機器學習訓練模型的效能過於依賴訓練集的質量,需要人工標註訓練集,降低了訓練效率。(2)傳統機器學習模型中的訓練集在不同領域應用會出現差異較大的應用效果,削弱了訓練的適用性,暴露出學習方法單一的弊端。若想讓訓練資料集適用於多個不同領域,則要耗費大量人力資源進行人工標註。(3)在處理更高階、更抽象的自然語言時,機器學習無法人工標註出來這些自然語言特徵,使得傳統機器學習只能學習預先制定的規則,而不能學規則之外的複雜語言特徵。

[9]

基於深度學習的自然語言處理技術

深度學習是機器學習的一大分支,在自然語言處理中需應用深度學習模型,如卷積神經網路、迴圈神經網路等,透過對生成的詞向量進行學習,以完成自然語言分類、理解的過程。與傳統的機器學習相比,基於深度學習的自然語言處理技術具備以下優勢:(1)深度學習能夠以詞或句子的向量化為前提,不斷學習語言特徵,掌握更高層次、更加抽象的語言特徵,滿足大量特徵工程的自然語言處理要求。(2)深度學習無需專家人工定義訓練集,可透過神經網路自動學習高層次特徵。