自然語言處理在開放搜尋中的應用-開課吧廣場

眾所周知人工智慧技術現在廣泛應用於各個行業當中,並且為企業帶來了一定的好處。為了能夠更好地使用人工智慧技術,需要了解自然語言處理在開放搜尋中的應用。

自然語言處理在開放搜尋中的應用-開課吧廣場

自然語言處理在開放搜尋中的應用-開課吧廣場

自然語言智慧(NLP):

自然語言智慧研究實現人與計算機之間用語言進行有效通訊。它是融合語言學、心理學、計算機科學、數學、統計學於一體的科學。它涉及到自然語言和形式化語言的分析、抽取、理解、轉換和產生等多個課題。

人工智慧可以分為幾個階段?

計算智慧,指依靠計算強大的算力和海量資料的儲存能力,可以在部分領域超越人類的表現。代表例子就是谷歌的Alphago,憑藉谷歌TPU的強大算力以及結合類似蒙特卡洛樹搜尋、強化學習等演算法,能夠在圍棋的巨大搜索空間中計算出好的決策路徑,戰勝人類,這是計算智慧;

感知智慧,是指從無結構化資料中識別出重要的要素。比如給一個Query,分析出包含的人名、地名、機構名等;

認知智慧,是在感知之上,能夠理解其中要素的含義以及進行一些推理。比如“小五是誰的兒子,誰是小五的兒子”兩句話。詞和實體都差不多,但語義差別很多。這是認知智慧要解決的問題;

創造智慧,比如計算機指能夠理解語義的基礎上,創造出符合常識、語義、邏輯的句子。比如自動寫出行雲流水的小說、創造娓娓動聽的音樂 能夠無違和跟人自然聊天等

自然語言處理研究覆蓋了感知智慧,認知智慧,創造智慧這樣的學科,是實現完整人工智慧的必要技術。

自然語言處理在開放搜尋中的應用-開課吧廣場

自然語言處理在開放搜尋中的應用-開課吧廣場

自然語言智慧發展趨勢?

深度語言模型突破式發展, 引領重要自然語言技術取得進展;

公有云NLP技術服務從通用功能走向定製化服務;

自然語言技術逐步與行業/場景緊密結合, 產生更大價值;

阿里集團NLP平臺能力:

從下到上分為了NLP資料、NLP基礎能力、NLP應用技術和上層應用。

NLP資料是很多演算法的原料,積累了包括語言詞典、實體知識詞典、句法詞典、情感分析等詞典等。阿里NLP基礎技術包含了詞法分析、句法分析、文字分析、深度模型。在這之上,是NLP垂直的技術 包括問答 對話技術 反垃圾 地址解析等。這些技術的組合,就支援了很多應用。其中搜索是NLP能力非常密集的一個應用。

自然語言處理在開放搜尋中的應用-開課吧廣場

自然語言處理在開放搜尋中的應用-開課吧廣場

開放搜尋中NLP應用和典型技術:

基礎設施包含了阿里雲基礎產品,以及基於阿里生態搜尋場景打磨出的多個搜尋自研系統,比如HA3、RTP、Dii等;

管控基礎平臺,保證我們離線資料採集、管理、訓練等;

演算法模組,我們分為兩塊,一塊是查詢分析相關,包含多粒度分詞、實體識別、糾錯改寫等;另一個塊是相關性和排序相關,包括文字相關性、CTR、CVR預估、LTR 等;

開放搜尋的目標是要打造一站式、開箱即用的智慧搜尋服務,所以我們會把這些演算法能力,以行業模板、 場景化、周邊服務的形式開放給使用者。

開放搜尋NLP分析鏈路中的分詞挑戰:

各個領域不斷新增的未登入詞或者叫新詞,往往會大大降低分詞效果;

為新使用者定製分詞模型,從標註到訓練的整個過程,成本都比較高;

解決思路

結合統計特徵,比如互資訊、左右上等構建一個成詞模型,可以基於使用者資料快速構建一份領域詞典;

結合源領域分詞模型和目標領域的詞典,我們基於遠端監督技術可以快速構建一個目標領域分詞器;