NLP 現狀:塑造行業的 5 大趨勢

自然語言處理 (NLP) 多年來一直在興起,這是有充分理由的。它能夠識別 COVID-19 的新變種, 改善客戶服務並顯著改進搜尋功能,隨著技術的激增,用例正在擴充套件。雖然一些垂直行業採用 NLP 的速度比其他垂直行業更快,但新的全球研究表明,跨行業、地域、公司規模和專業水平的預算正在增長。

行業調查顯示,對於大多數技術人員而言,對 NLP 的投資已從至少 10% 躍升至近一倍。但即使預算增加,NLP 也並非沒有挑戰,進入的障礙仍然存在——尤其是對於那些早期的人工智慧(AI) 旅程。

為了克服這些障礙,瞭解推動 NLP 在企業中採用的趨勢非常重要。以下是技術人員應該牢記的五個。

1。 流行的用例仍然實用——而且還在不斷擴充套件

命名實體識別 (NER) 和文件分類被技術領導者評為 NLP 的主要用例。與不太成熟的公司相比,在 NLP 採用曲線上走得更遠的公司傾向於以更高的比率利用 NER。這意味著 NER 是 NLP 的基石,也是組織起步的好地方。隨著技術變得越來越複雜,我們可以預期問答和自然語言生成用例的增長,這些用例由大型語言預測模型和相關的開源替代方案提供支援。

2。 NLP 資料來源保持一致

資料庫、檔案和線上內容中的文字欄位是支援 NLP 的主要資料來源。雖然像 PDF 這樣的檔案被引用為主要來源之一,但也有資料質量從此類文件中提取文字所固有的問題。儘管深度學習 模型已經取得了進步,但在使用 NLP 庫之前掃描 PDF 並應用光學字元識別 (OCR)(將文件更像影象處理)來提取其文字仍然可以更具成本效益。看到這些進步令人鼓舞,因為資料來源很可能在未來幾年保持不變。

3。 準確性是重中之重——也是挑戰

類似於從 PDF 中提取文字,準確性給 NLP 從業者帶來了巨大挑戰。事實上,在評估 NLP 解決方案時,40% 的調查受訪者同意準確性是重中之重。在許多情況下,這不僅需要資料科學家,還需要領域專家來實現。原因如下:模型需要針對其特定目的進行調整和定製。這就是為什麼在醫療保健環境中對患者資料進行訓練的模型在零售中的表現不同的原因。更重要的是,由於 NLP 專案涉及管道,其中先前任務的結果在下游使用,因此準確性從一開始就非常重要。這是一個持續的過程,需要不斷的監控和調整。

4、雲NLP解決方案應用廣泛

大多數使用 NLP 的技術人員都在使用雲服務,無論是輔以其他解決方案還是專門的。事實上,83% 的受訪者表示他們至少使用過以下 NLP 雲服務之一:AWS Comprehend、Azure Text Analytics、Google Cloud Natural Language AI 或 IBM Watson NLU。儘管它們很受歡迎,但難度調整模型和成本是技術領導者提到的兩大挑戰。如前所述,為了將準確性放在首位,需要定期調整模型。

5。 NLP 圖書館越來越受歡迎

現在可用的工具和庫的廣泛生態系統使這是開始 NLP 的好時機。許多這些庫可以一起使用,大多數 NLP 開發人員在他們的專案中採用這種方法。不僅有許多具有活躍社群的開源庫可供選擇,而且新模型和改進正在快速整合。三分之一的受訪者表示使用 Spark NLP,使其成為最受歡迎的 NLP 庫,而超過一半的受訪者表示至少使用 Python 生態系統中流行的以下 NLP 庫中的一個——Hugging Face、spaCy、NLTK、Gensim 或 Flair。與雲服務一樣,使用者有多種選擇可供選擇,通常,合併 NLP 工具是最佳解決方案。

隨著 NLP 投資繼續呈上升趨勢,看看該技術在大流行後如何成熟將會很有趣。但是,儘管它有很多好處和不斷擴充套件的用例,但在實施該技術並確保它隨著時間的推移蓬勃發展時,重要的是要記住它的缺點。