一個提高效率的工具，正則表示式，值得學習一下

一個提高效率的工具，正則表示式，值得學習一下

2021-06-23由架構師之道發表于科技

簡介

正則表示式

，又稱規則表示式，通常被用來檢索、替換那些符合某個模式（規則）的文字。

許多程式設計語言都支援利用正則表示式進行字串操作。例如，在Perl中就內建了一個功能強大的正則表示式引擎。

學會使用正則表示式可以極大提高我們文字處理效率，並且各大作業系統、程式語言、文字編輯器都已經支援正則表示式

線上正則測試工具：https：//regex101。com/r/PnzZ4k/1

下面的例子我會使用

Sublime Text

（對了，這個工具也非常好用）實現

元字元

一般普通字元表示的還是原來的意思，比如字元 e

舉例：

所謂元字元（Metacharacter）就是指那些在正則表示式中具有特殊意義的專用字元

特殊單字元

舉例1：

舉例2：

空白符

舉例：

s

能匹配上各種空白符號，也可以匹配上空格

量詞

舉例1：

舉例2：

範圍

舉例：

貪婪、非貪婪與獨佔

正則有三種模式：貪婪匹配、非貪婪匹配和獨佔模式

貪婪匹配：在正則中，表示次數的量詞預設是貪婪的，在貪婪模式下，會嘗試儘可能最大長度去匹配。

非貪婪匹配：找出長度最小且滿足要求的，量詞後面要加上英文的問號（

？

），正則就變成了

a*？

。

舉個例子1：

匹配結果是：“aaa”，“”

為什麼會匹配到空字串？

因為星號（*）代表0到多次。

舉個例子2：

獨佔模式：

不管是貪婪模式，還是非貪婪模式，都需要發生回溯才能完成相應的功能。

但是在一些場景下，我們不需要回溯，匹配不上返回失敗就好了，因此正則中還有另外一種模式，獨佔模式，它類似貪婪匹配，但匹配過程不會發生

回溯

，因此在一些場合下效能會更好。

什麼是回溯？

例如下面的正則：

regex = “xy{1，3}z”

text = “xyyz”

在匹配時，y{1，3}會盡可能長地去匹配，當匹配完 xyy 後，由於 y 要儘可能匹配最長，即三個，但字串中後面是個 z 就會導致匹配不上，這時候正則就會

向前回溯

，吐出當前字元 z，接著用正則中的 z 去匹配

分組與引用

舉個例子：

假設我們現在要去查詢15位或18位數字。

根據前面學習的知識，使用量詞可以表示出現次數，使用管道符號可以表示多個選擇，你應該很快就能寫出d15}d{18。

但經過測試，你會發現，這個正則並不能很好地完成任務，因為18位數字也會匹配上前15位

沒有匹配到18位的記錄

解決方式

可以用括號括起來表示一個整體

替換舉例

替換後：

匹配模式

常見的匹配模式有4種，分別是不區分大小寫模式、點號通配模式、多行模式和註釋模式

不區分大小寫模式

**使用模式修飾符：**放在整個正則前面時，表示匹配模式

點號通配模式

點號它可以匹配上任何符號，但不能匹配換行，如何匹配真正的“任意”符號

多行匹配模式

多行模式的作用在於，使 ^ 和 $ 能匹配上

每行

的開頭或結尾，我們可以使用模式修飾符號（？m）來指定這個模式

註釋模式

為正則添加註釋

斷言

斷言是指對匹配到的文字位置有要求。

透過一些例子來講解。

你應該知道 d{11} 能匹配上11位數字，但這11位數字可能是18位身份證號中的一部分。再比如，去查詢一個單詞，我們要查詢 tom，但其它的單詞，比如 tomorrow 中也包含了tom

單詞邊界

環視

舉例郵政編碼的判斷：6位數字，且左邊不是數字，右邊不是數字

原文連結：https：//mp。weixin。qq。com/s/bx1Bp4LRBtpJdtGXLJOOGA

作者：月伴飛魚

TAG：匹配模式正則貪婪舉例

相關推薦