unicode字符集和utf-8編碼

字符集和編碼

我們在實際開發中，經常需要處理文字資訊，組成文字的單元我們稱之為字元計算機只能處理0和1，不能直接處理這些字元，比如說對字元的讀取和儲存

為了解決這個問題，我們可以建立一個數字與字元的關聯關係，比如說使用97 -> a， 98 -> b， 99 -> c。。依據數字可以查詢對應字元，依據字元可以查詢對應數字

這樣我們需要處理字元的時候，就可以先查詢這個對映，找到字元對應的數字，然後把這個數字轉換成二進位制儲存即可，讀取的時候亦然

字符集：為每一個字元分配一個唯一的數字，這個數字可以稱之為碼點

編碼規則：把碼點轉換為位元組序列的規則

新的問題

計算機最早是美國發明的，所以一開始只需要處理英文的字元就可以了，也就是ascii字符集。後來計算機越來越普及，更多的國家開始使用計算機，這個時候就需要處理更多的字元，比如說中文字元，日韓字元。。。由於ascii字符集不支援，所以各個國家也產生了許多支援更多字元的字符集，比如說支援簡體中文的gb2312字符集，支援簡體中文、繁體中文和日韓字元的gbk字符集。。。

多個字符集的問題：

維護起來十分複雜，對於相同的字元，多個字符集可能重複維護

不同字符集對同一個字元分配的碼點可能不一樣，這樣就導致編碼和解碼必須使用相同的字符集，不然可能會出現亂碼

unicode字符集和utf-8編碼

unicode字符集

為了解決上述多個字符集的問題，我們需要一個維護所有字元，統一的字符集，我們稱之為unicode字符集。 uniocde14。0版本，一共收錄了144697個字元