| 
 Unicode/UCS-4 
 | 
 bit数 
 | 
 UTF-8 
 | 
 byte数 
 | 
 备注 
 | 
| 
 0000 ~ 
007F 
 | 
 0~7 
 | 
 0XXX XXXX 
 | 
 1 
 | 
|
| 
 0080 ~ 
07FF 
 | 
 8~11 
 | 
 110X XXXX 
10XX XXXX 
 | 
 2 
 | 
|
| 
 0800 ~ 
FFFF 
 | 
 12~16 
 | 
 1110XXXX 
10XX XXXX 
10XX XXXX 
 | 
 3 
 | 
 基本定义范围:0~FFFF 
 | 
| 
 1 0000 ~ 
1F FFFF 
 | 
 17~21 
 | 
 1111 0XXX 
10XX XXXX 
10XX XXXX 
10XX XXXX 
 | 
 4 
 | 
 Unicode6.1定义范围:0~10 FFFF 
 | 
| 
 20 0000 ~ 
3FF FFFF 
 | 
 22~26 
 | 
 1111 10XX 
10XX XXXX 
10XX XXXX 
10XX XXXX 
10XX XXXX 
 | 
 5 
 | 
 说明:此非unicode编码范围,属于UCS-4 编码 
早期的规范UTF-8可以到达6字节序列,可以覆盖到31位元(通用字符集原来的极限)。尽管如此,2003年11月UTF-8 被 RFC 3629 重新规范,只能使用原来Unicode定义的区域, U+0000到U+10FFFF。根据规范,这些字节值将无法出现在合法 UTF-8序列中 
 | 
| 
 400 0000 ~ 
7FFF FFFF 
 | 
 27~31 
 | 
 1111 110X 
10XX XXXX 
10XX XXXX 
10XX XXXX 
10XX XXXX 
10XX XXXX 
 | 
 6 
 | 
原文:http://www.cnblogs.com/jiang2538406936/p/5202847.html