来源:https://www.qqxiuzi.cn/zh/hanzi-unicode-bianma.php
参考:https://unicode-table.com/cn/
字符集 | 字数 | Unicode 编码 |
基本汉字 | 20902字 | 4E00-9FA5 |
基本汉字补充 | 74字 | 9FA6-9FEF |
扩展A | 6582字 | 3400-4DB5 |
扩展B | 42711字 | 20000-2A6D6 |
扩展C | 4149字 | 2A700-2B734 |
扩展D | 222字 | 2B740-2B81D |
扩展E | 5762字 | 2B820-2CEA1 |
扩展F | 7473字 | 2CEB0-2EBE0 |
康熙部首 | 214字 | 2F00-2FD5 |
部首扩展 | 115字 | 2E80-2EF3 |
兼容汉字 | 477字 | F900-FAD9 |
兼容扩展 | 542字 | 2F800-2FA1D |
PUA(GBK)部件 | 81字 | E815-E86F |
部件扩展 | 452字 | E400-E5E8 |
PUA增补 | 207字 | E600-E6CF |
汉字笔画 | 36字 | 31C0-31E3 |
汉字结构 | 12字 | 2FF0-2FFB |
汉语注音 | 43字 | 3105-312F |
注音扩展 | 22字 | 31A0-31BA |
〇 | 1字 | 3007 |
# 有拼音的汉字 if SUPPORT_UCS4: RE_HANS = re.compile( r'^(?:[' r'\u3007' # 〇 r'\u3400-\u4dbf' # CJK扩展A:[3400-4DBF] r'\u4e00-\u9fff' # CJK基本:[4E00-9FFF] r'\uf900-\ufaff' # CJK兼容:[F900-FAFF] r'\U00020000-\U0002A6DF' # CJK扩展B:[20000-2A6DF] r'\U0002A703-\U0002B73F' # CJK扩展C:[2A700-2B73F] r'\U0002B740-\U0002B81D' # CJK扩展D:[2B740-2B81D] r'\U0002F80A-\U0002FA1F' # CJK兼容扩展:[2F800-2FA1F] r'])+$' ) else: RE_HANS = re.compile( # pragma: no cover r'^(?:[' r'\u3007' # 〇 r'\u3400-\u4dbf' # CJK扩展A:[3400-4DBF] r'\u4e00-\u9fff' # CJK基本:[4E00-9FFF] r'\uf900-\ufaff' # CJK兼容:[F900-FAFF] r'])+$' )