杰拉斯的博客

正则表达式 匹配 中文/日文/韩文

杰拉斯 杰拉斯 | 时间:2018-04-06, Fri | 24,639 views
编程算法 

包含中日韩文但不包含其标点符号等的部分的正则表达式

/[\u2E80-\u2FDF\u3040-\u318F\u31A0-\u31BF\u31F0-\u31FF\u3400-\u4DB5\u4E00-\u9FFF\uA960-\uA97F\uAC00-\uD7FF]/

有中日韩文字区域细分(我们需要的打√)

2E80-2FDF 中文偏旁部首 √

2FF0-2FFF 表意描述字符,看起来像一堆虚线框

3000-303F 中文的符号

3040-309F 日语平假名 √

30A0-30FF 日语片假名 √

3100-312F Bopomofo注音,台湾使用的注音 √

3130-318F 韩语字母 √

3190-319F 汉字批注

31A0-31BF Bopomofo注音扩充 √

31C0-31EF 中日韩越统一表意文字的笔画

31F0-31FF 片假名语音扩充 √

3200-32FF 一些月份,批注,带圈的数字之类

3300-33FF 一些单位,元素符号之类

3400-4DB5 中日韩越统一表意文字 扩充A区 √

4DC0-4DFF 易经六线型字符

4E00-9FFF 中日韩越统一表意文字 主区 √

A000-A4FF 彝族文字区

A500-A95F Vai,斯拉夫字母之类,看不懂

A960-A97F 韩语字母 扩充A区 √

A980-ABFF 又是一些深奥的语言

AC00-D7FF 韩语音节 √

F900-FAFF 中日韩越统一表意文字 三国意思差不多的字,不过打出来和上面区相同的字显示一样,但是小一点,没什么用

再往下还有 中日韩越统一表意文字 扩充B、C、D、E区,不过看起来都不是常用字

附:Unicode字符表(Unicode Character Database

如需转载请注明出处:杰拉斯的博客

3 条评论 »

  1. 五岳独尊 五岳独尊

    看完后表示一脸懵。。。
    (好吧我是来打酱油的)

  2. RegHorace RegHorace

    其实像日文3040是空的,范围可以进一步缩小的

    1. RegHorace RegHorace

      以及韩语 3164 空格,这种其实也算是符号了