什么是Unicode letter

起因:从一段代码说起

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks; namespace Test
{
class Program
{
static void Main(string[] args)
{
string temp = "1610MM001A衫片";
foreach (Char item in temp)
{
if (char.IsLetter(item))
{
Console.WriteLine(item);
}
}
Console.ReadKey(); }
}
}

这段代码的输出  

什么是Unicode letter

原本以为是“MMA”,为什么汉子“衫片”也是?

F12,看一下

什么是Unicode letter

那么什么是Unicode(参见http://www.cnblogs.com/John-Marnoon/p/5825906.html),

那么,Unicode Letter都包括什么呢?

首先,查一下微软的Char.IsLetter 方法 (String, Int32)

https://msdn.microsoft.com/zh-cn/library/zff1at55(v=vs.110).aspx

什么是Unicode letter

其次,看一下IsLetter的源代码

什么是Unicode letter

进一步看看CheckLetter方法

什么是Unicode letter

大写字母、小写字母、标题字母(首字母大写)、修饰语字母、其他字母。

因为各个国家的语言都不一样,例如有的语言是带声调的。所以仅从个人理解以及涉及到的应用范围,这个unicode letter应该是所有汉字+英文字母,数字和符号大多不包括在内。

但是也有例外。。。。

例如下面就会让你蒙圈了。。。 哈哈哈

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks; namespace Test
{
class Program
{
static void Main(string[] args)
{
bool a1 = char.IsLetter('!');
bool a2 = char.IsLetter('ǃ');
bool b1 = char.IsLetter('|');
bool b2 = char.IsLetter('ǀ'); Console.WriteLine(a1);
Console.WriteLine(a2);
Console.WriteLine(b1);
Console.WriteLine(b2);
Console.ReadKey();
}
}
}

什么是Unicode letter

如有错误,还请不吝指教。

附录

这五类具体包括什么,请查询 http://www.fileformat.info/info/unicode/category/index.htm

什么是Unicode letter

上一篇:C++11 正则表达式简单运用


下一篇:新书《Ext JS 4.2 实战》终于出炉了