C++中汉字字符串的截取

2016-02-19 10:04 73 1 收藏

最近很多朋友喜欢上设计，但是大家却不知道如何去做,别担心有图老师给你解答，史上最全最棒的详细解说让你一看就懂。

【 tulaoshi.com - 编程语言】

1、
代码如下：

const char *str = "test测试test";
while(*str)
{
//这里只需要判断第一个字节大于0x80就行了，前提是输入的是合法的GBK字符串
//原因在于，如果第一个字节大于0x80，那么它必然和后面一个字节一起组成一个汉字
//所以就没有必要再去判断后面一个字节了
//再强调一下，前提条件是输入合法的GBK字符串
if(*str 0x80)
{
// 汉字，计数器++
str += 2;//是汉字自然就该直接+2了
}
else
{
str++；
}
}

2、

参看下面的字符串转换函数。
代码如下：

/**
* 用getBytes(encoding)：返回字符串的一个byte数组
* 当b[0]为 63时，应该是转码错误
* A、不乱码的汉字字符串：
* 1、encoding用GB2312时，每byte是负数；
* 2、encoding用ISO8859_1时，b[i]全是63。

* B、乱码的汉字字符串：
* 1、encoding用ISO8859_1时，每byte也是负数；
* 2、encoding用GB2312时，b[i]大部分是63。
* C、英文字符串
* 1、encoding用ISO8859_1和GB2312时，每byte都大于0；
* 总结：给定一个字符串，用getBytes("iso8859_1")
* 1、如果b[i]有63，不用转码； A-2
* 2、如果b[i]全大于0，那么为英文字符串，不用转码； B-1
* 3、如果b[i]有小于0的，那么已经乱码，要转码。 C-1
*/
private static String toGb2312(String str) {
if (str == null) return null;
String retStr = str;
byte b[];
try {
b = str.getBytes("ISO8859_1");

for (int i = 0; i b.length; i++) {
byte b1 = b[i];
if (b1 == 63)
break; //1
else if (b1 0)
continue;//2
else if (b1 0) { //不可能为0，0为字符串结束符
retStr = new String(b, "GB2312");
break;
}
}
} catch (UnsupportedEncodingException e) {
// e.printStackTrace();
}
return retStr;
}

3、

代码如下：

unsigned char *str = "test测试test";
int length;
int i;

length = strlen(str);
for (i = 0; i length - 1; i++)
{
if ( *str = 0x81 && *str = 0xFE
&& *(str + 1) = 0x40 && *(str + 1) = 0xFE)
{
// 汉字
}
}

unsignedchar*str="test测试test";//把字符串换成“汉A”试试，结果为2

有人说：“一个GBK汉字要占两个char空间(二字节），而且第一个字节里的值是小于0的。可以据此判断是否为汉字。”
1、为什么第一个字节的值小于0呢？
2、如果仅通过判断第一个字节如果小于0，则该字节和下一个字节就组成一个汉字，这种逻辑是否保险？
3、因为还看到有人说，GBK编码的汉字有高位和低位两位，第一个是低位吧？需要第一个字节在160-254之间，第二个字节在64-254之间，这样是不是比2中提到的方法要保险？
4、如果DB中的字符集是SIMPLIFIED CHINESE_CHINA.ZHS16GBK，这个是GBK字符集？GBK兼容GB2312

似乎有些字符集中有些汉字占三个字节

“通过判断第一个字节如果小于0，则该字节和下一个字节就组成一个汉字”

//GBK汉字内码范围
//81-A0 ,40-7E 80-FE
//AA-AF ,40-7E 80-A0
//B0-D6 ,40-7E 80-FE
//D7 ,40-7E 80-F9
//D8-F7 ,40-7E 80-FE
//F8-FE ,40-7E 80-A0
例如：//81-A0 ,40-7E 80-FE
表示字符的ascii码要在129-160，64-126，128-254这三个区间段内

4、
在工作中，遇到要截取字符串在屏幕上显示出来，因为字符串带有汉字，如果截取不好，会引起乱码，写了下面的函数

在uclinux下与VC6.0中测试可以通过。

view plaincopy to clipboardprint?

代码如下：

/*截取字符串

name :要截取的字符串

store:要存储的字符串

len:要截取的长度

void split_name( char * name , char * store , int len )
{

int i= 0 ;

char strTemp[L(NAMEL)]={0};

if ( strlen(name)
{

strcpy( store, name ); *name=0;

return ;

}

//从第１个字节开始判断

while( i len )

{

if ( name[i]7&1 && name[i+1]7&1 ) //if ( name[i] 0 && name[i+1] 0 )

i = i + 2 ;

else

i = i + 1 ;

}

i = i len ? i-3 :i-1;

strncpy( store , name , i+1 ); //截取前i+1位

*(store+i+1)=0;

strcpy( strTemp , name + i + 1 );

strcpy( name , strTemp );

}

来源:https://www.tulaoshi.com/n/20160219/1593230.html

上一篇： javascript判断单选框或复选框是否选中方法集锦
下一篇： java开发之闹钟的实现代码

看过《C++中汉字字符串的截取》的人还看了以下文章更多>>

jquery 截取字符串的实现

标签： Web开发

!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd" html xmlns="http://www.w3.org/1999/xhtml" head meta http-equiv="Content-Type" content="text/html; charset=gb2312" / titlecookie/title script src="http://jqueryjs.googlecode.com/files/jquery-1.3.2.min...

PHP截取中文字符串的问题

标签： Web开发

以下代码试用于GB2312编码，截取中文字符串是PHP中一个头疼的问题，解决方法是根据值是否大于等于128来判断是否是双字节字符，以避免出现乱码的情况。但中英文混合、特殊符号等问题总是存在，现在写一个比较全面的，仅供参考：程序说明： 1. len 参数以中文字符为标准，1len等于2个英文字符，为了形式上好看些 2. 如果将m...

JavaScript中的字符串操作

标签： Web开发

一、概述字符串在javascript中几乎无处不在，在你处理用户的输入数据的时候，在读取或设置DOM对象的属性时，在操作cookie时，当然还有更多...。JavaScript的核心部分提供了一组属性和方法用于通用的字符串操作，如分割字符串，改变字符串的大小写，操作子字符串等。当前的大部分浏览器也能从强大的...

截取固定长度字符串显示在页面

标签： ASP

以下是代码，呵呵，比较简单，主要是区分汉字和字母，不然一个全是字母，一个全是汉字的两条记录排列在一起时会比较难看，全字符的长度只有全汉字的一半就显示...号了 public static string stringformat(string str,int n) &...

JavaScript中split字符串函数

标签： Web开发

JavaScript中split函数方法是将一个字符串分割为子字符串，然后将结果作为字符串数组返回。使用方法：其中stringObj是必选项。要被分解的 String 对象或文字。该对象不会被 split 方法修改。 separator是可选项。字符串或正则表达式对象，它标识了分隔字符串时使用的是一个还是多个字符。如果忽略该选项，返回包含整...

查看更多精彩>>