SMS中用Unicode编码发送中文的办法-全面实用的工控技术信息-PLC技术网-可编程控制器技术门户

SMS中用Unicode编码发送中文的办法

日期：2008-4-2 15:36:13 来源：本站整理
点击：作者：未知

点击【大中小】放大字体.

SMS是由Esti 所制定的一个规范（GSM 03.40 和 GSM 03.38）。有两种方式来发送和接收SMS消息：文本模式或者PDU（protocol description unit）模式。文本模式只能发送普通的ASCII字符，而要发送图片、铃声、其它编码的字符（如中文）就必须采用PDU模式。

WWW_PLCJS※COM－PLC－技.术_网(可※编程控※制器技术门户)

WWW※PLCJS_COM－PL＃C－技.术_网(可编※程控※制器技术门户)

　　PDU模式中，可以采用三种编码方式来编码要发送的内容，分别是 7-bit编码、8-bit编码、16-bit编码。7-bit编码用于发送普通的ASCII字符；8-bit编码通常用于发送数据消息，比如图片和铃声等；而16-bit编码用于发送Unicode字符。在这三种编码方式下，可以发送的最大字符数分别是 160、 140、 70。

WWW_P※LCJS_COM－PLC－)技.术_网

P.L.C.技.术.网——可编程控制器技术门户

　　若要发送中文（或日文等），必须采用PDU模式的Unicode编码方式。

WWW_P※LCJS_CO※M－PLC－技－.术_网

WWW_PLC※JS_COM－PLC－技.术_网(可编程控※制器技术门户)

　　我最近参与了一个在linux下收发短信的项目。其中，需要实现中文的发送和接收。由于原来没有中文编码、Unicode编码的经验，所以查了一些资料，也在一些论坛上提了一些问题。现在把它整理出来，希望对以后再做类似项目的朋友有个帮助。我写的比较简单，关于PDU的规范，可以看这里：http://www.ascend-tech.com.cn/sustain/SMS_PDU-mode.pdf ，或者去wavecom的网站上找找看。

WWW_PLCJS※COM－PLC－技.术_网(可※编程控※制器技术门户)

plcjs.技.术_网

　　1、 GB2312 编码到Unicode 编码的转换

WWW_P※LCJS_CO※M－PLC－技－.术_网

　　在 Redhat 7.3系统上，默认是用GB2312编码保存中文字符的（对于中英文混合的文本也是如此）。所以首先需要把 GB2312 编码的字符串转换到 Unicode编码的字符串。GB2312编码是一种多字节编码方式，对于中文，用2个字节表示，对于英文，用1个字节表示，就是英文的ascii码。（注：我没有仔细看过GB2312编码的规范，以上理解是实际开发中得出来的，不能保证正确性）。Unicode编码是双字节编码方式，对所有字符，都采用2个字节编码。在linux平台上，GB2312编码到Unicode编码的转换，可以有三种实现方式（或者更多）：

WWW_PLCJS_COM－PLC－技.术_网

　　1）、用 mbstowcs () 函数。就是多字节编码到宽字符的转换。我试过它，可以正确的转换，但是这个函数可能不是很可靠。

W1WW_P4LCJS_COM－PLC－技.术_网

WW.W_PLCJS_COM－PLC－技.术_网

　　2）、用 GB2312 à Unicode 的转换表，手动查表转换。网上有这样的转换表，你需要对每一个GB2312字符，根据它是中文字符还是英文字符，分别转换。

WWW_P※LCJS_CO※M－PLC－技－.术_网

WWW.PLCJS.COM——可编程控制器技术门户

　　3）、用 iconv () 函数。这可能是linux上的标准的方法，不仅可以转换GB2312到Unicode，还可以在任意的两种编码之间转换（前提是linux系统要支持这些编码）。

WWcW_PLCJS_COM－PLC－技.术_网

　　首先要用 iconv_open()，打开一个转换句柄，指定两种转换前的编码和转换后的编码。

WWW_PLCJS_COM－PLC－技.术_网

　　然后用 icnov() 作转换。最后用 iconv_close()关闭句柄，释放资源。

WWW_PLC※JS_COM－PmLC－技.术_网

WWW_PLCJ－S_COM－PLC－技.术_网(可－编程控－制器技术－门户)

　　#include <iconv.h>

WWcW_PLCJS_COM－PLC－技.术_网

W1WW_P4LCJS_COM－PLC－技.术_网

　　#define BUFLEN 200

P.L.C.技.术.网——可编程控制器技术门户

　　char inbuf[BUFLEN];

WWW_P※LCJS_CO※M－PLC－技－.术_网

　　char outbuf[BUFLEN];

WWW_PLCJS_COM－PLC－技.术_网

　　char* pin = inbuf;

WWW_P※LCJS_COM－PLC－)技.术_网

　　char* pout = outbuf;

WWW_PLCJS※COM－PLC－技×术_网(可编程控※制器技术门户)

WWW_PLCJS※COM－PLC－技.术_网(可※编程控※制器技术门户)

　　…打开文件，读入GB2312数据到inbuf，数据长度为 len

WWW_PLC※JS_COM－PmLC－技.术_网

WWW_PLCJS_COM－PLC－技.术_网

　　int inleft = len;

WW.W_PLCJS_COM－PLC－技.术_网

　　int outleft = BUFLEN;

WWW_PLC※JS_COM－PmLC－技.术_网

WW.W_PLC※JS_C,OM－PL,C－技.术_网

　　iconv_t cd;

W1WW_P4LCJS_COM－PLC－技.术_网

　　if((cd = iconv_open(“gb2312”, “unicode”)) == (iconv_t)-1)

WWW_PLCJS@_COM%－PLC－技.术_网

　　return ?1;

WWW※PLCJS_COM－PL＃C－技.术_网(可编※程控※制器技术门户)

　　if(iconv(cd, &pin, &inleft, &pout, &outleft) == (size_t)-1)

WW.W_PLCJS_COM－PLC－技.术_网

　　return ?1;

WW.W_PLC※JS_C,OM－PL,C－技.术_网

　　iconv_close(cd);

W1WW_P4LCJS_COM－PLC－技.术_网

WWW_PLC※JS_COM－PLC－技.术_网(可编程控※制器技术门户)

　　使用 iconv () 时，需要注意参数的使用，inleft 是输入缓冲区数据数据长度，outleft是输出缓冲区大小。（需要保证输出缓冲区足够大）。

WWW_PLCJS@_COM%－PLC－技.术_网

　　转换以后，outleft 是outbuf中空闲空间的大小，所以 BUFLEN-outleft 才是真正的Unicode数据长度。

——可——编——程——控－制－器－技——术——门——户

　　注意：不论是GB2312编码，还是Unicode编码，在内存中都是一些字节序列，所以我们可以统一用类型为 char（或者unsigned char）的字符数组来保存。所以，BUFLEN-outleft 是字符（char）个数，而不是Unicode字符个数。

WWcW_PLCJS_COM－PLC－技.术_网

WWW_P※LCJS_CO※M－PLC－技－.术_网

　　2、 Unicode 编码到 16-bit 编码的转换

WWW.PLCJS.COM——可编程控制器技术门户

　　在得到 Unicode编码以后，还需要转换到 PDU 的16-bit 编码，才可以正确的发送。在这个转换过程中，需要注意两点：

WWW_PLCJS@_COM%－PLC－技.术_网

　　1）、Unicode 编码最开始的 0xFEFF标志要被去除，在0xFEFF之后的内容，才是真正的Unicode字符。（至于为什么有这个0xfeff标志，知道的朋友告诉我一声，呵呵）。

WWcW_PLCJS_COM－PLC－技.术_网

WW.W_PLCJS_COM－PLC－技.术_网

　　2）、Unicode 是双字节字符，由于我的系统是小端字节序（little-endian），也就是说，在存储的时候，是先低位，后高位，例如“中”的Unicode编码是 0x4E2D，存储的时候是 2D4E，在转换到 16-bit编码的时候，要注意这个顺序的不同。当然，如果你的系统是大端字节序（big-endian），那么就不用这样做了。

WWW※PLCJS_COM－PL＃C－技.术_网(可编※程控※制器技术门户)

P.L.C.技.术.网——可编程控制器技术门户

　　OK，关于如何将 0x4E2D 的Unicode编码转换到 “4E2D” 的16-bit编码，我就不多写了。

P_L_C_技_术_网——可——编——程——控－制－器－技——术——门——户

P.L.C.技.术.网——可编程控制器技术门户

　　3、正确计算16-bit 编码的消息体长度

plcjs.技.术_网

　　4、正确设置 First-Octet 、TP-MR、TP-PID、TP-DCS、TP-VP

WWW_P※LCJS_CO※M－PLC－技－.术_网

　　在PDU格式中，First-Octet 、TP-MR、TP-PID、TP-DCS、TP-VP的设置正确与否，对能否发送 Unicode 至关重要。根据协议规范以及我的调试结果，以上几个标志的正确设置分别为（都是16进制）：

WWW_PLC※JS_COM－PLC－技.术_网(可编程控※制器技术门户)

　　First-Octet ： 11

WWW_P※LCJS_CO※M－PLC－技－.术_网

　　TP-MR ： 00

WWW_PL※CJS_COM－PLC－技.术_网

　　TP-PID ： 00

WWW_PLC※JS_COM－PLC－技.术_网(可编程控※制器技术门户)

　　TP-DCS ： 08 （编码方式，16-bit）

WWW_PLC※JS_COM－PLC－技.术_网(可编程控※制器技术门户)

　　TP-VP ： A7

WWW_PLCJS※COM－PLC－技×术_网(可编程控※制器技术门户)

P.L.C.技.术.网——可编程控制器技术门户

上一篇: WinCC 6.0 - Historian - 强大的数据归档和信息交换系统
下一篇: 国外四大组态软件比较

评论内容

载入中...

P
L
C
技
术
网
|
可
编
程
控
制
器
技
术
门
户
|
十
万
P
L
C
工
程
师
的
共
同
选
择
！

·最新招聘信息

·最新求职信息

·推荐产品

·推荐厂商

·栏目热门排行

·站内热门排行