R语言解决MongoDB中文编码问题

Le 四 23 一月 2014 Par HAO  | Catégorie : 文本挖掘

Tags : R / mongoDB /

 

R语言的中文支持不好,采用的编码方式常常优先考虑西方语言,http://developer.r-project.org/Encodings_and_R.html中有介绍

而MongoDB中储存的中文采用的是UTF-8格式编码,因此

p <- mongo.find.all(mongo,ns) temp<-unlist(p[1,2]);

读出的数据temp中,中文无法显示操作

将中文改变编码格式的函数是

Encoding(temp)<-"UTF-8";

此时的temp就是可以正常显示的了

搜索MongoDB中的字符串的时候,想find一个中文字符串,可以考虑先将中文从GB2312转到utf-8,搜索后,再转回来,转为utf-8的方法是:

queryString<-"求回复";

编码转换

data3=iconv(queryString, from='GB2312', to='utf-8')

搜索

buf <- mongo.bson.buffer.create() mongo.bson.buffer.append(buf, "content", queryString) query <- mongo.bson.from.buffer(buf)
mongo.find.one(mongo, ns, query)

 

Commentaires !