R语言解决MongoDB中文编码问题

Le 四 23 一月 2014 Par HAO | Catégorie : 文本挖掘

Tags : R / mongoDB /

R语言的中文支持不好，采用的编码方式常常优先考虑西方语言，http://developer.r-project.org/Encodings_and_R.html中有介绍

而MongoDB中储存的中文采用的是UTF-8格式编码，因此

p <- mongo.find.all(mongo,ns) temp<-unlist(p[1,2]);

读出的数据temp中，中文无法显示操作

将中文改变编码格式的函数是

Encoding(temp)<-"UTF-8";

此时的temp就是可以正常显示的了

搜索MongoDB中的字符串的时候，想find一个中文字符串，可以考虑先将中文从GB2312转到utf-8，搜索后，再转回来，转为utf-8的方法是：

queryString<-"求回复";

编码转换

data3=iconv(queryString, from='GB2312', to='utf-8')

搜索

buf <- mongo.bson.buffer.create() mongo.bson.buffer.append(buf, "content", queryString) query <- mongo.bson.from.buffer(buf)
mongo.find.one(mongo, ns, query)

R语言解决MongoDB中文编码问题

编码转换

搜索

Commentaires !

Hao's blog

Catégories

Blogroll

Social

Tags