前言
在项目开发中,有时会遇到一些看似简单却颇为棘手的细节问题。比如这次,产品需求是从浏览器地址栏准确获取用户的搜索关键词。听起来很基础对不对?但坑就埋在这里:我们项目通常使用UTF-8编码,而主流搜索引擎如百度和谷歌,在对搜索词进行编码时,默认采用的却是GBK或GB2312编码。编码格式一错位,解码自然就乱套了,显示一堆乱码。
为了解决这个跨编码的难题,当时在网上进行了一番搜寻,最终找到了一位技术前辈分享的巧妙方案——利用iframe来实现GBK/GB2312与UTF-8之间的编码转换。这个方法非常实用,为了避免自己日后遗忘,也希望能给遇到同样问题的朋友指个路,特此将核心思路和代码整理出来。文末也会附上参考的文章链接,以供深入查阅。
1、编码(支持GBK和GB2312)
其核心思路是,通过动态创建表单(form)并指定其accept-charset属性为目标编码(如GBK),然后提交到一个隐藏的iframe中。这样一来,iframe页面接收到的查询字符串,就已经被浏览器按照指定编码重新编码过了。
为了流程干净,我们可以把表单的提交目标设为当前页面本身,并把回调函数放在页面JS的最前面。这样,当这个页面作为iframe子窗口加载时,就能立刻执行父窗口预设的回调函数,然后自动关闭自己,整个过程对用户无感。
if (parent.__encode__iframe__callback__) { // 判断当前页面是否为子窗口
parent.__encode__iframe__callback__(location.search.split('=')[1]);
//直接关闭当前子窗口
window.close();
}
function GBKEncode(str, charset, callback) {
//创建form通过accept-charset做encode
var form = document.createElement('form');
form.method = 'get';
form.style.display = 'none';
form.acceptCharset = charset;
if (document.all) {
//如果是IE那么就调用document.charset方法
window.oldCharset = document.charset;
document.charset = charset;
}
var input = document.createElement('input');
input.type = 'hidden';
input.name = 'str';
input.value = str;
form.appendChild(input);
form.target = '__encode__iframe__'; // 指定提交的目标的iframe
document.body.appendChild(form);
//隐藏iframe截获提交的字符串
if (!window['__encode__iframe__']) {
var iframe;
iframe = document.createElement('iframe');
iframe.setAttribute('name', '__encode__iframe__');
iframe.style.display = 'none';
iframe.width = "0";
iframe.height = "0";
iframe.scrolling = "no";
iframe.allowtransparency = "true";
iframe.frameborder = "0";
iframe.src = 'about:blank'; // 设置为空白
document.body.appendChild(iframe);
}
window.__encode__iframe__callback__ = function (str) {
callback(str);
if (document.all) {
document.charset = window.oldCharset;
}
}
//设置回调编码页面的地址,这里需要用户修改
form.action = window.location.href;
form.submit();
setTimeout(function () {
form.parentNode.removeChild(form);
iframe.parentNode.removeChild(iframe);
}, 1000) // 0.5秒后移除节点
}
GBKEncode('需要编码的字符', 'gb2312', callback);// 测试
// promise封装
var encode = function encode(str) {
var charset = arguments.length > 1 && arguments[1] !== undefined ? arguments[1] : 'gbk';
return new Promise(function (resolve, reject) {
try {
_encode(str, charset, function (data) {
resolve(data);
});
} catch (e) {
resolve('字符编码错误.', e.toString());
}
});
};
二、解码(支持GBK、GB2312、Base64)
解码端的思路同样巧妙,它利用了data:协议和动态脚本执行。通过创建一个script标签,将其src指向一个指定了字符集的data:text/ja vascript URL,并在URL中直接执行回调函数,从而让浏览器自动完成解码工作。
function randomId() {
var text = "";
var possible = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789";
for (var i = 0; i < 5; i++) {
text += possible.charAt(Math.floor(Math.random() * possible.length));
}
return text;
}
function _decode(str, charset, callback) {
var script = document.createElement('script');
var id = randomId(); // 生成唯一ID,防止冲突
script.id = '_urlDecodeFn_' + id;
window['_urlDecodeFn_' + id] = callback;
var src = 'data:text/ja vascript;charset=' + charset + (',_urlDecodeFn_' + id + '("') + str + '");';
src += 'document.getElementById("_urlDecodeFn_' + id + '").parentNode.removeChild(document.getElementById("_urlDecodeFn_' + id + '"));';
script.src = src;
document.body.appendChild(script);
}
_decode('需要解码的字符', 'gb2312', callback) // 测试
// promise封装
var decode = function decode(str) {
var charset = arguments.length > 1 && arguments[1] !== undefined ? arguments[1] : 'gbk';
return new Promise(function (resolve, reject) {
try {
_decode(str, charset, function (data) {
resolve(data);
});
} catch (e) {
resolve('字符解码错误.', e.toString());
}
});
};
参考链接:https://zhuanlan.zhihu.com/p/35537480
