JS实现HTML实体与字符的相互转换(二)

本系列的前一篇文章讲述了HTML实体编码(10进制、16进制)与字符的相互转换,本文将讲述HTML命名实体与字符的相互转换,如&lt;转义成<。你可能想问我为什么两篇文章间隔了约三个月,其实我本来没想续写,但是之前因为没写到命名实体,所以总感觉不完美,而且最近又想起了这个问题,于是准备写个解决方案,来弥补遗憾。好了,准备言归正传。PS:如有错误,请不吝指正。

1. 字符转为html命名实体

针对这个问题,可以分为两种情况:一种是只包含&、<、>、'的html实体,另一种是广义的实体,不只局限于上面的情况。对于后者,在我看来,除了列举出所有的实体符号,写switch case语句,还真的没有什么好办法。(如果您有什么好办法,请不吝赐教。)。针对前者的话,其实原生js就支持。例如会自动对文本中存在的HTML语法字符(小于号、大于号、引号及和号)进行编码的节点的innerText属性(FireFox中是textContent属性。实际上二者并不完全一样,innerText会忽略行内样式和脚本,而textContent则会原样返回行内样式和文本。)。其原理是设置innerText会生成当前节点的一个子文本节点,而为了确保只生成一个子文本节点,就需要对文本进行HTML编码。innerHTML虽然也可以做到,但它转变的只是标签的文本。下面的例子展示了它们的不同。

var div=document.createElement('div');
div.innerText='<p>hello & world</p>';
div.innerText //<p>hello & world</p>"
div.innerHTML //"&lt;p&gt;hello &amp; world&lt;/p&gt;"

div.innerHTML='<p>hello & < world</p>'
div.innerHTML //"<p>hello &amp; &lt;  world</p>"
div.innerText //"hello & < world"

从上面例子中可以看到二者的区别:innerText会将所有的文本转义(当然也不是全部文本,比如空格就不会),innerHTML则是对标签内的文本进行转义,标签如<p>就不会转义,但孤立的小于大于号还是会进行转换的。(上面代码中innerHTML之所以设置的内容和解析后的内容不一样,是因为返回的是浏览器根据原始字符串解析为DOM树后经过序列化之后的结果。)根据上面程序的结果,我们可以得到简单的转换函数:

//仅限于包含`&、<、>、'`的文本转换
function stringToEntity(str){
  var div=document.createElement('div');
  div.innerText=str;
  div.textContent=str;
  var res=div.innerHTML;
  console.log(str,'->',res);
  return res;
}

其实除了innerText,还可以通过创建文本节点的方式来完成转义,即使用document.createTextNode()。这种方法大部分的应用场景是对用户输入进行转义。例如业务需要,我们需要把用户的输入写到网页上,不做转义直接将用户输入写到网页上往往是行不通的,因为容易出现XSS漏洞。不过我们可以通过document.createTextNode()方法将用户输入作为文本节点,然后再插入到文档中。该方法会对出现的特殊标记进行转义。例如如下代码:

var str="<img src='a valid url' onload='alert(1)'></img>";
var text=document.createTextNode(str);
$("container").appendChild(text);

上述代码中如果不加转义直接使用$("container").innerHTML=str;就会使得图片加载完运行onload里面的代码,如果代码是恶意的,就会为我们网站的用户造成损害。而将小于号、大于号转义后就不会出现这个问题了。

2. html命名实体转换为字符

虽然不能直接写出字符转换为html实体的简单程序,但是写出字符转换为html实体的程序还是可以的。如以下代码:

function entityToString(entity){
  var div=document.createElement('div');
  div.innerHTML=entity;
  var res=div.innerText||div.textContent;
  console.log(entity,'->',res);
  return res;
}
//test
entityToString('&lt;hello&nbsp;world&gt;')
//output:  &lt;hello&nbsp;world&gt; -> <hello world>
//output:  "<hello world>"

将输入的实体符号赋值给div.innerHTML,通过div.innerTextdiv.textContent取出即可得到转义后的文本。

好了,以上就是我想和大家分享的内容。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章