Python-CookBook：36、在文本中处理 HTML 和 XML 实体

　问题

我们想将&entity 或&#code 这样的 HTML 或 XML 实体替换为它们相对应的文本。或者，我们需要生成文本，但是要对特定的字符（比如 <,> 或&）做转义处理。

　解决方案

如果要生成文本，使用 html.escape()函数来完成替换这样的特殊字符相对来说是比较容易的。例如：

>>> s = 'Elements are written as "<tag>text</tag>".'
>>> import html
>>> print(s)
Elements are written as "<tag>text</tag>".
>>> print(html.escape(s))
Elements are written as "<tag>text</tag>".

>>> # Disable escaping of quotes
>>> print(html.escape(s, quote=False))
Elements are written as "<tag>text</tag>".
>>>

如果要生成 ASCII 文本，并且想针对非 ASCII 字符将它们对应的字符编码实体嵌入到文本中，可以在各种同 I/O 相关的函数中使用 errors='xmlcharrefreplace'参数来实现。示例如下：

>>> s = 'Spicy Jalapen~o'
>>> s.encode('ascii', errors='xmlcharrefreplace')
b'Spicy Jalape&#241;o'
>>>

要替换文本中的实体，那就需要不同的方法。如果实际上是在处理 HTML 或 XML，首先应该尝试使用一个合适的 HTML 或 XML 解析器。一般来说，这些工具在解析的过程中会自动处理相关值的替换，而我们完全无需为此操心。

如果由于某种原因在得到的文本中带有一些实体，而我们想手工将它们替换掉，通常可以利用各种 HTML 或 XML 解析器自带的功能函数和方法来完成。示例如下：

>>> s = 'Spicy "Jalapeño&quot.'
>>> from html.parser import HTMLParser
>>> p = HTMLParser()
>>> p.unescape(s)
'Spicy "Jalapen~o".'
>>>

>>> t = 'The prompt is >>>'
>>> from xml.sax.saxutils import unescape
>>> unescape(t)
'The prompt is >>>'
>>>

　讨论

在生成 HTML 或 XML 文档时，适当地对特殊字符做转义处理常常是个容易被忽视的细节。尤其是当自己用 print()或其他一些基本的字符串格式化函数来产生这类输出时更是如此。简单的解决方案是使用像 html.escape()这样的工具函数。

如果需要反过来处理文本（即，将 HTML 或 XML 实体转换成对应的字符），有许多像 xml.sax.saxutils.unescape()这样的工具函数能帮上忙。但是，我们需要仔细考察一个合适的解析器应该如何使用。例如，如果是处理 HTML 或 XML，像 html.parser 或 xml.etree.ElementTree 这样的解析模块应该已经解决了有关替换文本中实体的细节问题。

实践《自学是门手艺》有感

链滴社区真是个好地方，大家都是对各自领域有所钻研的人，并且热爱分享，作为潜水族，常常能发掘到别人掉落的宝藏。前面 AChuan 大佬分享的《自学是门手艺》，研读之后感悟颇深，对我这段时间的学习起到鼓励和斧正的效用。书中提到的几个概念我很受用。一个是「工作证明（PoW）」：怎么证明你学习过？你得用一些实际成果来展示学 ..

阅读书单

笔记作者出版社出版日期状态备注海外投资税务筹划王素荣机械工业出版社 2018-03-01 阅读中华为供应链管理实践袁建东人民邮电出版社有限公司 2023-08-01 已读完价值为纲：华为公司财经管理纲要黄卫伟中信出版集团 2017-09-01 已读完一本书看透股权节税李利威机械工业出版 ..

书籍推荐——《自学是门手艺》

我的出发点是把编程当作一个自学的例子，重点在于学会如何自学，并且通过实践真的习得一个起初你觉得不是刚需，学会之后发现干脆离不开的、不可或缺的技能。另外，这本书的目标里有更重要的另外一个：“让你有能力靠自己能够理解所有的官方文档” —— 书里不用讲官方标准库里的每个模块、每个函数究竟如何使用，因为那些在官方文档里定义得非 ..

《这样读书就够了》赵周

书籍信息：封面信息 [图片] 作者: 赵周出版社: 中信出版社副标题: 个人学习力升级指南出版年: 2017-12 页数: 366 定价: 48.00 ISBN: 9787508682471 书籍文件：这样读书就够了.pdf 阅读日期：2024.03.13 网页链接：https://book.douban.c ..

2023 年读书

健康关灯就睡觉：哈佛医学院高效睡眠指南类似的书都大差不差神奇的睡眠神奇的是，拯救我睡眠规律的是某天突然想早上去跑步……到现在每天早上七点起床跑步，晚上睡觉也很规律了…… 呼吸革命不要口呼吸呼吸法，勉勉强强和冥想有些关系小说一地鸡毛公务员勾心斗角的小故事石门夜话（尤凤伟）土匪、诱奸、“歪理邪说” 命 ..

如何成为不完美主义者：以小为荣

书籍的基本信息豆瓣页面：[链接] 作者: [美] 斯蒂芬·盖斯出版社: 后浪丨江西人民出版社书名叫《如何成为不完美主义者》，之前在我心里，完美主义者貌似一直是一个好的词，为什么要成为一个「不完美主义者」呢？阅读这本书的开头开始，我才发现自己受完美主义的毒害甚深，已经到了非摆脱此泥淖不可的地步！我才发觉“完美主义 ..

一单书：优质书单推荐

网站地址: 一单书 [图片] 款阅读书单分享网站，全网优质书单精选，给喜欢阅读的用户推荐有价值的书籍参考。网站书单部分，一共有两个模块：名人推荐社会各界知名人士推荐过的书籍，有政治家，有企业家，有学者…，读大师推荐的书，站在巨人的肩膀上阅读；主题书单以各种主题呈现的书单，一篇书单围绕一个主题，推荐的都是经过时 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

Python-CookBook：36、在文本中处理 HTML 和 XML 实体

问题

解决方案

讨论

相关帖子

实践《自学是门手艺》有感

阅读书单

书籍推荐——《自学是门手艺》

《这样读书就够了》赵周

2023 年读书

如何成为不完美主义者：以小为荣

一单书：优质书单推荐

欢迎来到这里！

　问题

　解决方案

　讨论