时间:2024-05-04
俞木发
类似从百度知道中复制网页内容时出现的多余字符,其实是网站设置的一些代码,增加的这些看似“多余”的字符,是制作者不希望读者直接引用该内容,因此这些复制的内容只适合作为个人的参考资料,不适合发表。我们在使用时需要注意这个问题。
这些代码不会在正常的网页中显示其内容,但复制粘贴后会显露出来。比如图1的例子,在网页中右击并选择“查看网页源代码”,在打开的页面中就可以看到在“简单”和“来说”之间有段代码,属性值是“hidden”(即隐藏),代码是“2112”(对应“bai”),这些代码所对应的内容会在粘贴为文本形式后自动显示(图2)。
既然多余字符是由于网页中的代码导致的,如果要解决这个问题,我们就需要根据不同的需求对代码进行处理。
方法1:使用浏览器组件屏蔽代码
现在很多浏览器都有“沉浸式阅读器”,在这个模式下会自动屏蔽上述代码。以在新核心的Edge中复制知乎页面的内容为例,当我们在页面上直接复制文本后,粘贴的文本没有换行格式,而且会在内容的最后自动加上版权字段。如果在打开的页面中点击地址栏后的“沉浸式阅读器”按钮,进入该模式后再进行复制,粘贴后就不会有这些字符了(图3)。
如果网页(如上述的百度知道页面)不支持“沉浸式阅读器”,我們还可以在网页中按下“Ctrl+A”组合键全选内容(或者使用鼠标选中需要复制的内容),接着在网页中右击并选择“在沉浸式阅读器中打开”,手动设置网页使用沉浸式阅读器浏览(图4)。
此外,我们还可以使用打印模式进行复制,依次点击Edge浏览器右上角的“…→打印”,接着在打开的打印窗口中进行文章的复制即可(在这个页面中也会自动屏蔽上述代码)(图5)。
方法2:使用插件自动去除代码
如果觉得上述的方法麻烦,那么还可以使用插件来去除。比如Edge的用户,可在扩展商店中搜索并安装“Tampermonkey”,启动该插件后点击“+”新建一个脚本,在脚本编辑页中按下“Ctrl+A”组合键全选默认的内容并删除。接着到“https://greasyfork.org/en/scripts/415814”下载脚本,下载后使用记事本打开并全选内容进行复制,接着粘贴到“Tampermonkey”的新建脚本窗口中,保存后即可使用(图6)。之后再打开百度知道页面,按下F5键刷新页面,再次复制内容,其中就不会包含那些字符了。
如果要去除类似知乎网站复制后自带的字符,则可以使用CopyAsPlainText插件(同样在Edge插件商店中搜索并安装即可)。完成插件的安装后,在需要复制文本时右击并选择“CopyAsPlainText”,这样粘贴后就是选择的文本了(图7)。
方法3:使用Word查找替换
很多朋友喜欢将资料粘贴到Word中保存和整理,利用Word的“查找和替换”功能也可以快速完成整理操作。比如当需要将百度知道中多余的字符删除时,可在网页中选中需要复制的资料,接着使用鼠标将选择的内容拖拽到Word窗口中。拖拽完成后,在Word窗口中可以看到,其中字体为微软雅黑、字号为1的内容就是“bai、du、zhi、dao”这类的多余字符(这里为了方便文章显示,手动将“dao”设置成了二号字体显示),因此要删除这些内容,我们只要将字号为1的内容替换为空即可(图8)。
具体方法是,点击“ 查找和替换”,点击“查找”下的“格式→字体”,在打开的窗口中,字体选择微软雅黑、字号选择1,替换为留空,点击“全部替换”即可(图9)。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!