文本清洗工具使用说明:去空格、删空行、去 HTML 标签一页搞定
为什么文本经常会“看着正常,用起来很乱”?
从 PDF、网页、聊天记录、表格里复制出来的文字,经常带着各种隐形问题:多余空格、连续空行、HTML 标签、弯引号、制表符、奇怪符号。肉眼看似乎没问题,一粘到系统里就开始出错。
这时候最省事的做法,不是手动一点点删,而是先做一次文本清洗。
这个工具可以清洗什么?
在 tools.cooconsbit.com/tools/text-cleaner 里,你可以按需勾选规则,比如:
- 去掉每行首尾空格
- 合并多余空格
- 合并多余空白行
- 删除全部空行
- 去除 HTML 标签
- 把弯引号改成普通引号
- 删除特殊字符
- 删除数字
- 删除标点
- 统一换行格式
- 把 Tab 替换成空格
- 转小写或大写
- 解码常见 HTML 实体
推荐怎么用?
处理从网页复制出来的内容
如果原文里有 <p>、<div>、<span> 这类标签,可以勾选:
Strip HTML tagsDecode HTML entitiesCollapse spaces
这样能比较快地得到纯文本。
处理 PDF 复制后的乱格式
PDF 文本最常见的问题是空格乱、空行多、Tab 混进来。通常可以先勾选:
Trim each lineCollapse spacesRemove extra blank linesReplace tabs with spaces
处理要导入系统的数据文本
如果目标系统对字符很敏感,可以进一步勾选:
Normalize line endingsRemove special characters
但这一步要先预览结果,避免把本来有用的符号也删掉。
使用时最重要的一点
不要一次把所有选项都勾上。
文本清洗不是越狠越好,而是越贴合目标越好。比如你只是想去空行,就没必要顺手删标点;你只是想去 HTML,就不一定要全部改成大写。
适合哪些人?
- 内容运营:清理采集文本
- 开发者:处理接口入参或测试数据
- 编辑:整理复制稿件
- 学生和办公用户:清理 PDF 或网页复制内容
常见问题 FAQ
Q:去 HTML 标签后会自动去掉实体字符吗?
A:如果原文里有 &、 这类内容,可以再勾选 HTML 实体解码。
Q:删除特殊字符会不会删掉中文?
A:建议先看输出结果再复制。涉及多语言文本时,清洗要更谨慎。
Q:误删了还能恢复吗?
A:页面有清空前保留原内容的恢复逻辑,适合临时回退。
小结
文本清洗工具最大的价值,是把常见的“文字脏数据处理”集中到一个页面里。你不需要写正则,也不必在编辑器里反复查找替换,按目标勾选规则就能快速得到更干净的结果。