审稿校验空格

This commit is contained in:
2026-04-16 11:02:01 +08:00
parent 64b1d20b32
commit 1e2e8146cc

View File

@@ -1246,35 +1246,28 @@ str = str.replace(regex, function (match, content, offset, fullString) {
getCleanTextForCount(html) {
if (!html) return "";
// 创建临时容器解析 HTML
const tempDiv = document.createElement('div');
tempDiv.innerHTML = html;
// A. 特殊处理 wmath只拿它里面的公式文本扔掉里面生成的 mjx-container 等标签
// 1. 处理公式 (保留公式文本内容)
const wmaths = tempDiv.querySelectorAll('wmath');
wmaths.forEach(wm => {
// textContent 会拿到最原始的公式字符,忽略内部所有标签
const textNode = document.createTextNode(wm.textContent);
const textNode = document.createTextNode(" " + wm.textContent + " ");
wm.parentNode.replaceChild(textNode, wm);
});
// B. 获取现在的 HTML 内容
let result = tempDiv.innerHTML;
// 2. 移除所有引用标签 [1], [2] (防止用户靠狂刷引用来凑字数)
const refs = tempDiv.querySelectorAll('span.reference-link, a.ref'); // 根据你系统的 class 名调整
refs.forEach(r => r.remove());
// C. 去掉特定排版标签的“壳”(保留里面的文字)
// 包含 b, strong, br, em, i, sup, sub 等
result = result.replace(/<(p|div|b|strong|br|em|i|sup|sub)[^>]*>/gi, "");
result = result.replace(/<\/(p|div|b|strong|br|em|i|sup|sub)>/gi, "");
// 3. 获取纯文本 (textContent 是浏览器原生方法,能处理所有标签及其属性)
let text = tempDiv.textContent || tempDiv.innerText || "";
// E. 彻底“脱水”:去掉 HTML 实体、换行符、所有空格
result = result.replace(/&nbsp;/ig, "");
result = result.replace(/[\r\n\t]/g, "");
result = result.replace(/\s+/g, "");
return result;
// 4. 标准化空格:将 HTML 实体、换行、多个空格统一转为一个空格
return text.replace(/&nbsp;/ig, " ")
.replace(/[\r\n\t]+/g, " ")
.replace(/\s+/g, " ")
.trim();
},