首页 相关文章 改进的脏话审查方案

改进的脏话审查方案

  导言

  我经常光顾cnbeta,那里的评论很精辟,有时我也会忍不住评上两句,但近来突然发现发布评论都必须经过审核才会显示了,这让我感到非常扫兴。由此我又想起了此前我曾讨论过的非法内容核查方法,我想这种人机结合的审核方式应该会比较适合现在的cnbeta吧。

  而现在我已经对此方案有了更深、更好的思路了,想在此分享出来,和大家探讨一下,我将在此逐步解析整个审查的流程:

  准备工作

  要审查脏话,首先需要创建对应的审查规则,每条规则需要提供以下基本信息:

  1.         表达式:用于审查内容是否匹配的正则表达式。使用正则的原因在于其灵活性,常规的纯文本检索虽然快,但遇到干扰符等情况时束手无策,而正则就可以轻松解决,例如表达式[煞傻妈狗屎贱骚瘙搔臊][sS]{0,4}?[逼笔比BB鼻X]可以匹配多种组合的脏话,并可兼容至多4个干扰字符。

  2.         首字符列表:用于遍历文章内容时提取疑似首字符使用。对于表达式[煞傻妈狗屎贱骚瘙搔臊][sS]{0,4}?[逼笔比BB鼻X]来说,它的首字符列表中应包含煞傻妈狗屎贱骚瘙搔臊。

  3.         尾字符列表:用于遍历文...[ 查看全文 ]

2016-02-19 标签:

改进的脏话审查方案的相关文章

手机页面
收藏网站 回到头部