本文介绍如何使用 python 3 高效提取大型文本文件中**仅含非拉丁字母(如阿拉伯文、中文、西里尔文等)的字符片段**,跳过所有 ascii/拉丁字符,支持逐字符级过滤而非整行丢弃,并提供健壮、可扩展的正则方案。
在处理多语言混合文本(如含阿拉伯语、波斯语、乌尔都语、希伯来语、中文、俄文等)时,常见需求是精确剥离外语内容,同时彻底排除英文、数字、标点及所有拉丁字母。原始代码中 line.isascii() 的误用(该方法返回布尔值,不可用于 try/except 捕获)、整行写入逻辑缺陷,以及未处理 UTF-8 编码和逐字符提取等问题,导致运行失败与结果失真。
正确解法需满足三点核心要求:
✅ 按 Unicode 脚本属性精准识别(非简单 ASCII 判断);
✅ 支持逐字符/逐段提取(而非整行保留或丢弃);
✅ 兼容大文件流式处理,避免内存爆炸。
Python 标准库 re 不支持 Unicode 脚本属性(如 Latin, Arabic, Han),必须改用功能更全的第三方模块 regex(re 的超集,API 兼容):
pip install -U regex
以下代码实现逐行扫描 → 提取每行中所有连续的非拉丁字符序列 → 合并为纯净外语文本:
import regex as re
# 编译模式:匹配一个或多个「不属于 Latin 脚本」的字符(含 Arabic, Han, Cyrillic 等)
# \P{Latin} = "not in Latin script";+ 表示连续出现 ≥1 次
pattern = re.compile(r'\P{Latin}+')
with open("test_doc.txt", "r", encoding="utf-8") as f, \
open("test_doc_dest.txt", "w", encoding="utf-8") as out:
for line in f:
# 去除行尾换行符,避免写入空行
stripped_line = line.rstrip('\n\r')
# 查找该行中所有非拉丁字符连续段
foreign_segments = pattern.findall(stripped_line)
# 写入每个段落,用单个空格分隔(可按需调整分隔符)
if foreign_segments:
out.write(' '.join(foreign_segments) + '\n')? 关键说明: \P{Latin} 是 Unicode 属性语法,精准覆盖所有非拉丁文字(包括阿拉伯文 \u0600–\u06FF、中文 \u4E00–\u9FFF、西里尔文等),同时保留空格、破折号、括号等通用标点(因其属 Common 或 Inherited 脚本); findall() 确保只提取外语片段,自动跳过夹杂的英文单词、数字、ASCII 标点; 使用 with 语句确保文件安全关闭,且支持超大文件流式读取(不加载全文进内存)。
换为 r'\p{Arabic}+'(注意是 \p{...} 而非 \P{...});同理,\p{Han}+ 提取中文,\p{Cyrillic}+ 提取俄文。若文件极大(>1GB),可改用生成器逐块处理,避免 findall 在单行长文本中产生过多中间列表:
def extract_foreign_lines(input_path, output_path, chunk_size=8192):
pattern = re.compile(r'\P{Latin}+')
with open(input_path, "r", encoding="utf-8") as f, \
open(output_path, "w", encoding="utf-8") as out:
for line in f:
segments = pattern.findall(line.rstrip('\n\r'))
if segments:
out.write(' '.join(segments) + '\n')
extract_foreign_lines("test_doc.txt", "test_doc_dest.txt")此方案兼顾准确性、可读性与工程鲁棒性,适用于学术文本清洗、本地化预处理、多语言 NLP 数据准备等真实场景。
# python
# 编码
# 多语言
# 本地化
# 标准库
相关文章:
网站制作需要会哪些技术,建立一个网站要花费多少?
免费的流程图制作网站有哪些,2025年教师初级职称申报网上流程?
天津个人网站制作公司,天津网约车驾驶员从业资格证官网?
网站制作说明怎么写,简述网页设计的流程并说明原因?
深圳网站制作设计招聘,关于服装设计的流行趋势,哪里的资料比较全面?
制作网站的网址是什么,请问后缀为.com和.com.cn还有.cn的这三种网站是分别是什么类型的网站?
企业微网站怎么做,公司网站和公众号有什么区别?
如何基于云服务器快速搭建网站及云盘系统?
如何获取PHP WAP自助建站系统源码?
北京专业网站制作设计师招聘,北京白云观官方网站?
三星网站视频制作教程下载,三星w23网页如何全屏?
网站好制作吗知乎,网站开发好学吗?有什么技巧?
建站之星展会模板:智能建站与自助搭建高效解决方案
为什么Go需要go mod文件_Go go mod文件作用说明
公司网站制作费用多少,为公司建立一个网站需要哪些费用?
合肥制作网站的公司有哪些,合肥聚美网络科技有限公司介绍?
如何零成本快速生成个人自助网站?
家庭服务器如何搭建个人网站?
网站制作培训多少钱一个月,网站优化seo培训课程有哪些?
手机网站制作平台,手机靓号代理商怎么制作属于自己的手机靓号网站?
建站主机功能解析:服务器选择与快速搭建指南
阿里云网站搭建费用解析:服务器价格与建站成本优化指南
javascript中对象的定义、使用以及对象和原型链操作小结
建站主机如何选?高性价比方案全解析
如何做静态网页,sublimetext3.0制作静态网页?
高性能网站服务器配置指南:安全稳定与高效建站核心方案
电商平台网站制作流程,电商网站如何制作?
内部网站制作流程,如何建立公司内部网站?
佛山网站制作系统,佛山企业变更地址网上办理步骤?
如何通过VPS建站无需域名直接访问?
沈阳制作网站公司排名,沈阳装饰协会官方网站?
如何通过服务器快速搭建网站?完整步骤解析
专业型网站制作公司有哪些,我设计专业的,谁给推荐几个设计师兼职类的网站?
如何在Golang中使用replace替换模块_指定本地或远程路径
详解ASP.NET 生成二维码实例(采用ThoughtWorks.QRCode和QrCode.Net两种方式)
如何通过山东自助建站平台快速注册域名?
岳西云建站教程与模板下载_一站式快速建站系统操作指南
公司门户网站制作公司有哪些,怎样使用wordpress制作一个企业网站?
深圳网站制作平台,深圳市做网站好的公司有哪些?
,巨量百应是干嘛的?
Python多线程使用规范_线程安全解析【教程】
如何在IIS中新建站点并配置端口与物理路径?
定制建站平台哪家好?企业官网搭建与快速建站方案推荐
已有域名建站全流程解析:网站搭建步骤与建站工具选择
ppt在线制作免费网站推荐,有什么下载免费的ppt模板网站?
如何使用Golang安装API文档生成工具_快速生成接口文档
seo网站制作优化,网站SEO优化步骤有哪些?
建站主机是什么?如何选择适合的建站主机?
建站之星展会模版如何一键下载生成?
如何用腾讯建站主机快速创建免费网站?
*请认真填写需求信息,我们会在24小时内与您取得联系。