本教程详细介绍了Python CountVectorizer在进行文本特征提取时,默认忽略数字前正负号的问题及其解决方案。通过实现一个自定义分词器,结合正则表达式精确捕获带符号的数字作为独立词元,可以确保 CountVectorizer正确识别并保留这些关键信息,从而生成包含完整符号的特征矩阵。
在自然语言处理(NLP)中,Bag-of-Words (BOW) 模型是一种常用的文本表示方法,它将文本视为一个词袋,忽略词序,只关注词的出现频率。sklearn.feature_extraction.text.CountVectorizer 是Python中实现BOW模型的核心工具。它能够将文本文档集合转换为词频矩阵。然而,当处理包含正负号的数字字符串时,CountVectorizer 的默认行为可能会导致信息丢失。
例如,考虑以下数据框:
RepID, Txt 1, +83 -193 -380 +55 +901 2, -94 +44 +2892 -60 3, +7010 -3840 +3993
其中 Txt 字段包含了一系列带符号的数字。如果直接使用 CountVectorizer 进行处理,其默认的分词器通常会忽略非字母数字字符(如 + 和 -),导致生成的特征名称(列名)中丢失这些符号。这意味着 +83 和 83 将被视为同一个词元,这在某些应用场景下是不可接受的。我们期望的输出是能区分 +83 和 -193 等带符号的数字作为独立的特征。
分词是文本处理的第一步,它将连续的文本分解成有意义的最小单元,即词元(tokens)。CountVectorizer 内部有一个 tokenizer 参数,它决定了如何将输入文本字符串分割成词元列表。默认情况下,CountVectorizer 使用一个简单的正则表达式来提取词元,该正则表达式通常只匹配字母数字序列。这就是为什么 + 和 - 符号会被忽略的原因,因为它们不被认为是词元的一部分。
为了解决符号丢失的问题,我们需要提供一个自定义的分词器,它能够识别并保留数字前的正负号。
自定义分词器的核心在于使用正则表达式精确地捕获我们希望保留的词元。对于带符号的数字,我们需要确保正负号与数字一起被视为一个整体。
我们将使用Python的 re 模块来构建这个自定义分词器。关键在于 re.split() 函数和合适的正则表达式。
import re def custom_tokenizer(text): # 使用正则表达式分割文本,同时捕获带符号的数字 # ([+-]?\d+): # [+-]? 匹配一个可选的 '+' 或 '-' 符号 # \d+ 匹配一个或多个数字 # 括号 () 创建一个捕获组,确保匹配到的符号和数字作为一个整体被保留 tokens = [token.strip() for token in re.split('([+-]?\d+)', text) if token.strip()] return tokens
正则表达式 ([+-]?\d+) 解析:
re.split() 函数会根据正则表达式将字符串分割,并且如果正则表达式中包含捕获组,则捕获到的内容也会包含在结果列表中。最后,我们使用列表推导式 [token.strip() for token in ... if token.strip()] 来清理结果,移除可能产生的空字符串。
创建了 custom_tokenizer 后,我们只需将其作为参数传递给 CountVectorizer 的 tokenizer 参数即可。
from sklearn.feature_extraction.text import CountVectorizer import pandas as pd import numpy as np def BOW(df_column): # 初始化 CountVectorizer,传入自定义分词器 CountVec = CountVectorizer(tokenizer=custom_tokenizer) # 对指定列进行拟合和转换 Count_data = CountVec.fit_transform(df_column) Count_data = Count_data.astype(np.uint8) # 创建DataFrame,列名为 CountVectorizer 提取的特征名 cv_dataframe = pd.DataFrame(Count_data.toarray(), columns=CountVec.get_feature_names_out(), index=df_column.index) return cv_dataframe.astype(np.uint8)
注意点:
下面是一个完整的示例,展示如何应用自定义分词器来解决 CountVectorizer 忽略符号的问题。
import re
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
# 1. 定义自定义分词器
def custom_tokenizer(text):
"""
自定义分词器,用于将文本分割成词元,同时保留带符号的数字。
"""
# 使用正则表达式分割文本,同时捕获带符号的数字
# ([+-]?\d+) 匹配一个可选的正负号后跟一个或多个数字
tokens = [token.strip() for token in re.split('([+-]?\d+)', text) if token.strip()]
return tokens
# 2. 定义 Bag-of-Words (BOW) 函数
def BOW(df_text_column):
"""
使用自定义分词器生成文本的词袋模型DataFrame。
参数:
df_text_column (pd.Series): 包含文本数据的Pandas Series。
返回:
pd.DataFrame: 词频矩阵,列名为带符号的数字词元。
"""
# 初始化 CountVectorizer,传入自定义分词器
CountVec = CountVectorizer(tokenizer=custom_tokenizer)
# 对文本列进行拟合和转换
Count_data = CountVec.fit_transform(df_text_column)
# 将结果转换为 uint8 类型以节省内存
Count_data = Count_data.astype(np.uint8)
# 创建DataFrame,列名为 CountVectorizer 提取的特征名
cv_dataframe = pd.DataFrame(Count_data.toarray(),
columns=CountVec.get_feature_names_out(),
index=df_text_column.index)
return cv_dataframe.astype(np.uint8)
# 3. 测试 BOW 函数
if __name__ == "__main__":
# 示例数据
data = {'RepID': [1, 2, 3],
'Txt': ['+83 -193 -380 +55 +901', '-94 +44 +2892 -60', '+7010 -3840 +3993']}
df = pd.DataFrame(data)
print("原始数据框:")
print(df)
print("\n" + "="*50 + "\n")
# 调用 BOW 函数处理 'Txt' 列
result_df = BOW(df['Txt'])
print("使用自定义分词器后的词袋模型结果:")
print(result_df)
# 预期输出与对比
print("\n" + "="*50 + "\n")
print("期望的列名应包含符号,例如:+83, -193, -380, +55, +901 等。")
print("实际输出的列名:", result_df.columns.tolist())运行上述代码,您会看到 result_df 的列名正确地包含了 + 或 - 符号,例如 +83, -193, -380 等,这正是我们期望的结果。
通过本文,我们学习了 CountVectorizer 默认分词机制的局限性,以及如何通过实现和集成自定义分词器来解决在文本特征提取过程中符号丢失的问题。这种方法不仅限于处理带符号的数字,还可以扩展到处理其他任何需要特殊分词规则的文本数据。
# word
# python
# 正则表达式
# 工具
# ai
# 金融
# 自然语言处理
# 为什么
相关文章:
制作网站的公司有哪些,做一个公司网站要多少钱?
已有域名和空间如何搭建网站?
定制建站哪家更专业可靠?推荐榜单揭晓
移民网站制作流程,怎么看加拿大移民官网?
建站主机空间推荐 高性价比配置与快速部署方案解析
如何快速搭建FTP站点实现文件共享?
建站之星如何开启自定义404页面避免用户流失?
黑客如何利用漏洞与弱口令入侵网站服务器?
如何在云主机快速搭建网站站点?
javascript中对象的定义、使用以及对象和原型链操作小结
打鱼网站制作软件,波克捕鱼官方号怎么注册?
网站制作专业公司有哪些,如何制作一个企业网站,建设网站的基本步骤有哪些?
网页设计网站制作软件,microsoft office哪个可以创建网页?
做企业网站制作流程,企业网站制作基本流程有哪些?
如何通过云梦建站系统实现SEO快速优化?
建站主机助手选型指南:2025年热门推荐与高效部署技巧
专业公司网站制作公司,用什么语言做企业网站比较好?
唐山网站制作公司有哪些,唐山找工作哪个网站最靠谱?
广州网站制作的公司,现在专门做网站的公司有没有哪几家是比较好的,性价比高,模板也多的?
济南专业网站制作公司,济南信息工程学校怎么样?
如何快速搭建支持数据库操作的智能建站平台?
建站主机SSH密钥生成步骤及常见问题解答?
建站之星展会模板:智能建站与自助搭建高效解决方案
深入理解Android中的xmlns:tools属性
成都响应式网站开发,dw怎么把手机适应页面变成网页?
怀化网站制作公司,怀化新生儿上户网上办理流程?
武汉外贸网站制作公司,现在武汉外贸前景怎么样啊?
佛山企业网站制作公司有哪些,沟通100网上服务官网?
宿州网站制作公司兴策,安徽省低保查询网站?
建站之星如何通过成品分离优化网站效率?
电商网站制作多少钱一个,电子商务公司的网站制作费用计入什么科目?
网站制作的软件有哪些,制作微信公众号除了秀米还有哪些比较好用的平台?
,有什么在线背英语单词效率比较高的网站?
免费视频制作网站,更新又快又好的免费电影网站?
阿里云网站制作公司,阿里云快速搭建网站好用吗?
网站制作费用多少钱,一个网站的运营,需要哪些费用?
建站之星安装后如何自定义网站颜色与字体?
如何在Golang中处理模块冲突_解决依赖版本不兼容问题
如何高效配置IIS服务器搭建网站?
建站org新手必看:2024最新搭建流程与模板选择技巧
如何在云主机上快速搭建网站?
建站主机如何选?性能与价格怎样平衡?
阿里云网站搭建费用解析:服务器价格与建站成本优化指南
建站之星北京办公室:智能建站系统与小程序生成方案解析
建站之星如何快速更换网站模板?
孙琪峥织梦建站教程如何优化数据库安全?
如何在IIS中新建站点并配置端口与物理路径?
网站制作中优化长尾关键字挖掘的技巧,建一个视频网站需要多少钱?
实现点击下箭头变上箭头来回切换的两种方法【推荐】
图片制作网站免费软件,有没有免费的网站或软件可以将图片批量转为A4大小的pdf?
*请认真填写需求信息,我们会在24小时内与您取得联系。