Python信息抽取之乱码解决办法

就事论事,直说自己遇到的情况,和我不一样的路过吧,一样的就看看吧
信息抓取,用python,beautifulSoup,lxml,re,urllib2,urllib2去获取想要抽取的页面内容,然后使用lxml或者beautifulSoup进行解析,插入mysql 具体的内容,好了貌似很简单很easy的样子,可是里面的恶心之处就来了,第一,国内开发网站的人在指定网站编码或者是保存网站源码的时候并没有考虑什么编码,反正一句话,一个网站即使你用工具查看或者查看源码头信息查看到他们的源码是utf-8,或者GBK之类的,也别信,哎,什么东西信了就遭殃了,即<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
以下给出一些流程:(具体各个库不是我这里向说的哦)
import urllib2
import chardet
html = urllib2.urlopen("某网站")
print chardet.detect(html) #这里会输出一个字典{'a':0.99999,'encoding':'utf-8'}
好,这整个html的编码都知道,该插入以utf-8建立的mysql数据库了吧,但是我就在插入的时候发生错误了,因为我使用lxml以后的字符串不是utf-8,而是Big5(繁体字编码),还有各种未知编码EUC-JP(日本语编码),OK,我采取了unicode方法,先对这个字段进行解码,在进行编码
if chardet.detect(name)['encoding'] == 'GB2312':
name = unicode(name,'GB2312','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'Big5':
name = unicode(name,'Big5','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'ascii':
name = unicode(name,'ascii','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'GBK':
name = unicode(name,'GBK','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'EUC-JP':
name = unicode(name,'EUC-JP','ignore').encode('utf-8','ignore')
else:
name = '未知'
感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!
# Python信息抽取之乱码
# python
# 乱码解决办法
# 彻底搞懂 python 中文乱码问题(深入分析)
# python中文乱码不着急
# 先看懂字节和字符
# python dict乱码如何解决
# 日本语
# 的人
# 他们的
# 来了
# 好了
# 就在
# 和我
# 之处
# 就事论事
# 希望能
# 很简单
# 或者是
# 什么东西
# 就看
# 句话
# 谢谢大家
# 你用
# 解决办法
# 看吧
# 也别
相关文章:
如何快速生成专业多端适配建站电话?
模具网站制作流程,如何找模具客户?
阿里云网站搭建费用解析:服务器价格与建站成本优化指南
深圳网站制作案例,网页的相关名词有哪些?
宝塔新建站点为何无法访问?如何排查?
已有域名如何快速搭建专属网站?
制作假网页,招聘网的薪资待遇,会有靠谱的吗?一面试又各种折扣?
定制建站模板如何实现SEO优化与智能系统配置?18字教程
php json中文编码为null的解决办法
如何用花生壳三步快速搭建专属网站?
如何用VPS主机快速搭建个人网站?
北京网站制作网页,网站升级改版需要多久?
C++中的Pimpl idiom是什么,有什么好处?(隐藏实现)
制作网站的软件下载免费,今日头条开宝箱老是需要下载怎么回事?
建站之星在线版空间:自助建站+智能模板一键生成方案
建站168自助建站系统:快速模板定制与SEO优化指南
如何用PHP快速搭建CMS系统?
威客平台建站流程解析:高效搭建教程与设计优化方案
建站主机选哪种环境更利于SEO优化?
建站之星×万网:智能建站系统+自助建站平台一键生成
建站之星手机一键生成:多端自适应+小程序开发快速建站指南
西安大型网站制作公司,西安招聘网站最好的是哪个?
建站之星ASP如何实现CMS高效搭建与安全管理?
三星网站视频制作教程下载,三星w23网页如何全屏?
建站中国必看指南:CMS建站系统+手机网站搭建核心技巧解析
建站ABC备案流程中有哪些关键注意事项?
北京建设网站制作公司,北京古代建筑博物馆预约官网?
如何快速搭建高效WAP手机网站?
建站之星后台管理系统如何操作?
子杰智能建站系统|零代码开发与AI生成SEO优化指南
Swift中switch语句区间和元组模式匹配
如何用AWS免费套餐快速搭建高效网站?
建站之星如何取消后台验证码生成?
上海网站制作网站建设公司,建筑电工证网上查询系统入口?
如何通过主机屋免费建站教程十分钟搭建网站?
网站海报制作教学视频教程,有什么免费的高清可商用图片网站,用于海报设计?
深圳网站制作平台,深圳市做网站好的公司有哪些?
制作网站的过程怎么写,用凡科建站如何制作自己的网站?
合肥制作网站的公司有哪些,合肥聚美网络科技有限公司介绍?
武汉网站制作费用多少,在武汉武昌,建面100平方左右的房子,想装暖气片,费用大概是多少啊?
Swift中循环语句中的转移语句 break 和 continue
制作网站软件推荐手机版,如何制作属于自己的手机网站app应用?
建站之星伪静态规则如何设置?
,石家庄四十八中学官网?
北京专业网站制作设计师招聘,北京白云观官方网站?
如何用虚拟主机快速搭建网站?详细步骤解析
JS中使用new Date(str)创建时间对象不兼容firefox和ie的解决方法(两种)
微信小程序制作网站有哪些,微信小程序需要做网站吗?
如何基于PHP生成高效IDC网络公司建站源码?
东莞专业制作网站的公司,东莞大学生网的网址是什么?
*请认真填写需求信息,我们会在24小时内与您取得联系。