python取余什么意思_python中取余

python取余什么意思_python中取余首先取响应头里的编码,如果是几种中文编码之一,则认为中文网页,如果不是中文编码,也不是几种unicode方案之一,则不是中文.否则再在标签里找charset,如果有并且为几种中文编码之一,则是中文如果不是中文编码,也不是几种unicode方案之一,则不是中文.否则对body的内容(如果考虑性能问题,可以不对整个body,只对前N个字节)用正则洗标签过滤所有ASCII码字符,剩余部分…

大家好,又见面了,我是你们的朋友全栈君。

首先取响应头里的编码,如果是几种中文编码之一,则认为中文网页,如果不是中文编码, 也不是几种unicode方案之一, 则不是中文.否则再在标签里找 charset ,如果有并且为几种中文编码之一, 则是中文如果不是中文编码, 也不是几种unicode方案之一, 则不是中文.否则对body的内容(如果考虑性能问题,可以不对整个body,只对前N个字节)用正则洗标签过滤所有ASCII码字符, 剩余部分按字取内码,如果考虑性能问题其实取第一个字符就可以了,如果性能不重要,可以多采样几个(防止一个页面有中文日文等各种文字混合)判断采到的字符的内码是否位于中文unicode区域.如果性能非常不重要, 只是要代码简单, 那么做法可以: 正则 1 这样可以取到第一个不是ASCII的字符, 判断这个字符是否是中文字符就可以了参考代码:#! /usr/bin/env python

# -*- encoding: utf-8 -*-

import requests

import cld2

class Detector(object):

zh_cn_encodes = (‘gbk’, ‘gb2312’, ‘gb18030’)

def __init__(self, context):

self.context = context

def is_zh_cn_encoding(self, ctype):

ctype = ctype.lower()

for ec in self.zh_cn_encodes:

if ec in ctype:

return True

return False

def detect(self):

assert type(self.context) == type(u”), ‘detect unicode string only’

ret = cld2.detect(self.context.encode(‘utf-8’))

return ret[2][0][1] == ‘zh’

def url_detect(self):

r = requests.get(self.context)

assert r.status_code == 200, ‘http code 200 is required’

ctype = r.encoding

if ctype and self.is_zh_cn_encoding(ctype):

return True

else:

self.context = r.text

return self.detect()

if __name__ == ‘__main__’:

print Detector(u’短中文有bug’).detect()

print Detector(u’网页文件一般没问题’).detect()

print Detector(u’これは日本で’).detect()

url = ‘http://segmentfault.com/q/1010000000432652’

print Detector(url).url_detect()

url = ‘https://code.google.com/p/chromium-compact-language-detector/source/browse/README’

print Detector(url).url_detect()

x00-xff ↩

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/129873.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 一文读懂Spring 循环依赖,写得太好了!(建议收藏)

    一文读懂Spring 循环依赖,写得太好了!(建议收藏)

    2020年11月13日
  • PyCharm激活码永久有效PyCharm2017.3.5激活码教程-持续更新,一步到位「建议收藏」

    PyCharm激活码永久有效PyCharm2017.3.5激活码教程-持续更新,一步到位「建议收藏」PyCharm激活码永久有效2017.3.5激活码教程-Windows版永久激活-持续更新,Idea激活码2017.3.5成功激活

  • 直通线和交叉线[通俗易懂]

    直通线和交叉线[通俗易懂]感觉这个问题已经成为历史了。直通线:两端均使用568A或者568B的线序,用于不同类的网络设备互联,如电脑和交换机,交换机和路由器等交叉线:一端使用568A先序,一端568B线序,用于同类设备的连接,如交换机与交换机,电脑和电脑等不过现在的网络设备都支持自动适配接口类型功能,所以不管是直通线还是交叉线,都可以正常使用。568A和568B标准: 568A标准:白绿,绿,白橙,蓝,白…

  • html5二维动画教程,Flash二维动画制作案例教程

    html5二维动画教程,Flash二维动画制作案例教程Flash二维动画制作案例教程编辑锁定讨论上传视频《Flash二维动画制作案例教程》是2009年高等教育出版社出版的图书。书名Flash二维动画制作案例教程ISBN9787040260403页数272页出版社高等教育出版社Flash二维动画制作案例教程图书信息编辑出版社:高等教育出版社;第1版(2009年12月1日)丛书名:国家动漫游戏产业振兴基地人才培养工程指定教材平装:…

  • windows server搭建邮件服务器(开源邮件服务器系统)

    使用WinmailServer轻松架设邮件服务器准备工作  WinmailServer是一款安全易用全功能的邮件服务器软件,不仅支持SMTP/POP3/IMAP/Webmail/LDAP(公共地址簿)/多域/发信认证/反垃圾邮件/邮件过滤/邮件组/公共邮件夹等标准邮件功能,还有提供邮件签核/邮件杀毒/邮件监控/支持IIS,Apache和PWS/短信提醒/邮件备份/TLS(

  • html5教程单摆,Flash动画—单摆的制作教程

    html5教程单摆,Flash动画—单摆的制作教程想起当初作这个动画时,真是不知如何下手,所以,这是一篇献给初学者的教程的单摆动画的制作,应该要解决两个方面的问题:一、单摆本身的制作,这一点只要用好flash的绘图工具即可二、单摆振动,这一点将是教程的重点也是难点下面就先解决第一个问题,制作单摆(这一步的制作注意注册点的选择)首先要弄清,单摆有三部分组成:摆线、摆球、悬挂点(天花板)(一)、摆线:1、选取工具区的线条工具,线条粗细默认,在主场景按…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号