Python requests抓取有道翻译 最新版破解js加密

Python requests抓取有道翻译 最新版破解js加密

目标网站:http://fanyi.youdao.com/

1.寻找数据
F12 进去Network 调试多次,翻译后的数据放在 json里
Python requests抓取有道翻译 最新版破解js加密
数据放在接口下Python requests抓取有道翻译 最新版破解js加密
2.找出js加密的数据
调试多次 发现这三个参数会发生变化,Python requests抓取有道翻译 最新版破解js加密
3.破解js加密

观察initiator发现加载的js代码,分析代码发现加密的参数在这里
Python requests抓取有道翻译 最新版破解js加密
‘ts’:就是Form Data里的’lts’, 不难发现 r获取的是当前时间的毫秒数并字符串化,i获取的是 r 拼接一个随机的(0, 10)的字符串。sign是由md5加密获取。剩下的请求表单参数就很明显了。bv是md5根据浏览器的版本加密的

4.请求头部Headers
User-Agent, Referer是必须的,另外还需要加上一个Cookie值(这里不加请求错误)Python requests抓取有道翻译 最新版破解js加密
5.实现代码


class youDao(object):
    def __init__(self, msg):
        self.url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
        self.msg = msg
        self.lts = self.get_lts()
        self.salt = self.get_salt()
        self.sign = self.get_sign()

    def get_salt(self):
        return self.lts + str(random.randint(0, 10))

    def get_sign(self):
        initial = 'fanyideskweb' + self.msg + self.salt + 'Tbh5E8=q6U3EXe+&L[4c@'
        # 加密前需要编码 否存可能会出现TypeError: Unicode-objects must be encoded before hashing
        return md5(initial.encode('utf-8')).hexdigest()

    def get_lts(self):
        return str(int(time.time() * 1000))

    def get_res(self):
        data = {
            'i': self.msg,
            'from': 'AUTO',
            'to': 'AUTO',
            'smartresult': 'dict',
            'client': 'fanyideskweb',
            'salt': self.salt,
            'sign': self.sign,
            'lts': self.lts,
            'bv': '3da01a09873456cfb5dba05f2124b148',
            'doctype': 'json',
            'version': '2.1',
            'keyfrom': 'fanyi.web',
            'action': 'FY_BY_CLICKBUTTION'
        }
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
                                 '(KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36',
                   'Referer': 'http://fanyi.youdao.com/',
                   'Cookie': 'OUTFOX_SEARCH_USER_ID=-610384760@10.169.0.83'}
        resp = requests.post(self.url, headers=headers, data=data)
        return resp.json()['translateResult'][0][0]['tgt']

亲测有效,本文章全系对技术的兴趣爱好,欢迎大家学习交流。

上一篇:Ubuntu 18.04 LTS 更改DNS域名服务器


下一篇:写完有道翻译爬虫之后,顿时,我悟了!!