Python 爬取有道翻譯API

參考:

  1. 【Python】有道翻譯的爬蟲實現(xiàn)(后篇)
  2. 用Python破解有道翻譯反爬蟲機制

我昨天用的正規(guī)有道API測試翻譯小說雳锋,結(jié)果很快就炸了。所以找了下怎么爬取有道翻譯主頁洲守。

主要步驟:

  1. chrome F12查看表單數(shù)據(jù)
  2. 查看網(wǎng)頁源代碼,找到類似這樣的js文件(因為可能經(jīng)常會變沾凄,比如參考資料中的第二個里面的js文件已經(jīng)找不到了):<script type="text/javascript" src="http://shared.ydstatic.com/fanyi/newweb/v1.0.9/scripts/newweb/fanyi.min.js"></script>
  3. 復(fù)制js文件,格式化
  4. 在里面查找'salt'關(guān)鍵字知允,我找到的是這個:
        function (e, t) {
            var n = e("./jquery-1.7");
            e("./md5");
            e("./utils");
            var r = null;
            t.asyRequest = function (e) {
                var t = e.i,
                    i = "" + ((new Date).getTime() + parseInt(10 * Math.random(), 10)),
                    o = n.md5("fanyideskweb" + t + i + "ebSeFb%=XZ%T[KZ)c(sy!");
                r && r.abort(),
                    r = n.ajax({
                        type: "POST",
                        contentType: "application/x-www-form-urlencoded; charset=UTF-8",
                        url: "/bbk/translate_m.do",
                        data: {
                            i: e.i,
                            client: "fanyideskweb",
                            salt: i,
                            sign: o,
                            tgt: e.tgt,
                            from: e.from,
                            to: e.to,
                            doctype: "json",
                            version: "3.0",
                            cache: !0
                        },
                        dataType: "json",
                        success: function (t) {
                            t && 0 == t.errorCode ? e.success && e.success(t) : e.error && e.error(t)
                        },
                        error: function (e) {
                        }
                    })
            }
        }),
  1. 分析下它的加密算法撒蟀,其實很簡單,就是一個常量“fanyideskweb” + 要翻譯的內(nèi)容 + 時間戳和隨機數(shù) + 一個常量"ebSeFb%=XZ%T[KZ)c(sy!"(很顯然温鸽,這個常量可能會時不時的變)保屯,然后再把這整個字符串進行MD5就得到了sign
  2. 根據(jù)這個寫成python:
def translate(content):
    url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"
    S = "fanyideskweb"
    n = content
    r = str(int(time.time() * 1000) + random.randint(1, 10))
    D = "ebSeFb%=XZ%T[KZ)c(sy!"
    sign = hashlib.md5((S + n + r + D).encode('utf-8')).hexdigest()
    data = {"i": content,
            "from": "AUTO",
            "to": "AUTO",
            "smartresult": "dict",
            "client": "fanyideskweb",
            "salt": r,
            "sign": sign,
            "doctype": "json",
            "version": "2.1",
            "keyfrom": "fanyi.web",
            "action": "FY_BY_CLICKBUTTION",
            "typoResult": "false"}
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36",
        "Referer": "http://fanyi.youdao.com/",
        "Cookie": "OUTFOX_SEARCH_USER_ID=-1038070705@10.168.8.63; JSESSIONID=aaaP2Qy4ztAfyfZRXzktw; OUTFOX_SEARCH_USER_ID_NCOO=570232601.9713346; fanyi-ad-id=47865; fanyi-ad-closed=1; ___rl__test__cookies=1532406668184"}
    response = requests.post(url, headers=headers, data=data).content.decode('utf-8')
    logging.debug(response)
    result = json.loads(response)['translateResult'][0][0]['tgt']
    print(result)

其中的header部分是我直接從參考資料1里面拷下來的。好吧涤垫,其實大部分都是姑尺。。蝠猬。

但是這個函數(shù)還是有點問題的切蟋,因為它只返回了翻譯結(jié)果中的第一個數(shù)組。把json結(jié)果提取出來合并成一個字符串可以看這篇文章:Python 列表生成式解析json

順便說一句榆芦,使用未公開的API進行商業(yè)用途好像是違法的柄粹。所以這個最多只能用來學(xué)習(xí)測試用哦!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末匆绣,一起剝皮案震驚了整個濱河市驻右,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌崎淳,老刑警劉巖堪夭,帶你破解...
    沈念sama閱讀 212,542評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡森爽,警方通過查閱死者的電腦和手機恨豁,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,596評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拗秘,“玉大人圣絮,你說我怎么就攤上這事〉裰迹” “怎么了扮匠?”我有些...
    開封第一講書人閱讀 158,021評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長凡涩。 經(jīng)常有香客問我棒搜,道長,這世上最難降的妖魔是什么活箕? 我笑而不...
    開封第一講書人閱讀 56,682評論 1 284
  • 正文 為了忘掉前任力麸,我火速辦了婚禮,結(jié)果婚禮上育韩,老公的妹妹穿的比我還像新娘克蚂。我一直安慰自己,他們只是感情好筋讨,可當(dāng)我...
    茶點故事閱讀 65,792評論 6 386
  • 文/花漫 我一把揭開白布埃叭。 她就那樣靜靜地躺著,像睡著了一般悉罕。 火紅的嫁衣襯著肌膚如雪赤屋。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,985評論 1 291
  • 那天壁袄,我揣著相機與錄音类早,去河邊找鬼。 笑死嗜逻,一個胖子當(dāng)著我的面吹牛涩僻,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播栈顷,決...
    沈念sama閱讀 39,107評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼令哟,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了妨蛹?” 一聲冷哼從身側(cè)響起屏富,我...
    開封第一講書人閱讀 37,845評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蛙卤,沒想到半個月后狠半,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體噩死,經(jīng)...
    沈念sama閱讀 44,299評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,612評論 2 327
  • 正文 我和宋清朗相戀三年神年,在試婚紗的時候發(fā)現(xiàn)自己被綠了已维。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,747評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡已日,死狀恐怖垛耳,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情飘千,我是刑警寧澤堂鲜,帶...
    沈念sama閱讀 34,441評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站护奈,受9級特大地震影響缔莲,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜霉旗,卻給世界環(huán)境...
    茶點故事閱讀 40,072評論 3 317
  • 文/蒙蒙 一痴奏、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧厌秒,春花似錦读拆、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,828評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至岛马,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間屠列,已是汗流浹背啦逆。 一陣腳步聲響...
    開封第一講書人閱讀 32,069評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留笛洛,地道東北人夏志。 一個月前我還...
    沈念sama閱讀 46,545評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像苛让,于是被迫代替她去往敵國和親沟蔑。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,658評論 2 350

推薦閱讀更多精彩內(nèi)容