一次抓取的探究

<?php

   /**
        http://gd.rundejy.com/jq/16862193.aspx

        http://www.sojump.com/wjx/join/complete.aspx?....
        測(cè)試::::::

        http://gd.rundejy.com/wjx/join/complete.aspx?q=16862193&JoinID=353793885&jidx=

        <script>var msg='此測(cè)評(píng)報(bào)告已經(jīng)被刪除惶傻!';if(msg)alert(msg);window.location='/';</script>

        http://gd.rundejy.com/wjx/join/complete.aspx?q=16862193&JoinID=101054319539&jidx=445&tv=0&s=&rname=%E6%96%B9%E6%B3%95

        http://gd.rundejy.com/handler/processjq.ashx?submittype=1&curID=16862193&t=1507609003656&starttime=2017%2F10%2F10%2012%3A16%3A22&rn=1908806055.57509867&rname=%E5%B0%B1%E7%9C%8B%E8%A7%81


        http://gd.rundejy.com/wjx/join/complete.aspx?q=16862193&JoinID=101054409437&jidx=483&tv=0&s=&rname=%E5%B0%B1%E7%9C%8B%E8%A7%81

        http://gd.rundejy.com/wjx/previewanswer.aspx?activityid=16862193


        模擬利用框提交居然成功了:::

        代碼內(nèi)容:

        <html>
            <head>
                <title>測(cè)試網(wǎng)頁(yè)</title>
                <meta charset="UTF-8">
                <meta name="viewport" content="width=device-width, initial-scale=1.0">
            </head>
            <body>
                <div>
                    <form action="http://gd.rundejy.com/handler/processjq.ashx?submittype=1&curID=16862193&t=1507609003656&starttime=2017%2F10%2F10%2012%3A16%3A22&rn=1908806055.57509867&rname=%E5%B0%B1%E7%9C%8B%E8%A7%81" method="post">
                        <textarea name='submitdata'></textarea>
                        <input type='submit' value='提交'/>
                    </form>
                </div>
            </body>
        </html>

    填入內(nèi)容:
        1$1<搜索}2$安徽-合肥}3$-2}4$-2}5$-2}6$-2}7$-2}8$-2}9$-2}10$-2}11$-2}12$-2}13$-2}14$-2}15$-2}16$-2}17$-2}18$-2}19$-2}20$-2}21$-2}22$-2
    
    最后得到結(jié)果:
        10〒/wjx/join/complete.aspx?q=16851695&JoinID=101054061596&jidx=269&tv=0 
    
    得到結(jié)果發(fā)現(xiàn)這里有ip限制 在程序里面需要做相應(yīng)的修改::
    * 
    * 
    * 
    * //http://gd.rundejy.com/handler/processjq.ashx?submittype=1&curID=16862193&t=1507609003656&starttime=2017%2F10%2F10%2012%3A16%3A22&rn=1908806055.57509867&rname=%E5%B0%B1%E7%9C%8B%E8%A7%81
    
    
    $url = "http://gd.rundejy.com/handler/processjq.ashx?";
    
    //1507609003656&starttime=2017%2F10%2F10%2012%3A16%3A22&rn=1908806055.57509867&rname=%E5%B0%B1%E7%9C%8B%E8%A7%81
    
    $str = 'submittype=1&curID=16851695&t='.time().  mt_rand( 100, 999 );
    

    $str .= "&starttime=".urlencode(date('Y/m/d H:i:s'));

    $str .= "&rn=1908806055.57509867";

    $str .= "&rname=".urlencode("搜索1");

    $url = $url . $str;
    
    //echo $url;die;
    
   //http://gd.rundejy.com/handler/processjq.ashx?submittype=1&curID=16851695&t=15076176699241507609003656&starttime=2017%2F10%2F10+14%3A41%3A09&rn=1908806055.57509867&rname=%E6%90%9C%E7%B4%A21
    
    //$url = "http://gd.rundejy.com/handler/processjq.ashx?submittype=1&curID=16851695&t=1507609003656&starttime=2017%2F10%2F10%2012%3A16%3A22&rn=1908806055.57509867&rname=%E5%B0%B1%E7%9C%8B%E8%A7%81";
    
//    $post_data = array ("submitdata" =>'1$1<搜索1}2$安徽-合肥}3$-2}4$-2}5$-2}6$-2}7$-2}8$-2}9$-2}10$-2}11$-2}12$-2}13$-2}14$-2}15$-2}16$-2}17$-2}18$-2}19$-2}20$-2}21$-2}22$-2');
//    
//    $ch = curl_init();
//    
//    curl_setopt($ch, CURLOPT_URL, $url);
//    
//    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
//    curl_setopt( $ch, CURLOPT_SSL_VERIFYPEER, false);
//    curl_setopt( $ch, CURLOPT_REFERER, 'http://gd.rundejy.com/jq/16851695.aspx');
//    
//    curl_setopt( $ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 GTB5' );  
//    
//    curl_setopt($ch, CURLOPT_COOKIE , "UM_distinctid=15d5f2ab68a4a3-0bd1ac1a5d8f1b-323f5c0f-1fa400-15d5f2ab68caac; .ASPXANONYMOUS=LGXLP_p30wEkAAAAN2UzZTJmYjMtNzI0NC00MmUzLTlhMmQtY2I3ZjMxM2UzM2Mxv3NiE87i5jLW7SpNXfHyhAUA0d81; jac16863908=30281672; jac16862193=46693356; CNZZDATA4478442=cnzz_eid%3D118356653-1500538008-%26ntime%3D1507610490; LastActivityJoin=16851695,101054061596; SERVERID=37abe227599b880fdc0f5221d044b45c|1507616227|1507604581" );
//    // post數(shù)據(jù)
//    curl_setopt($ch, CURLOPT_POST, 1);
//    
//    // post的變量
//    curl_setopt($ch, CURLOPT_POSTFIELDS, $post_data);
//    
//    $output = curl_exec($ch);
//    
//    curl_close($ch);
//    
//    //打印獲得的數(shù)據(jù)
//    print_r($output);
    
    //約定前步正確結(jié)果:
    //$output = "10〒/wjx/join/complete.aspx?q=16851695&JoinID=101054136204&jidx=278&tv=0";
    
    $nexturl = explode('/',$output);
    
    unset($nexturl[0]);
    
    $nexturl = "http://gd.rundejy.com/".implode('/',$nexturl);
    
    echo $nexturl;

    //10〒/wjx/join/complete.aspx?q=16851695&JoinID=101054136204&jidx=278&tv=0
    
    //處理之后的
 
    //http://gd.rundejy.com/wjx/join/complete.aspx?q=16851695&JoinID=101054136204&jidx=278&tv=0
    
    **/

     //得到id:
    $lasturl = "http://gd.rundejy.com/jq/16724885.aspx";
    
    require_once './tool/QueryList.class.php';
    /*循環(huán)列表讀取法*/
    set_time_limit(0);
    $file = fopen("Minot.txt", "r") or exit("Unable to open file!");

    while(!feof($file))
    {
        $url = trim(fgets($file));
        if($url != ''){ 
            show($url);//展示題目:
            answer($url); //展示答案:
        }
    }
    
    function answer($url){
        
        $id = getid($url);
        
        $nexturl = getnexturl($id);
        
        //divAnswer 里面的內(nèi)容::
        
        
    }
    
    //http://gd.rundejy.com/jq/16669150.aspx
    header("Content-Type: text/html; charset=gbk");

    function show($url){
        $result = file_get_contents($url);
        if($result){
            $regtitle = array('title'=>array('title','html'));
            $matchestitle = new QueryList($result, $regtitle,'','GBK');
            $matchlisttitle = $matchestitle->jsonArr;
            echo toutf8($matchlisttitle[0]['title']);
            $reg = array("title" => array(".div_title_question", "html"),"content" => array(".div_table_radio_question", "text"));
            $matches = new QueryList($result, $reg,'','GBK');
            $matchlist = $matches->jsonArr;
            foreach($matchlist as $k=>$v){
                if(stripos($v['title'],'span') === false) echo toutf8($v['title'])."\r\n";
                echo toutf8($v['content'])."\r\n";
            }
            sleep(1);
        }
    }
  
    //一件神奇的事情發(fā)生了 .....
    function toutf8($str){ 
        return iconv('utf-8', 'latin1', $str);
    }
    
    
    
    //匹配出下一步要用到的id
    function getid($url){
        $str = str_replace( ".aspx", '', $url );
        $firstarr = explode('/',$str);
        return end($firstarr);
    }
    
    //匹配出下一步要用到的url
    function getnexturl($id){
        $url = "http://gd.rundejy.com/handler/processjq.ashx?";
        $str = 'submittype=1&curID='.$id.'&t='.time().  mt_rand( 100, 999 );
        $str .= "&starttime=".urlencode(date('Y/m/d H:i:s'));
        $str .= "&rn=1908806055.57509867";
        $str .= "&rname=".urlencode("搜索1");
        $url = $url . $str;
        $post_data = array ("submitdata" =>'1$1<搜索1}2$安徽-合肥}3$-2}4$-2}5$-2}6$-2}7$-2}8$-2}9$-2}10$-2}11$-2}12$-2}13$-2}14$-2}15$-2}16$-2}17$-2}18$-2}19$-2}20$-2}21$-2}22$-2');
        $ch = curl_init();  
        curl_setopt($ch, CURLOPT_URL, $url); 
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
        curl_setopt( $ch, CURLOPT_SSL_VERIFYPEER, false);
        //curl_setopt( $ch, CURLOPT_REFERER, 'http://gd.rundejy.com/jq/16851695.aspx');
        curl_setopt( $ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 GTB5' );  
        curl_setopt($ch, CURLOPT_COOKIE , "UM_distinctid=15d5f2ab68a4a3-0bd1ac1a5d8f1b-323f5c0f-1fa400-15d5f2ab68caac; .ASPXANONYMOUS=LGXLP_p30wEkAAAAN2UzZTJmYjMtNzI0NC00MmUzLTlhMmQtY2I3ZjMxM2UzM2Mxv3NiE87i5jLW7SpNXfHyhAUA0d81; jac16863908=30281672; jac16862193=46693356; CNZZDATA4478442=cnzz_eid%3D118356653-1500538008-%26ntime%3D1507610490; LastActivityJoin=16851695,101054061596; SERVERID=37abe227599b880fdc0f5221d044b45c|1507616227|1507604581" );
        curl_setopt($ch, CURLOPT_POST, 1);
        curl_setopt($ch, CURLOPT_POSTFIELDS, $post_data);
        $output = curl_exec($ch);
        curl_close($ch);
        $nexturl = explode('/',$output);
        unset($nexturl[0]);
        $nexturl = "http://gd.rundejy.com/".implode('/',$nexturl);
        return $nexturl;
    }
<?php

/* 
 * To change this license header, choose License Headers in Project Properties.
 * To change this template file, choose Tools | Templates
 * and open the template in the editor.
 */
require_once './tool/QueryList.class.php';
$result = "
<html><div class='score-form__dec-answer' id='divAnswer'>    
    <div style='margin-bottom:10px;padding:5px 0;' topic='4'>
            <div>
                    2.下列xxxxxxx()  <span style='color:#ff941a;'>分值:xx</span>
            </div>
            <div style='margin:5px 0 5px 20px;'>
                    您的回答為:(空) ![錯(cuò)誤](/images/newimg/score-form/achievement_cuo.png)<br/><font color='#4096ee'>正確答案為:</font>D.xxxxxxxxx
                    <div style='margin-top:5px;'>
                            <div style='float:left;'>
                                    <b>答案解析:</b>
                            </div>
                            <div style='float:left;color:#666666;width:80%;'>
                                    磺xxxxxxxxx
                            </div>
                            <div style='clear:both;'>
                            </div>
                    </div>
            </div>
    </div>
</div></html>";

$regtitle = array('title'=>array('#divAnswer','text'));
$matchestitle = new QueryList($result, $regtitle,'','GBK');
$matchlisttitle = $matchestitle->jsonArr;
var_dump($matchlisttitle);
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末瘪松,一起剝皮案震驚了整個(gè)濱河市丰涉,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌仗哨,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,997評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件肛冶,死亡現(xiàn)場(chǎng)離奇詭異事哭,居然都是意外死亡狈定,警方通過(guò)查閱死者的電腦和手機(jī)颂龙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)纽什,“玉大人措嵌,你說(shuō)我怎么就攤上這事÷郑” “怎么了企巢?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,359評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)让蕾。 經(jīng)常有香客問(wèn)我浪规,道長(zhǎng),這世上最難降的妖魔是什么探孝? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,309評(píng)論 1 292
  • 正文 為了忘掉前任笋婿,我火速辦了婚禮,結(jié)果婚禮上顿颅,老公的妹妹穿的比我還像新娘缸濒。我一直安慰自己,他們只是感情好粱腻,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,346評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布庇配。 她就那樣靜靜地躺著,像睡著了一般绍些。 火紅的嫁衣襯著肌膚如雪捞慌。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,258評(píng)論 1 300
  • 那天柬批,我揣著相機(jī)與錄音卿闹,去河邊找鬼揭糕。 笑死,一個(gè)胖子當(dāng)著我的面吹牛锻霎,可吹牛的內(nèi)容都是我干的著角。 我是一名探鬼主播,決...
    沈念sama閱讀 40,122評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼旋恼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼吏口!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起冰更,我...
    開(kāi)封第一講書(shū)人閱讀 38,970評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤产徊,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后蜀细,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體舟铜,經(jīng)...
    沈念sama閱讀 45,403評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,596評(píng)論 3 334
  • 正文 我和宋清朗相戀三年奠衔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了谆刨。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,769評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡归斤,死狀恐怖痊夭,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情脏里,我是刑警寧澤她我,帶...
    沈念sama閱讀 35,464評(píng)論 5 344
  • 正文 年R本政府宣布,位于F島的核電站迫横,受9級(jí)特大地震影響番舆,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜矾踱,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,075評(píng)論 3 327
  • 文/蒙蒙 一恨狈、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧介返,春花似錦拴事、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,705評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至徘公,卻和暖如春牲证,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背关面。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,848評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工坦袍, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留十厢,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,831評(píng)論 2 370
  • 正文 我出身青樓捂齐,卻偏偏與公主長(zhǎng)得像蛮放,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子奠宜,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,678評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容