PHP處理文本和爬蟲技巧

  • 用 php 處理注意棚唆,explode()拆分字符串旱函,返回給一個變量便是將拆分出的東西依次存進這個變量资厉,返回給一個list(變量1王污,變量2罢吃,……)則是將拆分出的東西分別存到變量1,變量2昭齐,……尿招。
  • 結(jié)合 array_fliter() 過濾的時候,如果不給回調(diào)函數(shù)過濾不干凈的時候阱驾,可以在增加過濾回調(diào)函數(shù)就谜,排除 "\r\n" 和 原本的 FALSE(不寫過濾回調(diào)函數(shù)的時候默認就是這個FALSE)。
  • 調(diào)試可用file_put_contents("/home/search/result", var_export(['time'=> date('Y-m-d H:i:s'),'res'=>$result], true)."\n", FILE_APPEND);
<?php
    $file=fopen("mission2.txt","r") or exit("Unable to open file!");
    $fileCity=fopen("city2.txt","r") or exit("Unable to open file!");
    $arr = [];  //用不用都行
    // 讀取文件每一行啊易,直到文件結(jié)尾
    while(!feof($file))
    {
        //echo fgets($file). "<br>";
        $arr[] = fgets($file);
    }
    while(!feof($fileCity))
    {
        $city[] = fgets($fileCity);
    }
    //print_r($arr);
    
    foreach($arr as $a){
        list($term[]) = explode("   ",$a);
    }
    echo '<br>';
    print_r($term);
    echo '<br>';
    
    $city = array_filter($city);
    
    print_r($city);
    
    function gl($gg){
        if($gg == "\r\n" or $gg == FALSE)   //要用\r\n這個才能過濾掉某些windows里面的換行吁伺,還需要加上默認的FALSE饮睬,不然也可能濾不干凈
            return 0;
        else
            return 1;
    }
    
    foreach($city as $c){                   
        $cityAlone[] = array_filter(explode("\t",$c),"gl");   //array_filter不使用第二個參數(shù)回調(diào)函數(shù)的話默認是過濾FALSE
    }
        
    echo '<br>';
    echo '<pre>';
    print_r($cityAlone);
    echo '</pre>';
    echo '<br>';
    print_r(array_filter($cityAlone[0]));
        
    foreach($term as $key=>$te){
        foreach(array_filter($cityAlone[$key]) as $ci){
            echo $ci.$te.'<br>';    
        }   
    }
    
    fclose($fileCity);
    fclose($file);
?>
<?php
    ini_set('memory_limit', '512M');
    $fileLeimu = fopen("leimu.txt","r") or exit("Unable to open file!");
    $fileCity = fopen("city.txt","r") or exit("Unable to open file!");
    $fileZaci1 = fopen("zaci1.txt","r") or exit("Unable to open file!");
    
    while(!feof($fileLeimu))
    {
        $leimu[] = fgets($fileLeimu);
    }
    while(!feof($fileCity))
    {
        $city[] = fgets($fileCity);
    }
    while(!feof($fileZaci1))
    {
        $zaci1[] = fgets($fileZaci1);
    }
    
    function gl($gg){
        if($gg == "\r\n" or $gg == FALSE)   //要用\r\n這個才能過濾掉某些windows里面的換行租谈,還需要加上默認的FALSE,不然也可能濾不干凈
            return 0;
        else
            return 1;
    }
    
    
    $leimu = array_filter($leimu,"gl");
    $city = array_filter($city,"gl");
    $zaci1 = array_filter($zaci1,"gl");
    $zaci2 = ['上門','找'];
    
    $leimu = array_unique($leimu); //去重
    $city = array_unique($city);  
    
    $leimu = str_replace(array("\r\n", "\r", "\n"), "", $leimu);   //去掉每個字符串元素末尾的換行
    $city = str_replace(array("\r\n", "\r", "\n"), "", $city);
    $zaci1 = str_replace(array("\r\n", "\r", "\n"), "", $zaci1);
    
    // echo '<pre>';
    // print_r($zaci2);
    // print_r($leimu);
    // print_r($city);
    // print_r($zaci1);
    // echo '</pre>';

/*  
    foreach($city as $c){
        foreach($leimu as $l){
            foreach($zaci1 as $zOne){
                $combRes[] = $c.$l.$zOne;
            }
        }
    }
    
    foreach($city as $c){
        foreach($leimu as $l){
            foreach($zaci2 as $zTwo){
                $combRes[] = $c.$zTwo.$l;
            }
        }
    }
    
    foreach($city as $c){
        foreach($leimu as $l){
            $combRes[] = $c.$l;
        }
    }
*/
    foreach($leimu as $l){
        foreach($zaci1 as $zOne){
            $combRes[] = $l.$zOne;
        }
    }

    foreach($zaci2 as $zTwo){
        foreach($leimu as $l){
            $combRes[] = $zTwo.$l;
        }
    }
    
    foreach($leimu as $l){
        $combRes[] = $l;
    }
    
    $combRes = implode("\r\n", $combRes);  //想要打印到txt中捆愁,能有換行的效果割去,需要添加這個
    file_put_contents("456.txt",$combRes);
    // echo gettype($combRes);
    echo '<pre>';
    print_r($combRes);
    echo '</pre>';
    
    fclose($fileLeimu);
    fclose($fileCity);
    fclose($fileZaci1);

獲取頁面某標簽中的內(nèi)容,若是能借助下載simplehtmldom類打開操作的話昼丑,dom方便呻逆。若打不開,則用file_get_contents或者curl(網(wǎng)上說效率更高)菩帝,讀取全文內(nèi)容咖城,然后用正則匹配來做。

<?php
    require_once "../classes/simplehtmldom_1_5/simple_html_dom.php";
    $mainHtml = 'http://***/index.xml';
    //$mainHtml ='http://***/20161222-0.xml';  //為何沒法用file_get_html打開呼奢? 
    $html = file_get_html($mainHtml);   //創(chuàng)建一個DOM
    foreach($html->find('loc') as $loc){
        $locTextRecord[] = $loc->plaintext;
    }
     
     // $htmltest = file_get_contents($locTextRecord[4]);
     
    foreach($locTextRecord as $everyLoc){
        $htmltest = file_get_contents($everyLoc);
     
        $reg = '/\<catg\>(.*?)\<\/catg\>/is';
        if(preg_match_all($reg, $htmltest, $arr)) {
            foreach($arr[1] as $a){
                
                $record[] = $a;
            }
        } else {
            echo "匹配失敗!<br>";
        }
    }
    $record = array_unique($record);
    foreach($record as $r){
        var_dump($r);   //利用 var_dump 來查看變量類型宜雀,可以調(diào)試和直接在網(wǎng)頁上復制用。
    }
    $html->clear();
?>

一個主xml下含很多<loc>子標簽握础,在所有xml中辐董,查找某個字符串:

<?php
    $mainHtml = file_get_contents('http://***/tp_index.xml');
    $reg = '/\<loc\>(.*?)\<\/loc\>/is';
    if(preg_match_all($reg, $mainHtml, $arr)) {
        foreach($arr[1] as $a){
            $locTextRecord[] = $a;
        }
    } else {
        echo "loc匹配失敗!<br>";
    }
    //var_dump($locTextRecord);
     
    foreach($locTextRecord as $everyLoc){
        $htmlTest = file_get_contents($everyLoc);

        //$aim = 'https://baidu.com?srcid%3D1000%26id%3D10034_5467_%E5%8C%97%E4%BA%AC';
        $aim = '搬家';
        if(strpos($htmlTest, $aim)) {
            $record[] = $everyLoc;
        } else {
            echo "aim匹配失敗!<br>";
        }
    }
    //$record = array_unique($record);
    foreach($record as $r){
        var_dump($r);   //利用 var_dump 來查看變量類型,可以調(diào)試和直接在網(wǎng)頁上復制用禀综。
    }
?>

注意:
preg_match()的第三個參數(shù):如果提供了參數(shù)matches简烘,它將被填充為搜索結(jié)果苔严。 $matches[0]將包含完整模式匹配到的文本, $matches[1] 將包含第一個捕獲子組匹配到的文本孤澎,以此類推届氢。
preg_match_all()的第三個參數(shù):多維數(shù)組,作為輸出參數(shù)輸出所有匹配結(jié)果, 數(shù)組排序通過flags指定亥至。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末悼沈,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子姐扮,更是在濱河造成了極大的恐慌絮供,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件茶敏,死亡現(xiàn)場離奇詭異壤靶,居然都是意外死亡,警方通過查閱死者的電腦和手機惊搏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門贮乳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人恬惯,你說我怎么就攤上這事向拆。” “怎么了酪耳?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵浓恳,是天一觀的道長。 經(jīng)常有香客問我碗暗,道長颈将,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任言疗,我火速辦了婚禮晴圾,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘噪奄。我一直安慰自己死姚,他們只是感情好,可當我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布勤篮。 她就那樣靜靜地躺著都毒,像睡著了一般。 火紅的嫁衣襯著肌膚如雪叙谨。 梳的紋絲不亂的頭發(fā)上温鸽,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天,我揣著相機與錄音,去河邊找鬼涤垫。 笑死姑尺,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的蝠猬。 我是一名探鬼主播切蟋,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼榆芦!你這毒婦竟也來了柄粹?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤匆绣,失蹤者是張志新(化名)和其女友劉穎驻右,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體崎淳,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡堪夭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了拣凹。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片森爽。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖嚣镜,靈堂內(nèi)的尸體忽然破棺而出爬迟,到底是詐尸還是另有隱情,我是刑警寧澤菊匿,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布付呕,位于F島的核電站,受9級特大地震影響捧请,放射性物質(zhì)發(fā)生泄漏凡涩。R本人自食惡果不足惜棒搜,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一疹蛉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧力麸,春花似錦可款、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至埃叭,卻和暖如春摸恍,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工立镶, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留壁袄,地道東北人。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓媚媒,卻偏偏與公主長得像嗜逻,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子缭召,可洞房花燭夜當晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 一栈顷、php可以做什么 php是一種可以在服務器端運行的編程語言,可以運行在Web服務器端嵌巷。 php是一門后臺編程語...
    空谷悠閱讀 3,086評論 4 97
  • 一萄凤、數(shù)組 1、數(shù)組定義 數(shù)組就是一個鍵值對組成的語言結(jié)構(gòu)搪哪,鍵類似于酒店的房間號蛙卤,值類似于酒店房間里存儲的東西。 $...
    空谷悠閱讀 804評論 4 11
  • ¥開啟¥ 【iAPP實現(xiàn)進入界面執(zhí)行逐一顯】 〖2017-08-25 15:22:14〗 《//首先開一個線程噩死,因...
    小菜c閱讀 6,358評論 0 17
  • 一颤难、會話控制(session與cookie) 1.cookie簡介 Cookie是存儲在客戶端瀏覽器中的數(shù)據(jù),我們...
    空谷悠閱讀 617評論 0 5
  • PHP 算數(shù)運算符 ";echo ($a-$b)." ";echo ($a*$b)." ";echo ($a/$b...
    久久歸移閱讀 500評論 0 0