PHP處理文本和爬蟲技巧

用 php 處理注意棚唆，explode()拆分字符串旱函，返回給一個變量便是將拆分出的東西依次存進這個變量资厉，返回給一個list(變量1王污，變量2罢吃，……)則是將拆分出的東西分別存到變量1，變量2昭齐，……尿招。
結(jié)合 array_fliter() 過濾的時候，如果不給回調(diào)函數(shù)過濾不干凈的時候阱驾，可以在增加過濾回調(diào)函數(shù)就谜，排除 "\r\n" 和原本的 FALSE（不寫過濾回調(diào)函數(shù)的時候默認就是這個FALSE）。
調(diào)試可用file_put_contents("/home/search/result", var_export(['time'=> date('Y-m-d H:i:s'),'res'=>$result], true)."\n", FILE_APPEND);

<?php
    $file=fopen("mission2.txt","r") or exit("Unable to open file!");
    $fileCity=fopen("city2.txt","r") or exit("Unable to open file!");
    $arr = [];  //用不用都行
    // 讀取文件每一行啊易，直到文件結(jié)尾
    while(!feof($file))
    {
        //echo fgets($file). "<br>";
        $arr[] = fgets($file);
    }
    while(!feof($fileCity))
    {
        $city[] = fgets($fileCity);
    }
    //print_r($arr);
    
    foreach($arr as $a){
        list($term[]) = explode("   ",$a);
    }
    echo '<br>';
    print_r($term);
    echo '<br>';
    
    $city = array_filter($city);
    
    print_r($city);
    
    function gl($gg){
        if($gg == "\r\n" or $gg == FALSE)   //要用\r\n這個才能過濾掉某些windows里面的換行吁伺，還需要加上默認的FALSE饮睬，不然也可能濾不干凈
            return 0;
        else
            return 1;
    }
    
    foreach($city as $c){                   
        $cityAlone[] = array_filter(explode("\t",$c),"gl");   //array_filter不使用第二個參數(shù)回調(diào)函數(shù)的話默認是過濾FALSE
    }
        
    echo '<br>';
    echo '<pre>';
    print_r($cityAlone);
    echo '</pre>';
    echo '<br>';
    print_r(array_filter($cityAlone[0]));
        
    foreach($term as $key=>$te){
        foreach(array_filter($cityAlone[$key]) as $ci){
            echo $ci.$te.'<br>';    
        }   
    }
    
    fclose($fileCity);
    fclose($file);
?>

<?php
    ini_set('memory_limit', '512M');
    $fileLeimu = fopen("leimu.txt","r") or exit("Unable to open file!");
    $fileCity = fopen("city.txt","r") or exit("Unable to open file!");
    $fileZaci1 = fopen("zaci1.txt","r") or exit("Unable to open file!");
    
    while(!feof($fileLeimu))
    {
        $leimu[] = fgets($fileLeimu);
    }
    while(!feof($fileCity))
    {
        $city[] = fgets($fileCity);
    }
    while(!feof($fileZaci1))
    {
        $zaci1[] = fgets($fileZaci1);
    }
    
    function gl($gg){
        if($gg == "\r\n" or $gg == FALSE)   //要用\r\n這個才能過濾掉某些windows里面的換行租谈，還需要加上默認的FALSE，不然也可能濾不干凈
            return 0;
        else
            return 1;
    }
    
    
    $leimu = array_filter($leimu,"gl");
    $city = array_filter($city,"gl");
    $zaci1 = array_filter($zaci1,"gl");
    $zaci2 = ['上門','找'];
    
    $leimu = array_unique($leimu); //去重
    $city = array_unique($city);  
    
    $leimu = str_replace(array("\r\n", "\r", "\n"), "", $leimu);   //去掉每個字符串元素末尾的換行
    $city = str_replace(array("\r\n", "\r", "\n"), "", $city);
    $zaci1 = str_replace(array("\r\n", "\r", "\n"), "", $zaci1);
    
    // echo '<pre>';
    // print_r($zaci2);
    // print_r($leimu);
    // print_r($city);
    // print_r($zaci1);
    // echo '</pre>';

/*  
    foreach($city as $c){
        foreach($leimu as $l){
            foreach($zaci1 as $zOne){
                $combRes[] = $c.$l.$zOne;
            }
        }
    }
    
    foreach($city as $c){
        foreach($leimu as $l){
            foreach($zaci2 as $zTwo){
                $combRes[] = $c.$zTwo.$l;
            }
        }
    }
    
    foreach($city as $c){
        foreach($leimu as $l){
            $combRes[] = $c.$l;
        }
    }
*/
    foreach($leimu as $l){
        foreach($zaci1 as $zOne){
            $combRes[] = $l.$zOne;
        }
    }

    foreach($zaci2 as $zTwo){
        foreach($leimu as $l){
            $combRes[] = $zTwo.$l;
        }
    }
    
    foreach($leimu as $l){
        $combRes[] = $l;
    }
    
    $combRes = implode("\r\n", $combRes);  //想要打印到txt中捆愁，能有換行的效果割去，需要添加這個
    file_put_contents("456.txt",$combRes);
    // echo gettype($combRes);
    echo '<pre>';
    print_r($combRes);
    echo '</pre>';
    
    fclose($fileLeimu);
    fclose($fileCity);
    fclose($fileZaci1);

獲取頁面某標簽中的內(nèi)容，若是能借助下載simplehtmldom類打開操作的話昼丑，dom方便呻逆。若打不開，則用file_get_contents或者curl（網(wǎng)上說效率更高）菩帝，讀取全文內(nèi)容咖城，然后用正則匹配來做。

<?php
    require_once "../classes/simplehtmldom_1_5/simple_html_dom.php";
    $mainHtml = 'http://***/index.xml';
    //$mainHtml ='http://***/20161222-0.xml';  //為何沒法用file_get_html打開呼奢？ 
    $html = file_get_html($mainHtml);   //創(chuàng)建一個DOM
    foreach($html->find('loc') as $loc){
        $locTextRecord[] = $loc->plaintext;
    }
     
     // $htmltest = file_get_contents($locTextRecord[4]);
     
    foreach($locTextRecord as $everyLoc){
        $htmltest = file_get_contents($everyLoc);
     
        $reg = '/\<catg\>(.*?)\<\/catg\>/is';
        if(preg_match_all($reg, $htmltest, $arr)) {
            foreach($arr[1] as $a){
                
                $record[] = $a;
            }
        } else {
            echo "匹配失敗!<br>";
        }
    }
    $record = array_unique($record);
    foreach($record as $r){
        var_dump($r);   //利用 var_dump 來查看變量類型宜雀，可以調(diào)試和直接在網(wǎng)頁上復制用。
    }
    $html->clear();
?>

一個主xml下含很多<loc>子標簽握础，在所有xml中辐董，查找某個字符串：

<?php
    $mainHtml = file_get_contents('http://***/tp_index.xml');
    $reg = '/\<loc\>(.*?)\<\/loc\>/is';
    if(preg_match_all($reg, $mainHtml, $arr)) {
        foreach($arr[1] as $a){
            $locTextRecord[] = $a;
        }
    } else {
        echo "loc匹配失敗!<br>";
    }
    //var_dump($locTextRecord);
     
    foreach($locTextRecord as $everyLoc){
        $htmlTest = file_get_contents($everyLoc);

        //$aim = 'https://baidu.com?srcid%3D1000%26id%3D10034_5467_%E5%8C%97%E4%BA%AC';
        $aim = '搬家';
        if(strpos($htmlTest, $aim)) {
            $record[] = $everyLoc;
        } else {
            echo "aim匹配失敗!<br>";
        }
    }
    //$record = array_unique($record);
    foreach($record as $r){
        var_dump($r);   //利用 var_dump 來查看變量類型，可以調(diào)試和直接在網(wǎng)頁上復制用禀综。
    }
?>

注意：
preg_match()的第三個參數(shù)：如果提供了參數(shù)matches简烘，它將被填充為搜索結(jié)果苔严。 $matches[0]將包含完整模式匹配到的文本， $matches[1] 將包含第一個捕獲子組匹配到的文本孤澎，以此類推届氢。
preg_match_all()的第三個參數(shù)：多維數(shù)組，作為輸出參數(shù)輸出所有匹配結(jié)果, 數(shù)組排序通過flags指定亥至。

最后編輯于：2017.12.05 05:42:28

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末悼沈，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子姐扮，更是在濱河造成了極大的恐慌絮供，老刑警劉巖，帶你破解...
沈念sama閱讀 206,723評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件茶敏，死亡現(xiàn)場離奇詭異壤靶，居然都是意外死亡，警方通過查閱死者的電腦和手機惊搏，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,485評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門贮乳，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人恬惯，你說我怎么就攤上這事向拆。” “怎么了酪耳？”我有些...
開封第一講書人閱讀 152,998評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵浓恳，是天一觀的道長。經(jīng)常有香客問我碗暗，道長颈将，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,323評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任言疗，我火速辦了婚禮晴圾，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘噪奄。我一直安慰自己死姚，他們只是感情好，可當我...
茶點故事閱讀 64,355評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布勤篮。她就那樣靜靜地躺著都毒，像睡著了一般。火紅的嫁衣襯著肌膚如雪叙谨。梳的紋絲不亂的頭發(fā)上温鸽，一...
開封第一講書人閱讀 49,079評論 1贊 285
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼涤垫。笑死姑尺，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的蝠猬。我是一名探鬼主播切蟋，決...
沈念sama閱讀 38,389評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼榆芦！你這毒婦竟也來了柄粹？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,019評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤匆绣，失蹤者是張志新（化名）和其女友劉穎驻右，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體崎淳，經(jīng)...
沈念sama閱讀 43,519評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡堪夭，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,971評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了拣凹。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片森爽。...
茶點故事閱讀 38,100評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖嚣镜，靈堂內(nèi)的尸體忽然破棺而出爬迟，到底是詐尸還是另有隱情，我是刑警寧澤菊匿，帶...
沈念sama閱讀 33,738評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布付呕，位于F島的核電站，受9級特大地震影響捧请，放射性物質(zhì)發(fā)生泄漏凡涩。R本人自食惡果不足惜棒搜，卻給世界環(huán)境...
茶點故事閱讀 39,293評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一疹蛉、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧力麸，春花似錦可款、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,289評論 0贊 19
一樁弒父案闺鲸，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至埃叭，卻和暖如春摸恍，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,517評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工立镶，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留壁袄，地道東北人。一個月前我還...
沈念sama閱讀 45,547評論 2贊 354
代替公主和親
正文我出身青樓媚媒，卻偏偏與公主長得像嗜逻，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子缭召，可洞房花燭夜當晚...
茶點故事閱讀 42,834評論 2贊 345

PHP處理文本和爬蟲技巧

推薦閱讀更多精彩內(nèi)容