正則表達式

1.1 什么是正則表達式
正則表達式是一種特殊的字符串模式，用于匹配一組字符串，就好比用模具做產(chǎn)品，而正則就是這個模具退疫，定義一種規(guī)則去匹配符合規(guī)則的字符。

1.2 元字符介紹
"^" ：^會匹配行或者字符串的起始位置鸽素，有時還會匹配整個文檔的起始位置褒繁。

" $" ：$ 會匹配行或字符串的結(jié)尾

"\b" :不會消耗任何字符只匹配一個位置，常用于匹配單詞邊界如我想從字符串中"This is Regex"匹配單獨的單詞 "is" 正則就要寫成 "\bis\b"
\b 不會匹配is 兩邊的字符馍忽，但它會識別is 兩邊是否為單詞的邊界

"\d": 匹配數(shù)字棒坏，例如要匹配一個固定格式的電話號碼以0開頭前4位后7位，如0737-5686123 正則:^0\d\d\d-\d\d\d\d\d\d\d$ 這里只是為了介紹"\d"字符遭笋，實際上有更好的寫法會在下面介紹坝冕。

"\w"：匹配字母，數(shù)字瓦呼，下劃線.
　　例如我要匹配"a2345BCD__TTz" 正則："\w+" 這里的"+"字符為一個量詞指重復(fù)的次數(shù)喂窟，稍后會詳細介紹。

"\s"：匹配空格
　　例如字符 "a b c" 正則："\w\s\w\s\w" 一個字符后跟一個空格央串，如有字符間有多個空格直接把"\s" 寫成 "\s+" 讓空格重復(fù)

"."：匹配除了換行符以外的任何字符
　　這個算是"\w"的加強版了"\w"不能匹配空格如果把字符串加上空格用"\w"就受限了磨澡，看下用 "."是如何匹配字符"a23 4 5 B C D__TTz" 正則：".+"

"[abc]": 字符組匹配包含括號內(nèi)元素的字符
這個比較簡單了只匹配括號內(nèi)存在的字符，還可以寫成[a-z]匹配a至z的所以字母就等于可以用來控制只能輸入英文了质和。

1.3幾種反義
寫法很簡單改成大寫就行了稳摄，意思與原來的相反，這里就不舉例子了

"\W" 匹配任意不是字母侦另，數(shù)字秩命，下劃線的字符

"\S" 匹配任意不是空白符的字符

"\D" 匹配任意非數(shù)字的字符

"\B" 匹配不是單詞開頭或結(jié)束的位置

"[^abc]" 匹配除了abc以外的任意字符

1.4 量詞

先解釋關(guān)于量詞所涉及到的重要的三個概念

貪婪(貪心) 如"*"字符貪婪量詞會首先匹配整個字符串尉共，嘗試匹配時褒傅，它會選定盡可能多的內(nèi)容弃锐，如果失敗則回退一個字符，然后再次嘗試回退的過程就叫做回溯殿托，它會每次回退一個字符霹菊，直到找到匹配的內(nèi)容或者沒有字符可以回退。相比下面兩種貪婪量詞對資源的消耗是最大的支竹。
懶惰(勉強) 如 "?" 懶惰量詞使用另一種方式匹配旋廷，它從目標的起始位置開始嘗試匹配，每次檢查一個字符礼搁，并尋找它要匹配的內(nèi)容饶碘，如此循環(huán)直到字符結(jié)尾處。
占有如"+" 占有量詞會覆蓋事個目標字符串馒吴，然后嘗試尋找匹配內(nèi)容扎运，但它只嘗試一次，不會回溯饮戳，就好比先抓一把石頭豪治，然后從石頭中挑出黃金

** ""(貪婪) 重復(fù)零次或更多 **
例如"aaaaaaaa" 匹配字符串中所有的a 正則： "a" 會出到所有的字符"a"

** "+"(懶惰) 重復(fù)一次或更多次 **
例如"aaaaaaaa" 匹配字符串中所有的a 正則： "a+" 會取到字符中所有的a字符， "a+"與"a"不同在于"+"至少是一次而"" 可以是0次扯罐，稍后會與"?"字符結(jié)合來體現(xiàn)這種區(qū)別

** "?"(占有) 重復(fù)零次或一次 **
例如"aaaaaaaa" 匹配字符串中的a 正則： "a?" 只會匹配一次负拟，也就是結(jié)果只是單個字符a

** "{n}" 重復(fù)n次 **
例如從"aaaaaaaa" 匹配字符串的a 并重復(fù)3次正則： "a{3}" 結(jié)果就是取到3個a字符 "aaa";

** "{n,m}" 重復(fù)n到m次 **
例如正則 "a{3,4}" 將a重復(fù)匹配3次或者4次所以供匹配的字符可以是三個"aaa"也可以是四個"aaaa" 正則都可以匹配到

** "{n,}" 重復(fù)n次或更多次 **
與{n,m}不同之處就在于匹配的次數(shù)將沒有上限，但至少要重復(fù)n次如正則"a{3,}" a至少要重復(fù)3次

把量詞了解了之后之前匹配電話號碼的正則現(xiàn)在就可以改得簡單點了^0\d\d\d-\d\d\d\d\d\d\d可以改為"0\d+?\d7可以改為"0\d+?\d7"歹河。

這樣寫還不夠完美如果因為前面的區(qū)號沒有做限定掩浙，以至于可以輸入很多們，而通常只能是3位或者4位秸歧，

現(xiàn)在再改一下 "^0\d{2,3}-\d{7}"如此一來區(qū)號部分就可以匹配3位或者4位的了

1.5 懶惰限定符

** "?" 重復(fù)任意次厨姚，但盡可能少重復(fù) **
如 "acbacb" 正則 "a.?b" 只會取到第一個"acb" 原本可以全部取到但加了限定符后，只會匹配盡可能少的字符寥茫，而"acbacb"最少字符的結(jié)果就是"acb"

** "+?" 重復(fù)1次或更多次遣蚀，但盡可能少重復(fù) **
與上面一樣，只是至少要重復(fù)1次

** "??" 重復(fù)0次或1次纱耻，但盡可能少重復(fù) **
如 "aaacb" 正則 "a.??b" 只會取到最后的三個字符"acb"

** "{n,m}?" 重復(fù)n到m次芭梯，但盡可能少重復(fù) **

如 "aaaaaaaa" 正則 "a{0,m}" 因為最少是0次所以取到結(jié)果為空

** "{n,}?" 重復(fù)n次以上，但盡可能少重復(fù) **

如 "aaaaaaa" 正則 "a{1,}" 最少是1次所以取到結(jié)果為 "a"

1.6 捕獲分組
先了解在正則中捕獲分組的概念弄喘，其實就是一個括號內(nèi)的內(nèi)容如 "(\d)\d" 而"(\d)" 這就是一個捕獲分組玖喘，可以對捕獲分組進行后向引用 (如果后而有相同的內(nèi)容則可以直接引用前面定義的捕獲組，以簡化表達式) 如(\d)\d\1 這里的"\1"就是對"(\d)"的后向引用蘑志。

那捕獲分組有什么用呢看個例子就知道了累奈。

如 "zery zery" 正則 \b(\w+)\b\s\1\b 所以這里的"\1"所捕獲到的字符也是與(\w+)一樣的"zery"贬派，為了讓組名更有意義，組名是可以自定義名字的澎媒。

"\b(?<name>\w+)\b\s\k<name>\b" 用"?<name>"就可以自定義組名了而要后向引用組時要記得寫成 "\k<name>";自定義組名后,捕獲組中匹配到的值就會保存在定義的組名里搞乏。

下面列出捕獲分組常有的用法：
"(exp)" 匹配exp,并捕獲文本到自動命名的組里

"(?<name>exp)" 匹配exp,并捕獲文本到名稱為name的組里

"(?:exp)" 匹配exp,不捕獲匹配的文本，也不給此分組分配組號

以下為零寬斷言

"(?=exp)" 匹配exp前面的位置
如 "How are you doing" 正則"(?<txt>.+(?=ing))" 這里取ing前所有的字符戒努，并定義了一個捕獲分組名字為 "txt" 而"txt"這個組里的值為"How are you do";

"(?<=exp)" 匹配exp后面的位置
如 "How are you doing" 正則"(?<txt>(?<=How).+)" 這里取"How"之后所有的字符请敦，并定義了一個捕獲分組名字為 "txt" 而"txt"這個組里的值為" are you doing";

"(?!exp)" 匹配后面跟的不是exp的位置
如 "123abc" 正則 "\d{3}(?!\d)"匹配3位數(shù)字后非數(shù)字的結(jié)果

"(?<!exp)" 匹配前面不是exp的位置
如 "abc123 " 正則 "(?<![0-9])123" 匹配"123"前面是非數(shù)字的結(jié)果也可寫成"(?!<\d)123"

正則實戰(zhàn)

正則在做驗證，與數(shù)據(jù)過濾時體現(xiàn)的威力是巨大的储玫，我想用過的朋友都知道撒穷，下面我們把剛剛了解的全部結(jié)合起來做一次實戰(zhàn) 做數(shù)據(jù)采集用正則過濾Html標簽并取相應(yīng)的數(shù)據(jù)

我們的戰(zhàn)場就選在博客園吧端礼，假設(shè)現(xiàn)在要采集博客園首頁的所有文章信息包括文章標題蒲每，鏈接接作者博客地址邀杏，文章簡介，文章發(fā)布時間脖律，閱讀數(shù)據(jù)，評論數(shù) 微姊，推薦數(shù)。

先看博客園文章的Html格式

<div class="post_item">
<div class="digg">
    <div class="diggit" onclick="DiggIt(3439076,120879,1)"> 
    <span class="diggnum" id="digg_count_3439076">4</span>
    </div>
    <div class="clear"></div>    
    <div id="digg_tip_3439076" class="digg_tip"></div>
</div>      
<div class="post_item_body">
    <h3><a class="titlelnk"  target="_blank">分享完整的項目工程目錄結(jié)構(gòu)</a></h3>                   
    <p class="post_item_summary">
<a  target="_blank">![](http://upload-images.jianshu.io/upload_images/1981856-b5a9e64d6439de23.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)</a>    在項目開發(fā)過程中酪穿，如何有序的保存項目中的各類數(shù)據(jù)文件，建立一個分類清晰净响、方便管理的目錄結(jié)構(gòu)是非常重要的赞别。 綜合以前的項目和一些朋友的項目結(jié)構(gòu)，我整理了一份我覺得還不錯的項目目錄結(jié)構(gòu)崎页。 在這里分享給大家，歡迎各位提出你寶貴的意見和建議。如果喜歡請“推薦”則個，感激萬分ｈ厩！ 整個目錄設(shè)置到4級子目錄，實... 
    </p>              
    <div class="post_item_foot">                    
    <a  class="lightblue">七少爺</a> 
    發(fā)布于 2013-11-23 15:48 
    <span class="article_comment"><a  title="2013-11-23 16:40" class="gray">
        評論(4)</a></span><span class="article_view"><a  class="gray">閱讀(206)</a></span></div>
</div>
<div class="clear"></div>
</div>

通過構(gòu)造一個Http請求來取到數(shù)據(jù)并對數(shù)據(jù)進行相應(yīng)處理得到關(guān)鍵信息间唉，在過濾Html標簽取文章時正則的強大的威力就體現(xiàn)出來了印叁，

正則的知識點也都基本用上了比如 "\s \w+ . * ? "還有捕獲分組昨悼，零寬斷言等等汇竭。喜歡的朋友可以試一試两曼，然后自己看如何通過正則取相應(yīng)數(shù)據(jù)的佛析，代碼中的正則都是很基本簡單的，其意思與用法都在上文中詳細寫了酷誓。

class Program
    {
        static void Main(string[] args)
        {
         
            string content = HttpUtility.HttpGetHtml();
            HttpUtility.GetArticles(content);
        }
    }

    internal class HttpUtility
    {
        //默認獲取第一頁數(shù)據(jù)
        public static string HttpGetHtml()
        {
            HttpWebRequest request = (HttpWebRequest)WebRequest.Create("http://www.cnblogs.com/");
            request.Accept = "text/plain, */*; q=0.01";
            request.Method = "GET";
            request.Headers.Add("Accept-Language", "zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3");
            request.ContentLength = 0;
           
            request.Host = "www.cnblogs.com";
            request.UserAgent = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.1.3.5000 Chrome/26.0.1410.43 Safari/537.1";
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            Stream responStream = response.GetResponseStream();
            StreamReader reader = new StreamReader(responStream, Encoding.UTF8);
            string content = reader.ReadToEnd();
            return content;

        }

        public static List<Article> GetArticles(string htmlString)
        {
            List<Article> articleList = new List<Article>();
            Regex regex = null;
            Article article = null;
            regex = new Regex("<div class=\"post_item\">(?<content>.*?)(?=<div class=\"clear\">" + @"</div>\s*</div>)",
                              RegexOptions.Singleline);

            if (regex.IsMatch(htmlString))
            {
                MatchCollection aritcles = regex.Matches(htmlString);

                foreach (Match item in aritcles)
                {
                    article = new Article();
                    //取推薦
                    regex =
                        new Regex(
                            "<div class=\"digg\">.*<span.*>(?<digNum>.*)" + @"</span>" +
                            ".*<div class=\"post_item_body\">", RegexOptions.Singleline);
                    article.DiggNum = regex.Match(item.Value).Groups["digNum"].Value;

                    //取文章標題 需要去除轉(zhuǎn)義字符
                    regex = new Regex("<h3>(?<a>.*)</h3>", RegexOptions.Singleline);
                    string a = regex.Match(item.Value).Groups["a"].Value;
                    regex = new Regex("<a\\s.*href=\"(?<href>.*?)\".*>(?<summary>.*)</a>", RegexOptions.Singleline);
                    article.AritcleUrl = regex.Match(a).Groups["href"].Value;
                    article.AritcleTitle = regex.Match(a).Groups["summary"].Value;

                    //取作者圖片 
                    regex = new Regex("<a.*>(?<img><img[^>].*>)</a>", RegexOptions.Singleline);
                    article.AuthorImg = regex.Match(item.Value).Groups["img"].Value;

                    //取作者博客URL及鏈接的target屬性
                    regex = new Regex("<a\\s*?href=\"(?<href>.*)\"\\s*?target=\"(?<target>.*?)\">.*</a>",
                                      RegexOptions.Singleline);
                    article.AuthorUrl = regex.Match(item.Value).Groups["href"].Value;
                    string urlTarget = regex.Match(item.Value).Groups["target"].Value;

                    //取文章簡介
                    //1 先取summary Div中所有內(nèi)容
                    regex = new Regex("<p class=\"post_item_summary\">(?<summary>.*)</p>", RegexOptions.Singleline);
                    string summary = regex.Match(item.Value).Groups["summary"].Value;
                    //2 取簡介
                    regex = new Regex("(?<indroduct>(?<=</a>).*)", RegexOptions.Singleline);
                    article.AritcleInto = regex.Match(summary).Groups["indroduct"].Value;


                    //取發(fā)布人與發(fā)布時間
                    regex =
                        new Regex(
                            "<div class=\"post_item_foot\">\\s*<a.*?>(?<publishName>.*)</a>(?<publishTime>.*)<span class=\"article_comment\">",
                            RegexOptions.Singleline);
                    article.Author = regex.Match(item.Value).Groups["publishName"].Value;
                    article.PublishTime = regex.Match(item.Value).Groups["publishTime"].Value.Trim();

                    //取評論數(shù)
                    regex =
                        new Regex(
                            "<span class=\"article_comment\"><a.*>(?<comment>.*)</a></span><span class=\"article_view\">",
                            RegexOptions.Singleline);
                    article.CommentNum = regex.Match(item.Value).Groups["comment"].Value;

                    //取閱讀數(shù)
                    regex = new Regex("<span\\s*class=\"article_view\"><a.*>(?<readNum>.*)</a>", RegexOptions.Singleline);
                    article.ReadNum = regex.Match(item.Value).Groups["readNum"].Value;
                    articleList.Add(article);
                }

            }
            return articleList;
        }



        public static string ClearSpecialTag(string htmlString)
        {

            string htmlStr = Regex.Replace(htmlString, "\n", "", RegexOptions.IgnoreCase);
            htmlStr = Regex.Replace(htmlStr, "\t", "", RegexOptions.IgnoreCase);
            htmlStr = Regex.Replace(htmlStr, "\r", "", RegexOptions.IgnoreCase);
            htmlStr = Regex.Replace(htmlStr, "\"", "'", RegexOptions.IgnoreCase);
            return htmlStr;
        }
    }

    public class Article
    {
        /// <summary>
        /// 文章標題
        /// </summary>
        public string AritcleTitle { get; set; }
        /// <summary>
        /// 文章鏈接
        /// </summary>
        public string AritcleUrl { get; set; }
        /// <summary>
        /// 文章簡介
        /// </summary>
        public string AritcleInto { get; set; }
        /// <summary>
        /// 作者名
        /// </summary>
        public string Author { get; set; }
        /// <summary>
        /// 作者地址
        /// </summary>
        public string AuthorUrl { get; set; }
        /// <summary>
        /// 作者圖片
        /// </summary>
        public string AuthorImg { get; set; }
        /// <summary>
        /// 發(fā)布時間
        /// </summary>
        public string PublishTime { get; set; }
        /// <summary>
        /// 推薦數(shù)
        /// </summary>
        public string DiggNum { get; set; }

        /// <summary>
        /// 評論數(shù)
        /// </summary>
        public string CommentNum { get; set; }
        /// <summary>
        /// 閱讀數(shù)
        /// </summary>
        public string ReadNum { get; set; }

    }

正則部分可能寫得不很完美，但至少也匹配出來了合搅，另外因為自己也是剛接觸正則，也只能寫出這種比較簡單的正則歧蕉。

注：整理轉(zhuǎn)載至http://www.cnblogs.com/China3S/archive/2013/11/30/3451971.html
工具網(wǎng)站http://www.codeyyy.com/regex/index.html

最后編輯于：2018.10.26 20:13:52

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末灾部，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子惯退，更是在濱河造成了極大的恐慌赌髓，老刑警劉巖，帶你破解...
沈念sama閱讀 219,539評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件催跪，死亡現(xiàn)場離奇詭異锁蠕，居然都是意外死亡，警方通過查閱死者的電腦和手機懊蒸，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,594評論 3贊 396
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門荣倾，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人骑丸，你說我怎么就攤上這事舌仍。” “怎么了通危？”我有些...
開封第一講書人閱讀 165,871評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵铸豁，是天一觀的道長。經(jīng)常有香客問我菊碟，道長节芥，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,963評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任逆害，我火速辦了婚禮头镊，結(jié)果婚禮上增炭，老公的妹妹穿的比我還像新娘。我一直安慰自己拧晕，他們只是感情好隙姿，可當我...
茶點故事閱讀 67,984評論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著厂捞，像睡著了一般输玷。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上靡馁，一...
開封第一講書人閱讀 51,763評論 1贊 307
城市分裂傳說
那天欲鹏，我揣著相機與錄音，去河邊找鬼臭墨。笑死赔嚎，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的胧弛。我是一名探鬼主播尤误，決...
沈念sama閱讀 40,468評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼结缚！你這毒婦竟也來了损晤？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,357評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤红竭，失蹤者是張志新（化名）和其女友劉穎尤勋，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體茵宪，經(jīng)...
沈念sama閱讀 45,850評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡最冰，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,002評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了稀火。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片暖哨。...
茶點故事閱讀 40,144評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖憾股，靈堂內(nèi)的尸體忽然破棺而出鹿蜀，到底是詐尸還是另有隱情，我是刑警寧澤服球，帶...
沈念sama閱讀 35,823評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布茴恰，位于F島的核電站，受9級特大地震影響斩熊，放射性物質(zhì)發(fā)生泄漏往枣。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,483評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望分冈。院中可真熱鬧圾另，春花似錦、人聲如沸雕沉。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,026評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽坡椒。三九已至扰路，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間倔叼，已是汗流浹背汗唱。一陣腳步聲響...
開封第一講書人閱讀 33,150評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留丈攒，地道東北人哩罪。一個月前我還...
沈念sama閱讀 48,415評論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長得像巡验，于是被迫代替她去往敵國和親际插。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 45,092評論 2贊 355

正則表達式

正則實戰(zhàn)

推薦閱讀更多精彩內(nèi)容