PuppeteerSharp庫在C#中的應(yīng)用案例

億牛云IP (2).png

引言
PuppeteerSharp是一個(gè)針對(duì)Google Chrome瀏覽器的高級(jí)API庫辐棒,它允許我們使用C#來控制Chrome瀏覽器的吕晌,比如模擬用戶行為操作、爬取網(wǎng)頁內(nèi)容等吮成。本文將介紹如何使用PuppeteerSharp庫在C#中實(shí)現(xiàn)下載千圖網(wǎng)圖片并保存為PDF文件的案例逼裆。
PuppeteerSharp技術(shù)
PuppeteerSharp 提供了一系列豐富的功能郁稍,包括但不限于:
● 模擬用戶操作:可以模擬用戶在瀏覽器中的點(diǎn)擊、輸入等操作胜宇。
● 爬取網(wǎng)頁內(nèi)容:可以獲取網(wǎng)頁的HTML耀怜、截圖等信息。
● 生成PDF文件:可以將網(wǎng)頁內(nèi)容保存為PDF文件桐愉。
項(xiàng)目需求
我們的項(xiàng)目需求是從千圖網(wǎng)上爬取圖片财破,把這些圖片保存為PDF文件。為了實(shí)現(xiàn)這個(gè)目標(biāo)从诲,我們將使用PuppeteerSharp庫來模擬瀏覽器行為左痢,從網(wǎng)頁中獲取圖片,把這些圖片保存為PDF文件系洛。
抓取思路分析

  1. 分析頁面請(qǐng)求:使用Chrome開發(fā)者工具或類似工具分析千圖網(wǎng)的頁面請(qǐng)求俊性,找到圖片數(shù)據(jù)的來源。
  2. 找到數(shù)據(jù)來源:確定圖片數(shù)據(jù)是通過接口獲取還是直接嵌入在頁面中碎罚。
  3. 分析接口規(guī)律:如果圖片數(shù)據(jù)是通過接口獲取的磅废,分析接口的規(guī)律,包括請(qǐng)求方式荆烈、參數(shù)等。
  4. 獲取接口數(shù)據(jù):使用PuppeteerSharp庫模擬請(qǐng)求接口,獲取圖片數(shù)據(jù)憔购。
  5. 過濾處理數(shù)據(jù):對(duì)獲取的圖像數(shù)據(jù)進(jìn)行過濾和處理宫峦,提取出需要的圖像信息。
    完整的爬取過程:
// 使用 PuppeteerSharp 庫進(jìn)行爬取和保存為 PDF 的代碼示例
using PuppeteerSharp;
using System;
using System.IO;
using System.Threading.Tasks;

class Program
{
    static async Task Main(string[] args)
    {
        var proxy = new ProxyOptions
        {
            Server = "www.16yun.cn",
            Port = 5445,
            Username = "16QMSOML",
            Password = "280651"
        };

        await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultRevision);
        using var browser = await Puppeteer.LaunchAsync(new LaunchOptions
        {
            Headless = true,
            Args = new[] { $"--proxy-server=http://{proxy.Server}:{proxy.Port}", $"--proxy-auth={proxy.Username}:{proxy.Password}" }
        });
        var page = await browser.NewPageAsync();
        await page.GoToAsync("https://www.example.com");

        // 獲取圖片數(shù)據(jù)并保存為PDF的代碼邏輯
        // ...

        await browser.CloseAsync();
    }
}

以上是一個(gè)簡單的使用PuppeteerSharp庫的示例玫鸟,其中包含了創(chuàng)建瀏覽器實(shí)例导绷、打開頁面等基本操作。在實(shí)際項(xiàng)目中屎飘,我們需要根據(jù)具體的需求和網(wǎng)站結(jié)構(gòu)來編寫更復(fù)雜的爬取和保存邏輯妥曲。
如何解析抓取來的內(nèi)容
當(dāng)解析來的內(nèi)容時(shí),我們可以使用C#中的Json.NET庫或者內(nèi)置的System.Text.Json庫來處理JSON格式的數(shù)據(jù)钦购。以下是一個(gè)簡單的代碼檐盟,演示了如何使用Json.NET庫來解析JSON格式的數(shù)據(jù):

using Newtonsoft.Json;
using System;

public class ImageData
{
    public string Url { get; set; }
    public string Description { get; set;
}

class Program
{
    static void Main()
    {
        string jsonData = @"{
            'url': 'https://example.com/image1.jpg',
            'description': 'Beautiful landscape'
        }";

        ImageData imageData = JsonConvert.DeserializeObject<ImageData>(jsonData);

        Console.WriteLine("Image URL: " + imageData.Url);
        Console.WriteLine("Description: " + imageData.Description);
    }
}

如何保存到PDF
PuppeteerSharp庫提供了生成PDF的功能,我們可以使用它來將獲取到的圖片保存為PDF文件押桃。首先葵萎,我們需要?jiǎng)?chuàng)建一個(gè)新的工具實(shí)例,然后打開一個(gè)瀏覽新的頁面唱凯,將圖片插入到頁面中羡忘,并使用PuppeteerSharp提供的API來生成PDF文件。

using PuppeteerSharp;
using System;
using System.Threading.Tasks;

class Program
{
    static async Task Main(string[] args)
    {
        await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultRevision);
        using var browser = await Puppeteer.LaunchAsync(new LaunchOptions
        {
            Headless = true
        });
        var page = await browser.NewPageAsync();
        await page.GoToAsync("https://www.example.com");

        // 將圖片插入到頁面中
        // ...

        // 使用PuppeteerSharp提供的API生成PDF文件
        await page.PdfAsync("output.pdf");

        await browser.CloseAsync();
    }
}

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末磕昼,一起剝皮案震驚了整個(gè)濱河市卷雕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌票从,老刑警劉巖漫雕,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異纫骑,居然都是意外死亡蝎亚,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門先馆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來发框,“玉大人,你說我怎么就攤上這事煤墙∶饭撸” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵仿野,是天一觀的道長铣减。 經(jīng)常有香客問我,道長脚作,這世上最難降的妖魔是什么葫哗? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任缔刹,我火速辦了婚禮,結(jié)果婚禮上劣针,老公的妹妹穿的比我還像新娘校镐。我一直安慰自己,他們只是感情好捺典,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布鸟廓。 她就那樣靜靜地躺著,像睡著了一般襟己。 火紅的嫁衣襯著肌膚如雪引谜。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天擎浴,我揣著相機(jī)與錄音员咽,去河邊找鬼。 笑死退客,一個(gè)胖子當(dāng)著我的面吹牛骏融,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播萌狂,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼档玻,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了茫藏?” 一聲冷哼從身側(cè)響起误趴,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎务傲,沒想到半個(gè)月后凉当,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡售葡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年看杭,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片挟伙。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡楼雹,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出尖阔,到底是詐尸還是另有隱情贮缅,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布介却,位于F島的核電站谴供,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏齿坷。R本人自食惡果不足惜桂肌,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一数焊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧轴或,春花似錦昌跌、人聲如沸仰禀。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽答恶。三九已至饺蚊,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間悬嗓,已是汗流浹背污呼。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留包竹,地道東北人燕酷。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像周瞎,于是被迫代替她去往敵國和親苗缩。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容