過(guò)去我們爬取內(nèi)容都講究性能要好缠俺、爬取要精準(zhǔn)显晶、效率要高,但這其實(shí)背離了通用人工智能的路線壹士,有時(shí)候我們寧愿犧牲掉計(jì)算成本磷雇,設(shè)計(jì)一個(gè)可以進(jìn)化的人工智能抓取(閱讀)躏救。
首先唯笙,我們來(lái)看一下各大市場(chǎng)對(duì)于應(yīng)用描述的態(tài)度:
在經(jīng)過(guò)識(shí)別后我們發(fā)現(xiàn)了以下特征:
并非所有都包含應(yīng)用介紹小標(biāo)題螟蒸、大多數(shù)采用折疊、不同市場(chǎng)不一樣崩掘、目前版本都在選宣介圖之下……
從通用角度七嫌,我們需要進(jìn)行第一次嘗試,產(chǎn)生思維記憶:
抓取宣介圖圖片下方段落文字苞慢,在屏幕可滑動(dòng)區(qū)域[top诵原,bottom]內(nèi),圖片bottom以下:
若出現(xiàn)"應(yīng)用介紹"則下一段文字即是介紹挽放,單機(jī)后展開(kāi)即可绍赛。
若無(wú)小標(biāo)題,直接點(diǎn)擊圖片選介下辑畦,包含展開(kāi)吗蚌、更多字眼的可點(diǎn)擊區(qū)域,獲取當(dāng)前屏幕顯示最長(zhǎng)text航闺。
--------工具化實(shí)現(xiàn)褪测,下一步機(jī)器學(xué)習(xí)化改造
機(jī)器學(xué)習(xí)改造的兩個(gè)方向:
一猴誊、基于前后變化和關(guān)聯(lián)性的理解
對(duì)比折疊前的文本和折疊打開(kāi)后的長(zhǎng)文本潦刃,進(jìn)行文本重合度理解,并加入進(jìn)入頁(yè)面前點(diǎn)擊入口text及當(dāng)前頁(yè)面title
二懈叹、基于歷史經(jīng)驗(yàn)變化的關(guān)聯(lián)性理解
在有固定路徑后乖杠,對(duì)全文本提取的描述和過(guò)去版本提取的描述進(jìn)行特征詞、關(guān)鍵詞匹配澄成,確定相似度胧洒,超過(guò)閾值則讀取為新版描述,當(dāng)確認(rèn)后提取描述全特征墨状,比如位置卫漫、寬高,校驗(yàn)x%完成之后生成最優(yōu)讀取方案進(jìn)行爬取肾砂。
綜上:加大機(jī)器閱讀量列赎,加大模糊匹配,以概率為智能評(píng)測(cè)基準(zhǔn)镐确,對(duì)變化進(jìn)行重分戲確定最短路徑包吝。
機(jī)器學(xué)習(xí)記錄工具化重復(fù)工作的操作環(huán)境屬性,比如滑動(dòng)多少源葫,點(diǎn)擊位置诗越,獲取文本長(zhǎng)度等等,最終找出規(guī)律息堂,邊寫工具2與工具1執(zhí)行同樣指令驗(yàn)收結(jié)果嚷狞,當(dāng)驗(yàn)收結(jié)果與工具1高度一直且性能更高,則使用工具2替換工具1,往復(fù)循環(huán)直至最優(yōu)解出現(xiàn)床未。
--------機(jī)器學(xué)習(xí)化完成褂乍,通用智能化改造
通用智能化改造要像機(jī)器學(xué)習(xí)化一樣,將上一代產(chǎn)生的優(yōu)秀結(jié)果當(dāng)做自己的工具即硼。從溝通指令:幫我收集一下各大市場(chǎng)競(jìng)品的描述信息逃片。
在理解這一塊時(shí),可以當(dāng)做和4歲小孩子對(duì)話只酥。幫褥实、我、收集裂允、一下损离、各大、市場(chǎng)绝编、競(jìng)品僻澎、的、描述十饥、信息窟勃。
一和二階段改造,工具已經(jīng)具備了描述的特征逗堵;收集的方法秉氧。智能對(duì)"各大""的理解可能是top5-top10;市場(chǎng)影射太泛蜒秤,你將圖形icon指給他看汁咏,產(chǎn)生市場(chǎng)和應(yīng)用市場(chǎng)和圖標(biāo)的關(guān)聯(lián)等等。
這時(shí)候我們重新審視工具化階段作媚,我們其實(shí)是用編程語(yǔ)言教會(huì)了智能掌握了某項(xiàng)技能攘滩,通過(guò)技能機(jī)器學(xué)習(xí)模塊優(yōu)化,他變成了一個(gè)熟練工纸泡,接著通過(guò)對(duì)語(yǔ)義的理解漂问,智能會(huì)像鄰居家4歲小孩一樣問(wèn)你:競(jìng)品是什么意思?我不太明白弟灼。
這時(shí)候你就要"教會(huì)"智能理解什么是競(jìng)品级解,當(dāng)我們抽象化我們周遭的事物,我們最終會(huì)發(fā)現(xiàn)田绑,信息的聯(lián)系構(gòu)成了我們對(duì)事物的理解勤哗,而過(guò)去一段時(shí)間的記憶沉積為經(jīng)驗(yàn),伴隨我們未來(lái)一段時(shí)間的做事方式掩驱,以聯(lián)系(智能)使用技能(深度學(xué)習(xí))操作工具(工具化)芒划,將是未來(lái)5年非大數(shù)據(jù)智能化的普遍方向冬竟。
--------源碼待優(yōu)化后放出