摘要
百度站長(zhǎng)統(tǒng)計(jì),一個(gè)不錯(cuò)的工具畴蹭。各種信息也能超級(jí)詳細(xì)的被記錄下來(lái)坦仍,可以從下圖上略知一二。但是實(shí)際上其詳細(xì)程度遠(yuǎn)遠(yuǎn)不止如此叨襟。百度統(tǒng)計(jì)支持一級(jí)域名繁扎,以及二級(jí)域名的綁定。所以很方便糊闽。
但也不是對(duì)于所有的服務(wù)器都支持梳玫,比如我沒(méi)有給服務(wù)器綁定域名,所以自然就沒(méi)法用了右犹。但是如果我還想獲得一些訪客的信息提澎,怎么辦呢?
拿我自己來(lái)說(shuō)念链,使用PHP就不賴(lài)盼忌。當(dāng)然了积糯,其他的編程語(yǔ)言也是可以的。不過(guò)需要具體情況具體分析嘛谦纱。我的需求很簡(jiǎn)單看成,那就是記錄一下訪客是使用哪個(gè)操作系統(tǒng),使用的哪個(gè)瀏覽器服协,在什么時(shí)間訪問(wèn)了我的哪些文件绍昂。
嗯,需求就是這樣了偿荷。
header
header就相當(dāng)于一個(gè)身份的標(biāo)識(shí)。我們要查看的話也很簡(jiǎn)單唠椭,最簡(jiǎn)單的方式就是打開(kāi)瀏覽器跳纳,按下F12。調(diào)出開(kāi)發(fā)者工具贪嫂。就可以看到了寺庄。
查看header
模擬header
寫(xiě)過(guò)Python爬蟲(chóng)程序的可能都會(huì)很熟悉啦。而且Python代碼足夠簡(jiǎn)潔力崇,幾行代碼就可以完成一個(gè)簡(jiǎn)單的爬蟲(chóng)程序了斗塘。但是有很多網(wǎng)站會(huì)對(duì)爬蟲(chóng)程序進(jìn)行“特殊照顧”,其中有一個(gè)就是針對(duì)header的處理亮靴。
因此馍盟,簡(jiǎn)單的代碼是不能夠保證一定可以獲取的到服務(wù)器上相關(guān)的資源的蚕脏。這個(gè)時(shí)候就需要讓代碼“偽裝”一下了褥芒。做法呢也比較的簡(jiǎn)單,那就是手動(dòng)的添加一個(gè)頭信息皮获。
比如下面的代碼
#coding:utf8
import urllib2
import sys
headers = {
'Referer':'http://zhjw.dlut.edu.cn/',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'
}
req = urllib2.Request(url=sys.argv[1], headers=headers)
print urllib2.urlopen(req).read()
這就是一個(gè)最簡(jiǎn)單的模擬瀏覽器的“偽裝”爬蟲(chóng)程序了搓侄。作用就是:
簡(jiǎn)單的將URL對(duì)應(yīng)的資源下載下來(lái)瞄桨,并標(biāo)準(zhǔn)顯示(比如屏幕)。
大部分人(尤其是非專(zhuān)業(yè)的)可能不知道讶踪,點(diǎn)擊了瀏覽器上一個(gè)超鏈接芯侥,或者填寫(xiě)了一個(gè)表單背后發(fā)生的故事。其實(shí)在這些簡(jiǎn)單操作的背后蘊(yùn)含著復(fù)雜的智慧乳讥。其中就包含header 在http協(xié)議中不可取代的地位柱查。
個(gè)人覺(jué)得稱(chēng)之為人類(lèi)智慧的結(jié)晶也不為過(guò)。計(jì)算機(jī)本身的發(fā)展雏婶,離不開(kāi)各行各業(yè)的共同進(jìn)步物赶。
php中的使用
剛才的話題有點(diǎn)跑偏了,現(xiàn)在繼續(xù)討論在PHP中對(duì)于Header的獲取吧留晚。我們最需要的就是通過(guò)PHP內(nèi)置的一些超級(jí)變量$_SERVER
來(lái)獲取header中的用戶(hù)代理信息酵紫。
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'
別看這個(gè)值很隨意告嘲,其實(shí)它卻包含了作為客戶(hù)端的你的很多信息。在PHP中使用下面的代碼就可以獲取得到了奖地。
<?php
echo $_SERVER['HTTP_USER_AGENT'];
echo "<br />".$_SERVER ['REMOTE_ADDR'];
?>
運(yùn)行結(jié)果:
IP接口
接口介紹
了解了如何獲取客戶(hù)端的簡(jiǎn)單的這些信息之后橄唬,基本上就可以滿(mǎn)足正常的需求了。但是為了更進(jìn)一步参歹,獲得用戶(hù)的大致的位置仰楚,這里還是需要借助于接口(網(wǎng)上有很多免費(fèi)的接口,可以方便的獲取關(guān)于IP的詳細(xì)的信息)犬庇。這里我暫且使用下面的這個(gè)接口吧僧界。
通過(guò)一個(gè)get請(qǐng)求就可以獲取得到IP對(duì)應(yīng)的信息啦。返回的數(shù)據(jù)時(shí)JSON類(lèi)型的臭挽,大致如下:
PHP訪問(wèn)接口并解析
在PHP中有好多的方法來(lái)訪問(wèn)一個(gè)接口捂襟。我這里大致的介紹兩個(gè)吧,一個(gè)簡(jiǎn)單欢峰,一個(gè)略微復(fù)雜一點(diǎn)葬荷。
簡(jiǎn)易方式
不知道您有沒(méi)有聽(tīng)說(shuō)過(guò)這樣的一個(gè)函數(shù)
string file_get_contents(url)
給個(gè)網(wǎng)址,僅僅需要這樣一個(gè)函數(shù)就可以獲取到數(shù)據(jù)了纽帖。而且是以字符串的形式進(jìn)行返回宠漩。
略繁方式
下面講一個(gè)在PHP中進(jìn)行接口測(cè)試的最為常用,也比較正統(tǒng)一點(diǎn)的curl懊直“怯酰看個(gè)小例子就明白了。
/**
* 根據(jù) 客戶(hù)端IP 獲取到其具體的位置信息
* @param unknown $ip
* @return string
*/
function get_address_by_ip($ip) {
$url = "http://ip.taobao.com/service/getIpInfo.php?ip=".$ip;
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_HEADER, 0);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
$info = curl_exec($curl);
curl_close($curl);
return $info;
}
是不是賊簡(jiǎn)單吹截。
解析JSON數(shù)據(jù)
既然已經(jīng)獲取到數(shù)據(jù)了瘦陈,下一步就自然的是對(duì)獲取到的數(shù)據(jù)進(jìn)行解析。
還是看個(gè)小例子波俄,就明白了晨逝。
$json_get = get_address_by_ip("一個(gè)公網(wǎng)IP");
$data = json_decode($json_get, true);
需要注意的是json_decode函數(shù)的第二個(gè)參數(shù)設(shè)置為true,這是為了讓php解釋器根據(jù)獲取到的字符串類(lèi)型的數(shù)據(jù)解碼為JSON對(duì)象懦铺。這樣我們才能在代碼中直接使用這個(gè)對(duì)象來(lái)做進(jìn)一步的操作捉貌。
具體的獲取JSON內(nèi)部的數(shù)據(jù)就簡(jiǎn)單多了,說(shuō)到這里冬念,大家應(yīng)該都懂了趁窃。也就不多說(shuō)了吧。
記錄器
萬(wàn)事俱備急前,下面就開(kāi)始著手編碼吧醒陆。
操作系統(tǒng)信息
下面通過(guò)PHP中的正則表達(dá)式做了簡(jiǎn)單的處理,雖然不能包含市面上所有的操作系統(tǒng)裆针,但是大部分已經(jīng)是足夠啦刨摩。
/**
* 獲取客戶(hù)端類(lèi)型寺晌,手機(jī)還是電腦,以及相應(yīng)的操作系統(tǒng)類(lèi)型澡刹。
*
* @param string $subject
*/
function get_os($agent) {
$os = false;
if (preg_match ( '/win/i', $agent ) && strpos ( $agent, '95' )) {
$os = 'Windows 95';
} else if (preg_match ( '/win 9x/i', $agent ) && strpos ( $agent, '4.90' )) {
$os = 'Windows ME';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/98/i', $agent )) {
$os = 'Windows 98';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/nt 6.0/i', $agent )) {
$os = 'Windows Vista';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/nt 6.1/i', $agent )) {
$os = 'Windows 7';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/nt 6.2/i', $agent )) {
$os = 'Windows 8';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/nt 10.0/i', $agent )) {
$os = 'Windows 10'; // 添加win10判斷
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/nt 5.1/i', $agent )) {
$os = 'Windows XP';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/nt 5/i', $agent )) {
$os = 'Windows 2000';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/nt/i', $agent )) {
$os = 'Windows NT';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/32/i', $agent )) {
$os = 'Windows 32';
} else if (preg_match ( '/linux/i', $agent )) {
if(preg_match("/Mobile/", $agent)){
if(preg_match("/QQ/i", $agent)){
$os = "Android QQ Browser";
}else{
$os = "Android Browser";
}
}else{
$os = 'PC-Linux';
}
} else if (preg_match ( '/Mac/i', $agent )) {
if(preg_match("/Mobile/", $agent)){
if(preg_match("/QQ/i", $agent)){
$os = "IPhone QQ Browser";
}else{
$os = "IPhone Browser";
}
}else{
$os = 'Mac OS X';
}
} else if (preg_match ( '/unix/i', $agent )) {
$os = 'Unix';
} else if (preg_match ( '/sun/i', $agent ) && preg_match ( '/os/i', $agent )) {
$os = 'SunOS';
} else if (preg_match ( '/ibm/i', $agent ) && preg_match ( '/os/i', $agent )) {
$os = 'IBM OS/2';
} else if (preg_match ( '/Mac/i', $agent ) && preg_match ( '/PC/i', $agent )) {
$os = 'Macintosh';
} else if (preg_match ( '/PowerPC/i', $agent )) {
$os = 'PowerPC';
} else if (preg_match ( '/AIX/i', $agent )) {
$os = 'AIX';
} else if (preg_match ( '/HPUX/i', $agent )) {
$os = 'HPUX';
} else if (preg_match ( '/NetBSD/i', $agent )) {
$os = 'NetBSD';
} else if (preg_match ( '/BSD/i', $agent )) {
$os = 'BSD';
} else if (preg_match ( '/OSF1/i', $agent )) {
$os = 'OSF1';
} else if (preg_match ( '/IRIX/i', $agent )) {
$os = 'IRIX';
} else if (preg_match ( '/FreeBSD/i', $agent )) {
$os = 'FreeBSD';
} else if (preg_match ( '/teleport/i', $agent )) {
$os = 'teleport';
} else if (preg_match ( '/flashget/i', $agent )) {
$os = 'flashget';
} else if (preg_match ( '/webzip/i', $agent )) {
$os = 'webzip';
} else if (preg_match ( '/offline/i', $agent )) {
$os = 'offline';
} else {
$os = '未知操作系統(tǒng)';
}
return $os;
}
獲取瀏覽器信息
同理呻征,下面打函數(shù)可以簡(jiǎn)單的解析出訪客的瀏覽器相關(guān)的信息。
**
* 獲取 客戶(hù)端的瀏覽器類(lèi)型
* @return string
*/
function get_broswer($sys){
if (stripos($sys, "Firefox/") > 0) {
preg_match("/Firefox\/([^;)]+)+/i", $sys, $b);
$exp[0] = "Firefox";
$exp[1] = $b[1]; //獲取火狐瀏覽器的版本號(hào)
} elseif (stripos($sys, "Maxthon") > 0) {
preg_match("/Maxthon\/([\d\.]+)/", $sys, $aoyou);
$exp[0] = "傲游";
$exp[1] = $aoyou[1];
} elseif (stripos($sys, "MSIE") > 0) {
preg_match("/MSIE\s+([^;)]+)+/i", $sys, $ie);
$exp[0] = "IE";
$exp[1] = $ie[1]; //獲取IE的版本號(hào)
} elseif (stripos($sys, "OPR") > 0) {
preg_match("/OPR\/([\d\.]+)/", $sys, $opera);
$exp[0] = "Opera";
$exp[1] = $opera[1];
} elseif(stripos($sys, "Edge") > 0) {
//win10 Edge瀏覽器 添加了chrome內(nèi)核標(biāo)記 在判斷Chrome之前匹配
preg_match("/Edge\/([\d\.]+)/", $sys, $Edge);
$exp[0] = "Edge";
$exp[1] = $Edge[1];
} elseif (stripos($sys, "Chrome") > 0) {
preg_match("/Chrome\/([\d\.]+)/", $sys, $google);
$exp[0] = "Chrome";
$exp[1] = $google[1]; //獲取google chrome的版本號(hào)
} elseif(stripos($sys,'rv:')>0 && stripos($sys,'Gecko')>0){
preg_match("/rv:([\d\.]+)/", $sys, $IE);
$exp[0] = "IE";
$exp[1] = $IE[1];
}else {
$exp[0] = "未知瀏覽器";
$exp[1] = "";
}
return $exp[0].'('.$exp[1].')';
}
核心
最后就是將獲取到的這些信息進(jìn)行二次處理罢浇,該用于查找地理位置的就去查找地理位置陆赋,該被記錄到文件中的就記錄到文件中。
<?php
function clientlog() {
require_once './getclientinfo.php';
$useragent = $_SERVER ['HTTP_USER_AGENT'];
$clientip = $_SERVER ['REMOTE_ADDR'];
$client_info = get_os ( $useragent ) . "---" . get_broswer ( $useragent );
$rawdata_position = get_address_by_ip ( $clientip );
$rawdata_position = json_decode($rawdata_position, true);
$country = $rawdata_position['data']['country'];
$province = $rawdata_position['data']['region'];
$city = $rawdata_position['data']['city'];
$nettype = $rawdata_position['data']['isp'];
$time = date ( 'y-m-d h:m:s' );
$data = "來(lái)自{$country} {$province} {$city }{$nettype} 的客戶(hù)端: {$client_info},IP為:{$clientip},在{$time}時(shí)刻訪問(wèn)了{(lán)$_SERVER['PHP_SELF']}文件嚷闭!\n";
echo $data;
// $filename = "./log.log";
// // if (! file_exists ( $filename )) {
// // fopen ( $filename, "w+" );
// // }
// file_put_contents ( $filename, $data, FILE_APPEND );
}
clientlog();
這里僅僅是演示一下攒岛,實(shí)際上需要完善一下。
如果有需要的話胞锰,可以在下面評(píng)論中留下郵箱阵子,或者私信我來(lái)獲取源碼。
最終效果
最后胜蛉,來(lái)看一下部署到服務(wù)器上的實(shí)驗(yàn)效果吧。
可能有些IP地址對(duì)于這個(gè)接口并不適用色乾,所以未能正確的解析出來(lái)誊册。不過(guò)大部分的還是可以滴。
總結(jié)
對(duì)比與百度的站長(zhǎng)統(tǒng)計(jì)暖璧,我覺(jué)得他們做的無(wú)非是更加的詳細(xì)了案怯。而且作為國(guó)內(nèi)搜索中做的最大的,其用戶(hù)群體也是一個(gè)不小的數(shù)字澎办。所以不知不覺(jué)的我們很多信息都會(huì)被記錄走了嘲碱。所以他們可以做的很詳細(xì),甚至精確到了性別局蚀,年齡麦锯。
凡事也都是立于乎微,也許在不知不覺(jué)中琅绅,日志信息會(huì)幫到你一個(gè)大忙扶欣。
( ⊙ o ⊙ )啊千扶!不知道為啥今天這篇博客亂糟糟的料祠,自己看著都藍(lán)瘦。不出意外的話澎羞,應(yīng)該是2016年最后一篇博客了髓绽。這樣草率的收尾真的是有點(diǎn)難為情呢。
算了妆绞,就這樣吧顺呕,不改了枫攀。也許,正好有人喜歡這種“亂式佳人”呢塘匣,(__) 嘻嘻……