蜘蛛访问统计

蜘蛛访问统计1<?php23print_r(getSpider());45//蜘蛛爬行记录67functiongetSpider()89{1011$spider_array=array(12131=>array1415(16…

  1 <?php
  2 
  3 print_r(getSpider());
  4 
  5 // 蜘蛛爬行记录
  6 
  7 function getSpider()
  8 
  9 {
 10 
 11   $spider_array = array(
 12 
 13   1 => array
 14 
 15   (
 16 
 17     'id' => 1,
 18 
 19     'title' => '谷歌',
 20 
 21     'title_alias' => 'Googlebot'
 22 
 23   ),
 24 
 25   2 => array
 26 
 27   (
 28 
 29     'id' => 2,
 30 
 31     'title' => '雅虎',
 32 
 33     'title_alias' => 'Yahoo! Slurp'
 34 
 35   ),
 36 
 37   3 => array
 38 
 39   (
 40 
 41     'id' => 3,
 42 
 43     'title' => 'MSN',
 44 
 45     'title_alias' => 'msmbot'
 46 
 47   ),
 48 
 49   4 => array
 50 
 51   ( 
 52 
 53     'id' => 4,
 54 
 55     'title' => '谷歌图片',
 56 
 57     'title_alias' => 'Googlebot-Image'
 58 
 59   ),
 60 
 61   5 => array
 62 
 63   (
 64 
 65     'id' => 5,
 66 
 67     'title' => '百度',
 68 
 69     'title_alias' => 'Baiduspider'
 70 
 71   ),
 72 
 73   6 => array
 74 
 75   (
 76 
 77     'id' => 6,
 78 
 79     'title' => '雅虎中国',
 80 
 81     'title_alias' => 'Yahoo! Slurp China'
 82 
 83   ),
 84 
 85   7 => array
 86 
 87   (
 88 
 89     'id' => 7,
 90 
 91     'title' => '有道',
 92 
 93     'title_alias' => 'YodaoBot'
 94 
 95   ),
 96 
 97   8 => array
 98 
 99   (   
100 
101     'id' => 8,
102 
103     'title' => '搜狗',
104 
105     'title_alias' => 'Sogou spider'
106 
107   ),
108 
109   9 => array
110 
111   (
112 
113     'id' => 9,
114 
115     'title' => '搜搜',
116 
117     'title_alias' => 'Sosospider'
118 
119   )
120 
121   );
122 
123   $useragent = $_SERVER['HTTP_USER_AGENT'];   // 获取蜘蛛名称
124 
125   $useragent = 'Googlebot';          // 测试蜘蛛
126 
127   $current_date = getServerTime(8);  // 获取服务器时间,服务器可能会有时差,8为美国时间
128 
129   foreach($spider_array as $key => $value){
130 
131     if(stripos($useragent,$spider_array[$key]['title_alias']) !== false){
132 
133         $robot = $value['title'];
134 
135         $url = isset($_SERVER['HTTP_REFERER'])?$_SERVER['HTTP_REFERER']:@$_SERVER['REDIRECT_URL'];
136 
137         $url = 'http://' . $_SERVER ['HTTP_HOST'] . $url;
138 
139         $ip = getIp();
140 
141         // 结果数组
142 
143         $sql_data_array_add = array(
144 
145            'robot' => $robot,
146 
147            'url' => $url,
148 
149            'ip' => $ip,
150 
151            'date_added' => $current_date
152 
153         );
154 
155     }
156 
157   }
158 
159   return $sql_data_array_add;
160 
161 }
162 
163  
164 
165 // 服务器时间
166 
167 function getServerTime($area = 0) {
168 
169   $current_date = gmdate("Y-m-d H:i:s", @mktime() + $area * 3600);
170 
171   return $current_date;
172 
173 }
174 
175  
176 
177 // 用户ip
178 
179 function getIp(){
180 
181   $ip = '';
182 
183   if (@$_SERVER["HTTP_X_FORWARDED_FOR"]){
184 
185     $ip = $_SERVER["HTTP_X_FORWARDED_FOR"];
186 
187   }elseif (@$_SERVER["HTTP_CLIENT_IP"]){
188 
189     $ip = $_SERVER["HTTP_CLIENT_IP"];
190 
191   }elseif ($_SERVER["REMOTE_ADDR"]){
192 
193     $ip = $_SERVER["REMOTE_ADDR"];
194 
195   }elseif (getenv("HTTP_X_FORWARDED_FOR")){
196 
197     $ip = getenv("HTTP_X_FORWARDED_FOR");
198 
199   }elseif (getenv("HTTP_CLIENT_IP")){
200 
201     $ip = getenv("HTTP_CLIENT_IP");
202 
203   }elseif (getenv("REMOTE_ADDR")){
204 
205     $ip = getenv("REMOTE_ADDR");
206 
207   }else{
208 
209     $ip = "unknown";
210 
211   }
212 
213   return $ip;
214 
215 }

 

1. Google爬虫名称
   1) Googlebot:从Google的网站索引和新闻索引中抓取网页
   2) Googlebot-Mobile针对Google的移动索引抓取网页
   3) Googlebot-Image:针对Google的图片索引抓取网页
   4) Mediapartners-Google:抓取网页确定 AdSense 的内容。只有在你的网站上展示 AdSense 广告的情况下,Google才会使用此漫游器来抓取您的网站。
   5) Adsbot-Google:抓取网页来衡量 AdWords 目标网页的质量。只有在你使用 Google AdWords 为你的网站做广告的情况下,Google才会使用此漫游器。
2. 百度(Baidu)爬虫名称:Baiduspider
3. 雅虎(Yahoo)爬虫名称:Yahoo! Slurp 
   中国雅虎(Yahoo)爬虫名称:Yahoo! Slurp China
4. 有道(Yodao)蜘蛛名称:YodaoBot
5. 搜狗(sogou)蜘蛛名称:Sogou spider
6. MSN的蜘蛛名称:msmbot
7. 腾讯搜搜的蜘蛛名称:Sosospider

转载于:https://www.cnblogs.com/snipersheep/archive/2012/10/07/2713681.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/34193.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注