1 <?php 2 3 print_r(getSpider()); 4 5 // 蜘蛛爬行记录 6 7 function getSpider() 8 9 { 10 11 $spider_array = array( 12 13 1 => array 14 15 ( 16 17 'id' => 1, 18 19 'title' => '谷歌', 20 21 'title_alias' => 'Googlebot' 22 23 ), 24 25 2 => array 26 27 ( 28 29 'id' => 2, 30 31 'title' => '雅虎', 32 33 'title_alias' => 'Yahoo! Slurp' 34 35 ), 36 37 3 => array 38 39 ( 40 41 'id' => 3, 42 43 'title' => 'MSN', 44 45 'title_alias' => 'msmbot' 46 47 ), 48 49 4 => array 50 51 ( 52 53 'id' => 4, 54 55 'title' => '谷歌图片', 56 57 'title_alias' => 'Googlebot-Image' 58 59 ), 60 61 5 => array 62 63 ( 64 65 'id' => 5, 66 67 'title' => '百度', 68 69 'title_alias' => 'Baiduspider' 70 71 ), 72 73 6 => array 74 75 ( 76 77 'id' => 6, 78 79 'title' => '雅虎中国', 80 81 'title_alias' => 'Yahoo! Slurp China' 82 83 ), 84 85 7 => array 86 87 ( 88 89 'id' => 7, 90 91 'title' => '有道', 92 93 'title_alias' => 'YodaoBot' 94 95 ), 96 97 8 => array 98 99 ( 100 101 'id' => 8, 102 103 'title' => '搜狗', 104 105 'title_alias' => 'Sogou spider' 106 107 ), 108 109 9 => array 110 111 ( 112 113 'id' => 9, 114 115 'title' => '搜搜', 116 117 'title_alias' => 'Sosospider' 118 119 ) 120 121 ); 122 123 $useragent = $_SERVER['HTTP_USER_AGENT']; // 获取蜘蛛名称 124 125 $useragent = 'Googlebot'; // 测试蜘蛛 126 127 $current_date = getServerTime(8); // 获取服务器时间,服务器可能会有时差,8为美国时间 128 129 foreach($spider_array as $key => $value){ 130 131 if(stripos($useragent,$spider_array[$key]['title_alias']) !== false){ 132 133 $robot = $value['title']; 134 135 $url = isset($_SERVER['HTTP_REFERER'])?$_SERVER['HTTP_REFERER']:@$_SERVER['REDIRECT_URL']; 136 137 $url = 'http://' . $_SERVER ['HTTP_HOST'] . $url; 138 139 $ip = getIp(); 140 141 // 结果数组 142 143 $sql_data_array_add = array( 144 145 'robot' => $robot, 146 147 'url' => $url, 148 149 'ip' => $ip, 150 151 'date_added' => $current_date 152 153 ); 154 155 } 156 157 } 158 159 return $sql_data_array_add; 160 161 } 162 163 164 165 // 服务器时间 166 167 function getServerTime($area = 0) { 168 169 $current_date = gmdate("Y-m-d H:i:s", @mktime() + $area * 3600); 170 171 return $current_date; 172 173 } 174 175 176 177 // 用户ip 178 179 function getIp(){ 180 181 $ip = ''; 182 183 if (@$_SERVER["HTTP_X_FORWARDED_FOR"]){ 184 185 $ip = $_SERVER["HTTP_X_FORWARDED_FOR"]; 186 187 }elseif (@$_SERVER["HTTP_CLIENT_IP"]){ 188 189 $ip = $_SERVER["HTTP_CLIENT_IP"]; 190 191 }elseif ($_SERVER["REMOTE_ADDR"]){ 192 193 $ip = $_SERVER["REMOTE_ADDR"]; 194 195 }elseif (getenv("HTTP_X_FORWARDED_FOR")){ 196 197 $ip = getenv("HTTP_X_FORWARDED_FOR"); 198 199 }elseif (getenv("HTTP_CLIENT_IP")){ 200 201 $ip = getenv("HTTP_CLIENT_IP"); 202 203 }elseif (getenv("REMOTE_ADDR")){ 204 205 $ip = getenv("REMOTE_ADDR"); 206 207 }else{ 208 209 $ip = "unknown"; 210 211 } 212 213 return $ip; 214 215 }
1. Google爬虫名称
1) Googlebot:从Google的网站索引和新闻索引中抓取网页
2) Googlebot-Mobile针对Google的移动索引抓取网页
3) Googlebot-Image:针对Google的图片索引抓取网页
4) Mediapartners-Google:抓取网页确定 AdSense 的内容。只有在你的网站上展示 AdSense 广告的情况下,Google才会使用此漫游器来抓取您的网站。
5) Adsbot-Google:抓取网页来衡量 AdWords 目标网页的质量。只有在你使用 Google AdWords 为你的网站做广告的情况下,Google才会使用此漫游器。
2. 百度(Baidu)爬虫名称:Baiduspider
3. 雅虎(Yahoo)爬虫名称:Yahoo! Slurp
中国雅虎(Yahoo)爬虫名称:Yahoo! Slurp China
4. 有道(Yodao)蜘蛛名称:YodaoBot
5. 搜狗(sogou)蜘蛛名称:Sogou spider
6. MSN的蜘蛛名称:msmbot
7. 腾讯搜搜的蜘蛛名称:Sosospider
转载于:https://www.cnblogs.com/snipersheep/archive/2012/10/07/2713681.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/34193.html