久久99热精品免费观看,日韩欧美一二区在线观看

#禁止Scrapy等工具的抓取 if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403; } #禁止指定UA及UA為空的訪問 if ($http_user_agent ~* "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) { return 403; } #禁止非GET|HEAD|POST方式的抓取 if ($request_method !~ ^(GET|HEAD|POST)$) { return 403; }

然后，在網(wǎng)站相關配置中的 location / { 之后插入如下代碼：
include agent_deny.conf;
如張戈博客的配置：
[marsge@Mars_Server ~]$ cat /usr/local/nginx/conf/zhangge.conf

location / { try_files $uri $uri/ /index.php?$args; #這個位置新增1行： include agent_deny.conf; rewrite ^/sitemap_360_sp.txt$ /sitemap_360_sp.php last; rewrite ^/sitemap_baidu_sp.xml$ /sitemap_baidu_sp.php last; rewrite ^/sitemap_m.xml$ /sitemap_m.php last; 保存后，執(zhí)行如下命令，平滑重啟nginx即可： /usr/local/nginx/sbin/nginx -s reload

將如下方法放到貼到網(wǎng)站入口文件index.php中的第一個 <?php 之后即可：
//獲取UA信息

$ua = $_SERVER['HTTP_USER_AGENT']; //將惡意USER_AGENT存入數(shù)組 $now_ua = array('FeedDemon ','BOT/0.1 (BOT for JCE)','CrawlDaddy ','Java','Feedly','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','YYSpider','jaunty','Python-urllib','lightDeckReports Bot');

//禁止空USER_AGENT，dedecms等主流采集程序都是空USER_AGENT，部分sql注入工具也是空USER_AGENT

if(!$ua) { header("Content-type: text/html; charset=utf-8"); die('請勿采集本站，因為采集的站長木有小JJ！'); }else{ foreach($now_ua as $value ) //判斷是否是數(shù)組中存在的UA if(eregi($value,$ua)) { header("Content-type: text/html; charset=utf-8"); die('請勿采集本站，因為采集的站長木有小JJ！'); } }

如果是vps，那非常簡單，使用curl -A 模擬抓取即可，比如：
模擬宜搜蜘蛛抓取：
curl -I -A 'YisouSpider' zhang.ge
模擬UA為空的抓?。?br />curl -I -A '' zhang.ge
模擬百度蜘蛛的抓取：
curl -I -A 'Baiduspider' zhang.ge

修改網(wǎng)站目錄下的.htaccess，添加如下代碼即可（2種代碼任選）：三次抓取結果截圖如下：

可以看出，宜搜蜘蛛和UA為空的返回是403禁止訪問標識，而百度蜘蛛則成功返回200，說明生效！

因此，對于垃圾蜘蛛的收集，我們可以通過分析網(wǎng)站的訪問日志，找出一些沒見過的的蜘蛛（spider）名稱，經過查詢無誤之后，可以將其加入到前文代碼的禁止列表當中，起到禁止抓取的作用。

下面是網(wǎng)絡上常見的垃圾UA列表，僅供參考，同時也歡迎你來補充。

FeedDemon 內容采集 BOT/0.1 (BOT for JCE) sql注入 CrawlDaddy sql注入 Java 內容采集 Jullo 內容采集 Feedly 內容采集 UniversalFeedParser 內容采集 ApacheBench cc攻擊器 Swiftbot 無用爬蟲 YandexBot 無用爬蟲 AhrefsBot 無用爬蟲 YisouSpider 無用爬蟲（已被UC神馬搜索收購，此蜘蛛可以放開?。?MJ12bot 無用爬蟲 ZmEu phpmyadmin 漏洞掃描 WinHttp 采集cc攻擊 EasouSpider 無用爬蟲 HttpClient tcp攻擊 Microsoft URL Control 掃描 YYSpider 無用爬蟲 jaunty wordpress爆破掃描器 oBot 無用爬蟲 Python-urllib 內容采集 Indy Library 掃描 FlightDeckReports Bot 無用爬蟲 Linguee Bot 無用爬蟲

聲明：本網(wǎng)站發(fā)布的內容（圖片、視頻和文字）以原創(chuàng)、轉載和分享網(wǎng)絡內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-62778877-8306；郵箱：fanjiao@west.cn。本站原創(chuàng)內容未經允許不得轉載，或轉載時需注明出處：西部數(shù)碼知識庫 » php如何設置禁止抓取網(wǎng)站

熱門搶注

熱門競價

推薦一口價

猜你還會喜歡下面的內容

熱門標簽

大家感興趣的內容

切換注冊登錄

切換登錄注冊