用Python寫爬蟲要註意哪些坑？

1.不用用python寫爬蟲就能爬特定的網站。大多數情況下，大部分網站用wget的壹個命令就能爬得很好，妳真的玩到自己寫爬蟲了。最後妳遇到的無非就是如何做大做強，如何做壹個分布式爬蟲。Scrapy的值接近於零，異步或者多線程抓取，選擇壹個成熟的基於磁盤的隊列庫，kafka等等，scrapy有什麽幫助？

2.有很多HTTP庫，還有gevent庫monkey補丁後播放協程的選項。如果是1000萬的規模，urllib3就很不錯了。

3.對付login、ajax之類的網站，只是手工勞動，不會推出。

4.速度很重要。在ec2或者國內雲上運行是壹個很重要的指標，就是妳每往下爬壹億個網頁要花多少錢。爬坡時，比如壹個4核的虛擬機節點，可以用100 Mbps進行入站借出嗎？

5.beautifulsoup太慢，全網爬行，分析編碼更快。C實現的chardet還可以。

最重要的永遠是爬下來後對信息的提取、分析和利用，這是另壹個話題。

1.學習使用chrome瀏覽器查看通訊和查看元素格式。

2.添加用戶代理，這是最簡單的反爬行措施。

3.最好用Ipython寫爬蟲。在壹個互動的環境中，妳總能知道妳的問題是什麽。

使用請求

5.用get或post下載html後，確保您需要的東西在html中，而不是以後用ajax或javascript加載。

6.分析的話，BeautifulSoup不錯。對於少數非常特殊的，可以考慮re。

7.如果需要收集大量數據，就要學會使用框架，比如scrapy。