網(wǎng)站建設(shè)發(fā)票內(nèi)容蘇州網(wǎng)站制作開發(fā)公司
原標(biāo)題:Python連載(一):網(wǎng)絡(luò)爬蟲基礎(chǔ)及pythpon環(huán)境搭建
從今天開始,我們的Python連載正式開始啦~
接下來我們會(huì)給大家分享Python網(wǎng)絡(luò)爬蟲的相關(guān)技術(shù)課程。
一、我們先來了解下什么是網(wǎng)絡(luò)爬蟲?
網(wǎng)絡(luò)爬蟲又被稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)螞蟻、網(wǎng)絡(luò)機(jī)器人等,可以自動(dòng)化瀏覽網(wǎng)絡(luò)中的信息,當(dāng)然瀏覽信息的時(shí)候需要按照我們制定的規(guī)則進(jìn)行,這些規(guī)則我們稱之為網(wǎng)絡(luò)爬蟲算法。
爬蟲的對(duì)象較豐富:文字、圖片、視頻、任何結(jié)構(gòu)化非結(jié)構(gòu)化的數(shù)據(jù)爬蟲。也衍生了一些爬蟲類型:
通用爬蟲是搜索引擎抓取系統(tǒng)(百度、谷歌、搜狗等)的重要組成部分,把互聯(lián)網(wǎng)上的所有網(wǎng)頁下載下來,放到本地服務(wù)器里形成備份,在對(duì)這些網(wǎng)頁做相關(guān)處理,主要是針對(duì)搜索引擎和web服務(wù)商提供的爬蟲。工作流程:爬取網(wǎng)頁——存儲(chǔ)數(shù)據(jù)——內(nèi)容處理——提供檢索——排名服務(wù)。
聚焦爬蟲:是面向特定需求的一種網(wǎng)絡(luò)爬蟲程序,根據(jù)既定的抓取目標(biāo),有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的連接來獲取所需要的信息。通常是爬蟲程序員寫的針對(duì)某種內(nèi)容的爬蟲,而且保證內(nèi)容需求盡可能相關(guān)。
增量網(wǎng)絡(luò)爬蟲:對(duì)已經(jīng)抓取的網(wǎng)頁進(jìn)行實(shí)時(shí)更新。
深層網(wǎng)絡(luò)爬蟲:爬取一些需要用戶提交關(guān)鍵詞才能獲得的Web頁面。
二、網(wǎng)絡(luò)爬蟲和Python有什么聯(lián)系
今天聽到有人問:python是爬蟲嗎?爬蟲又叫python嗎?我第一反應(yīng)不是回答問題,而是想為什么會(huì)這么問?我想大概是大家對(duì)python的概念有點(diǎn)模糊,兩者混淆,所以我這里來澄清下。
Python是一種跨平臺(tái)的計(jì)算機(jī)程序設(shè)計(jì)語言。是一個(gè)高層次的結(jié)合了解釋性、編譯性、互動(dòng)性和面向?qū)ο蟮哪_本語言,隨著版本的不斷更新和語言新功能的添加,越來越多被用于獨(dú)立的、大型項(xiàng)目的開發(fā)。簡(jiǎn)單的說,python是一門編程語言!
那為什么一說到爬蟲的時(shí)候,大部分程序員潛意識(shí)里都會(huì)想到爬蟲呢,為什么會(huì)這樣,我覺得有兩個(gè)原因:
1、python生態(tài)及其豐富,像Requst、Beautiful Soup、Scrapy、PySpider等第三方庫比較強(qiáng)大。
2、Python語法簡(jiǎn)潔易上手,分分鐘就能寫出一個(gè)爬蟲(有人吐槽Python慢,但是爬蟲的瓶頸和語言關(guān)系不大)
Python作為一種解釋型腳本語言,可以用于以下領(lǐng)域:
1、WEB和Internet開發(fā)
2、科學(xué)計(jì)算和統(tǒng)計(jì)
3、教育
4、桌面界面開發(fā)
5、軟件開發(fā)
6、后端開發(fā)
所以,爬蟲是對(duì)網(wǎng)絡(luò)資源的抓取,因?yàn)閜ython的腳本特性,易于配置,對(duì)字符的處理也非常靈活。簡(jiǎn)單的用python自己的urllib庫也可以用python寫一個(gè)搜索引擎,而搜索引擎就是一個(gè)復(fù)雜的爬蟲,所以python爬蟲是基于python編程創(chuàng)造出來的一種網(wǎng)絡(luò)資源的抓取方式,python并不是爬蟲。
搞清楚什么是python后,接下來要知道如何在不同系統(tǒng)上搭建python開發(fā)環(huán)境。
Python程序開發(fā)一般包含兩部分,編寫python程序和運(yùn)行python程序,所以一個(gè)python開發(fā)環(huán)境主要包含兩部分:編輯python代碼的編程器和運(yùn)行python代碼的解釋器。
1、python解釋器+普通文本編輯器
普通文本編輯器我們可以使用Windows系統(tǒng)自帶的txt文本編輯器、notepad++、sublime、editplus、ue等等、任何能夠進(jìn)行文本編輯的軟件都可以作為python程序開發(fā)的代碼編輯器。
2、python解釋器+交互式終端
在安裝python解釋器時(shí)安裝了交互式終端,我們可以通過在命令行窗口中,輸入python或者python3進(jìn)入不同python版本的交互式終端。
3、python解釋器+集成開發(fā)環(huán)境
集成開發(fā)環(huán)境是用于提供程序開發(fā)環(huán)境的應(yīng)用程序,一般包括代碼編輯器、編譯器、調(diào)試器和圖形用戶界面等工具,集成了代碼編寫功能、分析功能、編譯功能、調(diào)試功能等一體化的開發(fā)軟件服務(wù)套,所有具備這一特征的軟件或者軟件套都可以叫集成開發(fā)環(huán)境返回搜狐,查看更多
責(zé)任編輯: