三種資料抓取的方法
*利用之前構建的**網頁函式,獲取目標網頁的html,我們以為例,獲取html。
from get_html import download
url = ''
page_content = download(url)
*假設我們需要爬取該網頁中的國家名稱和概況,我們依次使用這三種資料抓取的方法實現資料抓取。
1.正規表示式
from get_html import download
import re
url = ''
page_content = download(url)
country = re.findall('class=dhimv"h2dabiaoti">(.*?)', page_content) #注意返回的是list
survey_data = re.findall('(.*?)', page_content)
survey_info_list = re.findall('', survey_data[0])
survey_info = ''.join(survey_info_list)
print(country[0],survey_info)
2.beautifulsoup(bs4)
from get_html import download
from bs4 import beautifulsouwww.cppcns.comp
url = ''
html = download(url)
#建立 beautifulsoup 物件
soup = beautifulsoup(html,"html.parser")
#搜尋country = soup.find(attrs=).text
survey_info = soup.find(attrs=).text
print(country,survey_info)
3.lxml
from get_html import download
from lxml import etree #解析樹
url = ''
page_content = download(url)
selector = etree.html(page_content)#可進行xpath解析
country_select = selector.xpath('//*[@id="main_content"]/h2') #返回列表
for country in country_select:
print(country.text)
survey_sewww.cppcns.comlect = selector.xpath('//*[@id="wzneirong"]/p')
for survey_contentdhimv in survey_select:
print(survey_content.text,end='')
執行結果:
最後,引用《用python寫網路爬蟲》中對三種方法的效能對比,如下圖:
僅供參考。
總結
python三種網頁抓取方法
通過前面介紹的幾篇文章,知道了爬取一個網頁很容易了,python爬蟲高階功能那一篇,介紹了爬蟲的幾種反爬蟲措施,這裡主要介紹三種抓取其中資料的方法。首先是正規表示式,然後是流行的beautifulsoup模組,最後是強大的lxml模組 1 正規表示式 如果對正規表示式不熟悉,或是需要一些提示時,可以...
python抓取網頁資料的三種方法 老鷹a
一 正規表示式提取網頁內容 解析效率 lxml beautifulsoup import reimport urllib2 urllist html urllib2.urlopen urllist read num re.findall html print numprint num 1 num 1...
PHP抓取網頁方法總結
在做一些天氣預報或者rss訂閱的程式時,往往需要抓取非本地檔案,一般情況下都是利用php模擬瀏覽器的訪問,通過http請求訪問url地址,然後得到html源 或者xml資料。得到資料我們不能直接輸出,往往需要對內容進行提取,然後再進行格式化,以更加友好的方式顯現出來。下面先簡單說一下本文的主要內容 ...
資料抓取之資料抓取流程
公司的資料抓取系統也寫了一陣子了,是時候總結下了,不然憑我的記性,過一段時間就忘的差不多了。打算寫一個系列將其中踩過的坑都記錄下來。暫時定一個目錄,按照這個系列來寫 今天就先來說下資料抓取的大致工作流程.先說下背景,公司是做企業徵信服務的。整合各方面的資料來製作企業信用報告。主要資料 包括 從第三方...
使用python抓取App資料
第二步 設定fiddler 開啟fiddler,tools fiddler options 配置完後記得要重啟fiddler 選中 decrpt https traffic fiddler就可以截獲https請求 選中 allow remote computers to connect 是允許別的機...
python抓取頁面資料
獲取請求頁面requests資訊 使用chrome瀏覽器,f12開發人員選項,重新整理介面,在network中,找到要請求的檔案,找到它的request url 請求方式 headers等 我自己寫的headers轉化成欄位的格式,如果有用到的可以貼上走 def get headers header...
使用python抓取App資料
84278415 import requests import city import json import jsonpath import re city list city.jsons tags list city.tag defcity func city id try city jsonp...
資料分析方法總結
資料分析是指用適當的統計分析方法對收集來的大量資料進行分析,提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支援過程。在實用中,資料分析可幫助人們做出判斷,以便採取適當行動。資料視覺化是關於資料視覺表現形式的科學。其中,這種表現形式被定義為一種包括相應資訊單位的...
抓取無線資料的方法
檢視某手機與某無線路由的802.11通訊資料。使用iw list命令檢視是否支援monitor模式 使用命令開啟monitor模式 關閉無線網絡卡 sudo ifconfig wlan0 down 將無線網絡卡配置為monitor模式 sudo iwconfig wlan0 mode monitor...
PHP網路資料抓取方法
常見的抓取網路資料的一些方法。1.用 file get contents 以 get 方式獲取內容 url html file get contents url echo html 2.用fopen 開啟url,以get方式獲取內容 url fp fopen url,r stream get met...