当前位置：华夏名网帮助中心 > 其它问题 > 正文

简单的pythen脚本,可以筛选出网页内的链接

2020-04-22 分类：其它问题阅读(1313)

简单的pythen脚本,可以筛选出网页内的链接,并且不重样,但是只能扫描一个页面,不能递归查询.

# coding:utf-8
import re
import requests

# 获取网页内容
try:
 url = raw_input("Please input the target test url:")
 urlxp=[]
 i=0
 y=0
 r = requests.get(url)
 data = r.text
 # 利用正则查找所有连接
 link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" ,data)
 for url in link_list:
     for xp in range(0,len(urlxp)):
         if (urlxp[xp]==url):
             y+=1
     if y==0:
        urlxp.append(url)
        y=0
     else:
        y=0
 for i in range(0,len(urlxp)):
    print i,urlxp[i],"\n"
except:
 print("错误的链接！！！");

赞(28)

相关推荐

更专业更快速更方便

华夏名网 VIP服务