站点前身被谷歌收录,如何批量删除链接

111次阅读
没有评论

问题前言

我这个网站partake images.com,之前一直没有想好应该做哪个方向的,胡乱发表一通文章,导致发的文章被谷歌收录了,但是现在网站的内容做了更改,之前的收录的网址需要删除,避免误导读者。

但是,搜索一下收录的网址有373条,全人工的一条一条来删除,肯定不符合程序员的特点。所以,我们做个小爬虫,爬取首页的标题链接,批量输出为文本就可以了。

站点前身被谷歌收录,如何批量删除链接

爬虫案例

通过F12进入开发者工具,一般我们想要的东西,都在Network里面。目前是什么都没有的状态,一会当我们刷下一下之后,就会陆续出现网络的资源。

站点前身被谷歌收录,如何批量删除链接

通过刷新之后,在资源里有很多的东西,但是我们要知道,取的其实是一个接口传出来的东西,那这个应该是一个集合。试试看就知道了。

站点前身被谷歌收录,如何批量删除链接

搜索页面上的内容,果然在返回的响应数据中,能够找得到,说明这个数据并没有做一些加密的处理,可以很简单的提取到。

站点前身被谷歌收录,如何批量删除链接

那爬虫其实就很很简单,只要我们盯着自己想要的数据,一步步的想办法接近它,不管用什么办法,最终肯定能得到他。下面给出这个小栗子的脚本。

 

python代码

import requests
from bs4 import BeautifulSoup
import os

myurl = 'http://www.google.com.hk/search?q=site%3Apartakeimages.com&oq=&gs_lcrp=EgZjaHJvbWUqCQgCECMYJxjqAjIJCAAQIxgnGOoCMgkIARAjGCcY6gIyCQgCECMYJxjqAjIJCAMQIxgnGOoCMgkIBBAjGCcY6gIyCQgFECMYJxjqAjIJCAYQIxgnGOoCMgkIBxAjGCcY6gLSAQs1NzgyNTcyajBqN6gCCLACAQ&sourceid=chrome&ie=UTF-8#ip=1'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36',
}

resp = requests.get(url=myurl, headers=headers)

# #字符串
print(type(resp))

#拿到网页的字符串之后,还需要转化成html
str_soup = resp.text

# print(str_soup)
# print(type(str_soup))

#利用bs4来提取数据,其实也很方便
soup = BeautifulSoup(resp.text, 'html.parser')

element = soup.find_all('a')

for each in element:
href = each.get('href')
print(href)

后记

然后把通过爬虫筛选到的链接,挨个的在谷歌站长后台进行删除,不多时就可以开放网站,让谷歌浏览器来抓取最新的网页了。

站点前身被谷歌收录,如何批量删除链接

正文完
 0
热门文章
评论(没有评论)