python爬取微博评论源码,由论坛大神原创制作的一个爬取程序,可以爬取微博评论,用户可以单独搜索某个博主的微博,搜索历史时间线,快速爬取获取目标微博下的全部评论,并直接导入到txt文档内。本次放出python爬取微博评论工具源码下载,感兴趣的朋友们不妨试试吧!
打开网址[https://m.weibo.cn/detail/4478512314460101]
点击万能的F12
点击:->网络->XHR->hotflow…..->预览
网址:[https://m.weibo.cn/comments/hotflow?id=4478512314460101&mid=4478512314460101&max_id_type=0]
已经可以确定这个是评论的json接口了
然后看第二页有什么区别
往下拉,看第二页
看来数据没什么区别
第一页网址:[https://m.weibo.cn/comments/hotflow?id=4478512314460101&mid=4478512314460101&max_id_type=0]
第二页网址:[https://m.weibo.cn/comments/hotflow?id=4478512314460101&mid=4478512314460101&max_id_type=0&max_id=17250816281250492]
咦,第一页和第二页多出来一个max_id参数(后面其他页数也是这里就不做演示了)
看一下第一页数据中是否有max_id
果然有max_id,还是第二页的(看懂了一切)
那就是说:第二页的max_id在第一页中,第三页的在第二页中,以此类推
import requests
import json
import re
import os
'''
说明:请添加第11行的cookie,修改第26行的保存路径
作者:帅气逼人的钢铁直男—幻夜
'''
headers = {#请求标题头
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4086.0 Mobile Safari/537.36',
'cookie':''#请填写自己的cookie
}
id = input("请输入ID:")#获取ID
if id == "":#当ID为空停止脚本
print('再见')
os._exit(0)#停止脚本
ret = requests.get('https://m.weibo.cn/detail/'+id,headers = headers).text#获取网页内容
if '出错了' in str(ret):#网页出错停止脚本
print('ID不存在')
os._exit(0)#停止脚本
title = input("请输入保存文件名字:")#输入保存文件名字
if title == "":#为空停止脚本
print('再见')
os._exit(0)#停止脚本
max_id = False#定义变量
path = "C:\Users\win10\Desktop\python\爬虫\"+title+".txt"#自己修改文件路径
if os.path.exists(path):#当文件存在时删除,为了不重复
os.remove(path)#删除
page_end = 10#爬取页数,自己修改
page_start = 1
u = 1
while page_start<page_end:#当start小于end时进行循环
if max_id == False:#因为微博第一页和其他页的参数不一样所以需要区分开来
url = "https://m.weibo.cn/comments/hotflow?id="+id+"&mid="+id+"&max_id_type=1"#第一页不包含max_id
json = requests.get(url)#访问评论json数据
else:
url = "https://m.weibo.cn/comments/hotflow?id="+id+"&mid="+id+"&max_id="+str(max_id)+"&max_id_type=0"
json = requests.get(url,headers = headers)#访问评论json数据
json = json.json()#转化数据
max_id = json['data']['max_id']#第二页的max_id在第一页中 第三页在第二页中…以此类推
jsons = json['data']['data']
page_start = page_start+1#自增
for j in jsons:
text = j['text']
text = re.sub(r'<(.+?)>','',text)#删除表情包
with open(path,"a+",encoding = 'utf-8') as f:
f.write(text+'nn')
print("第"+str(u)+"条评论完成")
u = u+1
print('完成')
3月20日消息 天眼查数据显示,3月19日,微博的运营主体――北京微梦创科网络技术有限公司发生多项工商变更。
其中,刘运利退出法定代表人、经理、执行董事,新增微博代理首席财务官兼高级副总裁曹菲为法定代表人、董事长、经理;新增黄争取、谷海燕为董事。此外,注册资本从原来的5.55亿增至约5.6亿,增幅为1.01%,其经营范围也发生了变更。
北京微梦创科网络技术有限公司成立于2010年8月,天眼查股东信息显示,王巍、刘运利分别持股29.70%,为公司最大股东。
链接:https://www.zuanqian.net/221603.html
转载请注明出处
领蛋达人是真的吗?是真的,新人下载红包版后,升级小鸟到3级,领1.09元,首次0.3元提现。那么,领蛋达人怎么赚钱?玩游戏升...
2020年04月22日 | 585次阅读趣铃声靠谱吗?和趣铃声一样的赚钱软件。靠谱,还有66铃声。不过,在趣铃声一天能挣多少钱?0.3元-20元。 1.趣铃声靠谱吗? ...
2020年04月10日 | 602次阅读66铃声怎么提现现金?66铃声提现的钱都去哪里了?在“百万现金任你抢”中,点提现操作。提现的钱都去快手了,最终到微信或支付...
2020年04月10日 | 1,246次阅读趣淘金是干什么的?趣淘金能提现吗?是购物返利的APP,能提现。最低能提0.3元,秒到账。此外,趣淘金能领钱吗?签到做任务,...
2020年04月10日 | 431次阅读必看免费阅读小说提现真实吗?必看免费阅读小说是真的吗?能真实提现,是真的。那么,必看免费阅读小说怎么样?可以看小说赚...
2020年04月10日 | 1,894次阅读氢小说的钱真的可以提?看小说赚钱是不是骗局?真能提现,不是骗局。有没有看小说每天都能提现的?有的,例如,氢小说APP。 1...
2020年04月10日 | 1,024次阅读多多果林50元可以提现吗?多多果林能拿到钱吗?能,填邀请码49900431,新人送1.6元。0.3元就能提现,还是秒到账。多多果林提...
2020年03月17日 | 1,658次阅读氢小说赚钱APP下载,氢小说赚金币能提现吗?能,输邀请码QENLQX,领500金币。新人送38888金币(3.8元),最低0.3元提现,秒到...
2020年03月12日 | 1,919次阅读建个海岛我当王怎么赚钱?建个海岛我当王赚钱是真的吗?是真的,新人亲测送红包0.3元,最低0.3元提现,秒到账。玩游戏、分红...
2020年01月23日 | 1,737次阅读多多爱运动怎么赚钱?多多爱运动赚钱是真的吗?是真的,完成新手任务,领5元;填邀请码WUNUlVXe,再领3元;最低0.3元提现,秒...
2020年01月07日 | 1,346次阅读趣铃声怎么赚钱?趣铃声赚钱是真的吗?是真的,填邀请码A924406704,新人送0.5元,最低0.5元提现,秒到账。设置铃声、看视频...
2020年01月07日 | 1,617次阅读玩什么游戏赚钱最快?正规的玩游戏赚现金。现在,玩手游升级赚钱最快。而且,这是正规的玩游戏赚现金的方法。因为,很多试玩...
2018年11月19日 | 3,072次阅读中青看点邀请码是多少?中青看点怎么填写邀请码?在指定位置,填写中青看点邀请码4539665,能得到100青豆,用于提现。具体步...
2018年09月12日 | 2,482次阅读时下,喜欢玩游戏的人众多,不要以为玩游戏只是一种娱乐而已,很多人对于玩游戏会上瘾,会把游戏当成自己生命的全部,最终影...
2018年04月19日 | 1,658次阅读如何清除今日头条极速版缓存?在今日头条极速版,点击“我的-系统设置”。点击“清除缓存”,出现提示。点击“确认”,成功清除。 ...
2022年02月17日 | 13次阅读书旗小说怎么去除广告?在书旗小说,遇到广告时,点击“x”,可以选择“关闭当前广告”。彻底去除广告,需要成为会员,但不建议。...
2022年02月16日 | 18次阅读书旗小说邀请码是多少?是673643。在书旗小说,点击下方按钮,有填写邀请码的地方。再点击“邀请好友”,找书旗小说邀请码。 1....
2022年02月15日 | 16次阅读悟空浏览器怎么更新?在悟空浏览器,点击“菜单-六边形”。在设置页底部,点击“检查版本”。有新版本的话,可以更新后安装一下。...
2022年02月14日 | 21次阅读uc浏览器极速版怎么退出登录?在uc浏览器极速版,点击“任务-头像”,再点“头像”。之后,点击右上方“…”,退出登录。 延...
2022年02月13日 | 19次阅读UC浏览器极速版邀请码在哪里找?在爱钻啦找,是2223031。自己的UC浏览器极速版邀请码,可在今日任务中,邀请好友栏找。 1.在U...
2022年02月11日 | 17次阅读uc浏览器极速版怎么签到?在uc浏览器极速版,点击右下角“任务”。每天第一次进入,会出现签到页面。点击“直接签到”,完成。 ...
2022年02月10日 | 26次阅读悟空浏览器怎样输入邀请码?在悟空浏览器,进日常任务。在其中,点击“填写邀请码”,输入悟空浏览器邀请码J4132283绑定。 1.打...
2022年02月09日 | 13次阅读悟空浏览器怎么反馈问题?在悟空浏览器,点击“菜单-六边形”。在设置页,下滑底部。点击“我要反馈”,叙述问题后,提交反馈。 1...
2022年02月08日 | 18次阅读UC浏览器极速版邀请码是多少?是2223031,由八个数字组成。在UC浏览器极速版,可以填写邀请码,也能找到自己的邀请码。 1.打...
2022年02月07日 | 22次阅读