【C#】爬取百度贴吧帖子通过贴吧名和搜索关键词

原創

HelloLLLLL

2022-10-30 14:17

背景：最近喜欢看百度贴吧，因为其内容大多都是吧友的真实想法表达等等原因。但是通过网页去浏览贴吧，始终觉得不够简介，浏览帖子的效率不高，自己就萌发了通过自己爬取贴吧感兴趣的关键字内容，自己写了个winform客户端，目前大致能浏览帖子了。

成果简陋：

总结：

这个我做的十分的简陋，没啥说的，我自己感觉，就解析dom节点比较费时，要观察网页，不同的贴吧名，搜索结果的展示dom节点是不一样的，所以要找到合适的xpath去解析想要的信息，用的库就是 HtmlAgilityPack，这个没有那种使用浏览器内核的库复杂，完成这种值爬取文字信息的我认为对我来讲是够用的了。

说起xpath的使用，其语法分为单斜杠、双斜杠、中括号属性名查找。比如说：

/div[1]/div[2]就是从根开始匹配第一个div下面的第二个div子节点。用单斜杠我的理解是只能向dom一级一级的匹配。而双斜杠能从任意未知匹配，比如：

//div[@id="postContent_123"]表示查找dom节点中任意id为双引号内容的节点。使用时注意，如果时在某个自己点调用查找单个节点时，比如：

node.GetSingalNode("//div[@class=\"p_post\"]"),这个不会从node这个节点下面去找，依然是全文的dom查找。

获取html文档，可以使用这个包自带的HtmlWeb类,也可以自己写RequestHelper封装一下，注意网页编码，目前贴吧搜索页是gbk，帖子内容是utf-8。

这里还有个坑，帖子楼层下得回复消息是异步得，那么从获取html网页的方式获取不到这些回复，只会得到一张img的标签dom，但是通过F12查看，发现所有的回复都是一个请求返回的json，楼层的pid和json的回复对应。

newtownsoft.json 也有根xpath类似的语法，比较好定位某个属性的值。因为这个回复json有的关键属性是数字，所以我没有设计类去接收json字符，而是使用jsonobject。

这个贴吧有反爬机制，有图片验证，目前我还不能一次性永久解决，但短暂的办法，我的是加上cookie和userAgent，可以试试，在浏览器出现需要验证的情况去看看cookie，用排除法去找到关键的cookie。这个用上了，不久后又会需要验证，在更换哈cookie的值或者useragent的值就好了。如果用htmlWeb就没这么灵活了，用自己的请求类我觉得还是比较好点。

做的时候，为了调试方便，写单元测试是个不错的方法，不需要界面操作，可以提高效率。核心方法直接封装成一个类，直接调用方法就行，因为这个简单没啥界面的复杂交互，所以写单测也好写。

做界面设计渲染的时候，使用了自定义控件，flowlayoutpanel比panel要方便。主要是测试前，可以提前序列化一批真实的帖子数据，测试界面时，就使用序列化的静态数据，这样降低了触发验证的风险，也能加快效率。

最后这个做的很简陋，心头其实是害怕自己没能力再把这个程序做得更好，所以就没有再继续尝试优化了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【C#】爬取百度贴吧帖子通过贴吧名和搜索关键词

985 硕士程序员，空窗 4 个月没有 Offer！

一文搞懂 Spring 循环依赖

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

VScode右键打开(添加到右键)

记一次 .NET某工控视觉自动化系统卡死分析

WindowsServer--SQL Server搭建主从同步实现读写分离 - 事务性分发

java由于越界导致的报错

我對微服務架構的簡單理解

vue綁定對象，綁定的值不改變的問題

.net Mvc5Webapi接口接收參數爲null的一種情況分享

狀態機模式的初步瞭解及學習心得體會

微信小程序報錯“Component “頁面路徑“ does not have a method “ 方法名“ to handle event tap的

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【C#】爬取百度贴吧帖子 通过贴吧名和搜索关键词

【C#】爬取百度贴吧帖子通过贴吧名和搜索关键词