最近博主搞了一個博客網站,但是遇到一個頭疼的事情,就是要把以前寫在csdn上的博客批量導出成markdown文件,但是csdn上只支持單個導出,而且我的博客網站是用jekyll搭的,還需要在每個md裏面另外加一些配置信息,要是得一個個導出一個個改那可得累死我嘍。於是我網站搜了一些資料,發現網上有一些用python寫的爬蟲,我想爲什麼我不自己用java寫一個爬蟲實現這個功能呢?
一. 思路
- 打開博客列表
- 獲取每篇文章的id
- 打開每篇文章的詳情
- 轉成md文件
具體如圖所示
二. Jsoup介紹
我是用Jsoup來爬取網頁的,這個庫用起來十分方便,裏面的api基本跟用js獲取html元素差不多,易上手。具體介紹見這篇文章
三. 代碼講解
使用時只要改下main方法的userName,改成自己的就行了,md文件在_post下 使用了jsoup來爬取,使用起來分很方便。 具體邏輯如下
/**
* 爬csdn博客工具
* create by zhangtao
*/
public class climbUtil {
public static void main(String[] args) {
climb("qq_37221991");
}
private static void climb(String userName) {
System.out.println("》》》》》》》爬蟲開始《《《《《《《");
// 把下面這個base_url換成你csdn的地址
String baseUrl = "https://blog.csdn.net/" + userName + "/";
String secondUrl = baseUrl + "article/list/";
// 創建文件夾
File file = new File("./_posts/");
if (!file.exists()) {
file.mkdir();
}
for (int i = 1; ; i++) {
// 從第一頁開始爬取
String startUrl = secondUrl + i;
Document doc = null;
try {
doc = Jsoup.connect(startUrl).get();
} catch (IOException e) {
System.out.println("jsoup獲取url失敗" + e.getMessage());
}
Element element = doc.body();
//找到div class='article-list'
element = element.select("div.article-list").first();
if (element == null) {
break;
}
Elements elements = element.children();
for (Element e : elements) {
// 拿到文章id
String articleId = e.attr("data-articleid");
System.out.println(articleId);
// 爬取單篇文章
climbDetailById(baseUrl, articleId);
}
}
System.out.println("》》》》》》》爬蟲結束《《《《《《《");
}
private static void climbDetailById(String baseUrl, String articleId) {
String startUrl = baseUrl + "article/details/" + articleId;
Document doc = null;
try {
doc = Jsoup.connect(startUrl).get();
} catch (IOException e) {
System.out.println("jsoup獲取url失敗" + e.getMessage());
}
Element element = doc.body();
Element htmlElement = element.select("div#content_views").first();
Element titleElement = element.selectFirst(".title-article");
String fileName = titleElement.text();
System.out.println(fileName);
// 設置jekyll格式博客title
String jekyllTitle = "title: " + fileName + "\n";
// 設置jekyll格式博客categories
Elements elements = element.select("div.tags-box");
String jekyllCategories = "";
if (elements.size() > 1) {
jekyllCategories = "categories:\n";
jekyllCategories = getTagsBoxValue(elements, 1, jekyllCategories);
}
// 設置jekyll格式博客tags
String jekyllTags = "tags:\n";
jekyllTags = getTagsBoxValue(elements, 0, jekyllTags);
// 獲取時間
Element timeElement = element.selectFirst("span.time");
String time = timeElement.text().substring(5);
System.out.println(time);
// 設置jekyll格式博客date
String jekyllDate = "date: " + time + "\n";
String md = Html2Md.getMarkDownText(htmlElement);
// String md = HtmlToMd.getTextContent(htmlElement); 轉出來的效果不滿意,棄用
System.out.println(md);
String jekylltr = "---\n" + "layout: post\n" + jekyllTitle + jekyllDate
+ "author: 'zhangtao'\nheader-img: 'img/post-bg-2015.jpg'\ncatalog: false\n"
+ jekyllCategories + jekyllTags + "\n---\n";
String date = time.split(" ")[0];
String mdFileName = "./_posts/" + date + '-' + fileName + ".markdown";
md = jekylltr + md;
FileWriter writer;
try {
writer = new FileWriter(mdFileName);
writer.write(md);
writer.flush();
writer.close();
} catch (IOException e) {
e.printStackTrace();
}
}
private static String getTagsBoxValue(Elements elements, int index, String jekyllCategories) {
Elements categories = elements.get(index).select("a.tag-link");
for (Element e : categories) {
String temp = e.text().replace("\t", "").replace("\n", "").replace("\r", "");
jekyllCategories += "-" + temp + "\n";
}
return jekyllCategories;
}
}
末尾附送源碼地址
https://github.com/zntzhang/climbCSDNblogsUtils