GitHub仓库统计工具

原創

2020-06-29 16:25

今天的主题是做一个简单的GitHub的仓库统计工具，目标是输入GitHub用户名获取其所有仓库的star以及fork数目，可以看作是一个简单的爬虫实战。

我们利用requests爬取GitHub所提供的仓库数据api，该api的格式如下，

https://api.github.com/users/<GitHub user name>/repos

这些json格式的数据是很方便解析的，我们只需要获取仓库名，仓库语言，标星数目以及fork数目这些Key对应的值即可。需要注意的是，fork而来的仓库不计算在内，因而我们需要对该布尔值进行判断，筛选出所有自建的仓库。

def crawl(name):

    headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'}
    flag=True
    repo=[]
    page=1
    while flag:        
        url='https://api.github.com/users/{}/repos?page={}'.format(name,page)
        try:
            r=requests.get(url,headers=headers)
            data=r.json()
            if len(data) == 0:
                flag=False
            for i in data:
                if not i['fork']:
                    repo.append([i['name'],i['language'],i['stargazers_count'],i['forks_count']])
            page+=1
        except Exception as e:
            print(e) 
            break
    repo=sorted(repo, key=lambda x: x[2], reverse=True)
    repo.append(['Total','/',sum([i[2] for i in repo]), sum([i[3] for i in repo])])
    return repo

获取数据之后做一些简单的处理，按照star数目将repo列表从高到低排列，接着对该用户的所有仓库进行加和统计。

接着就是数据的打印了，传统的打印输出不够美观，于是我用了prettytable，以表格的形式将仓库的数据整齐美观的打印出来。

def pretty_print(repo):

    x=PrettyTable()
    x.field_names=["Repository","language","Star","Fork"]
    for i in repo:
        x.add_row(i)
    print(x)

GitHub还提供了许多api，可以用于查询项目最新的提交信息，用户的基本信息，用户的follows列表等等，非常方便。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

GitHub仓库统计工具

[转帖]使用NMT和pmap解决JVM资源泄漏问题原创

Python实现大麦网抢票的四大关键技术点解析

Python 安装库指令大全

salesforce零基础学习（一百三十八）零碎知识点小总结（十）

一款开源的.NET程序集反编译、编辑和调试神器

关于接口协议，你必须要知道这些！

【2024-05-21】以茶会友

一眼看清股市狀況之用Python繪製K線圖

我的2019年度代碼報告

用Python拓展副業的幾種方式

定製你的私人arXiv論文報告，掌握一手科研動態

用Python獲取可能是全網最全的傑尼龜表情包（第二彈）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結