GitHub Archive-为了人类文明永存!

GitHub Archive

Archiving a GitHub repository
官网: https://help.github.com/cn/github/creating-cloning-and-archiving-repositories/archiving-a-github-repository

存档仓库:
您可以存档仓库,将其设为对所有用户只读,并且指出不再主动维护它。 您也可以取消存档已经存档的仓库。

关于存档仓库
在存档仓库时,要让人们知道不再主动维护项目。

在仓库存档后,便无法添加或删除协作者或团队。 具有仓库访问权限的贡献者只能对项目复刻或标星。

当仓库存档后,其议题、拉取请求、代码、标签、重要事件、项目、wiki、版本、提交、标记、分支、反应和注解都会变成只读。 要更改存档的仓库,必须先对仓库取消存档。

关于 GitHub 存档计划
GitHub 存档计划 允许第三方合作伙伴使用公共 API 存档公共仓库。 这些合作伙伴以不同频率存档不同类型的数据,并向公众提供数据。 GitHub 存档计划 还通过持续以各种数据格式和位置存储多个副本来保护数据,包括设计为至少持续 1,000 年的超长期存档。( 更多信息请参阅 GitHub 存档计划:https://archiveprogram.github.com/)

您可以选择退出仓库的 GitHub 存档计划。 更多信息请参阅“选择加入或退出公共仓库的 GitHub 存档计划”。

github存档计划

官网https://archiveprogram.github.com/

Preserving open source software for future generations.
为后代保留开源软件

Explore some of the top projects archived in the 2020 Arctic Vault program
探索2020年北极金库计划中的一些顶级项目

这里列了好多github上的知名项目:

dotnet/core
torvalds/linux
python/cpython
bitcoin/bitcoin
rails/rails
docker/machine
openssl/openssl
nodejs/node
Homebrew/brew
php/php-src
twbs/bootstrap
microsoft/TypeScript
apache/hadoop
v8/v8
Alamofire/Alamofire
gatsbyjs/gatsby
fastai/fastai
jimweirich/builder
zeit/next.js
WordPress/WordPress
rust-lang/rust
golang/go
angular/angular
jquery/jquery
ruby/ruby
facebook/react
CocoaPods/CocoaPods
jupyter/notebook
zeromq/libzmq
postgres/postgres
microsoft/MS-DOS
Netflix/chaosmonkey
robbyrussell/oh-my-zsh
xamarin/xunit
grafana/grafana
graphql/graphql-js
github/gh-ost
rspec/rspec
libgit2/libgit2
Many more

The world is powered by open source software.
It is a hidden cornerstone of modern civilization, and the shared heritage of all humanity. The mission of the GitHub Archive Program is to preserve open source software for future generations.

GitHub is partnering with the Long Now Foundation, the Internet Archive, the Software Heritage Foundation, Arctic World Archive, Microsoft Research, the Bodleian Library, and Stanford Libraries to ensure the long-term preservation of the world’s open source software. We will protect this priceless knowledge by storing multiple copies, on an ongoing basis, across various data formats and locations, including a very-long-term archive designed to last at least 1,000 years.

世界是由开源软件驱动的。

它是现代文明隐藏的基石,是全人类共同的遗产。GitHub存档程序的任务是为后代保留开源软件。

GitHub正与Long Now基金会、Internet Archive、软件遗产基金会、Arctic World Archive、Microsoft Research、Bodleian图书馆和斯坦福图书馆合作,以确保世界开源软件的长期保存。我们将通过不断地跨各种数据格式和位置存储多个副本来保护这一无价的知识,包括一个设计为至少可保存1000年的长期存档。

Why we use multiple forms of storage
As today’s vital code becomes yesterday’s historical curiosity, it may be abandoned, forgotten, or lost. Worse, albeit much less likely, in the case of global catastrophe, we could lose everything stored on modern media in a few generations. Archiving software across multiple organizations and forms of storage will help ensure its long-term preservation: online archivists call this “LOCKSS,” for Lots Of Copies Keeps Stuff Safe.

A worrying amount of the world’s knowledge is currently stored on ephemeral media: hard drives, SSDs, CDs good for a few decades, backup tapes whose notional 30-year lifespans assume strictly controlled heat and humidity. Because (some) hardware can be much longer-lived, there exists a range of possible futures in which working modern computers exist, but their software has largely been lost to bit rot. The GitHub Archive Program will include much longer-term media to address the risk of data loss over time.

为什么我们使用多种形式的存储

当今天的重要代码成为昨天的历史好奇心时,它可能会被抛弃、遗忘或丢失。更糟糕的是,在全球大灾难的情况下,我们可能会在几代人内失去存储在现代媒体上的一切。跨多个组织和存储形式的归档软件将有助于确保其长期保存:在线归档人员将此称为“锁”,因为许多副本可以保证数据的安全。

目前,世界上令人担忧的知识储存在短暂的媒体上:硬盘、固态硬盘、几十年的CD、概念上30年寿命的备份磁带,它们的热和湿度都受到严格控制。因为(某些)硬件可以使用更长的时间,所以存在着一系列可以工作的现代计算机的未来,但它们的软件很大程度上已被比特腐烂所丢失。GitHub存档程序将包括许多长期的介质,以解决随时间推移数据丢失的风险。

How the future might use our code
Future historians will be able to learn about us from open source projects and metadata. They might regard our age of open source ubiquity, volunteer communities, and Moore’s Law as historically significant. We are already partnering with Stanford Libraries to help archive curated repositories along with the cultural and other context in which they are set, as key elements of wide-ranging historical and social research and analysis.

未来如何使用我们的代码

未来的历史学家将能够从开源项目和元数据中了解我们。他们可能认为我们这个开源无处不在的时代、志愿者社区和摩尔定律具有历史意义。我们已经在与斯坦福大学图书馆合作,帮助归档馆藏以及它们所处的文化和其他背景,作为广泛的历史和社会研究和分析的关键要素。

It is easy to envision a future in which today’s software is seen as a quaint and long-forgotten irrelevancy, until an unexpected need for it arises. Like any backup, the GitHub Archive Program is also intended for currently unforeseeable futures as well.

人们很容易想象一个未来,在这个未来中,今天的软件被看作是一个古雅而被遗忘已久的无关紧要的东西,直到出现对它的意外需求。与任何备份一样,GitHub存档程序也适用于当前不可预见的未来。

代码归档策略

https://archiveprogram.github.com/

一种灵活、持久的代码归档策略

我们采用了一种“pace layers”策略来归档代码,其灵感来源于长期以来的创始人Steward Brand。此方法旨在通过提供一系列存储解决方案(从实时存储到长期存储)最大限度地提高灵活性和耐用性。存档程序分为三层:hot, warm, and cold.

Hot:近实时
warm:每月更新至每年
cold:每5年更新一次

github
每次推到GitHub,我们都会将您的Git数据复制到世界各地的多个数据中心。此外,我们将Git数据、问题、拉取请求和所有数据的备份存储在GitHub的多个位置。所有这些数据都可以通过GitHub API实时获得。

GH TORRENT
GHTorrent监视GitHub公共事件时间线,归档这些事件,并使用BigQuery使它们可查询。您还可以按小时、天或月下载快照。

GH ARCHIV
GHArchive监视GitHub公共事件时间线,归档这些事件,并递归地爬网和归档其内容和依赖项。这些档案将每天或每月提供下载。

INTERNET ARCHIVE
互联网档案馆著名的Wayback机器将抓取GitHub的公共存储库,包括新的存储库、问题、拉取请求、Wiki等,并将副本存储在旧金山和其他地方的硬盘上。这些档案将通过git和https公开。

SOFTWARE HERITAGE FOUNDATION(软件遗产基金会)
软件遗产基金会将定期对GitHub进行爬网,并将其公共repo添加到其档案中,为其提供公共API访问。

BODLEIAN LIBRARY(博德莱恩图书馆)
牛津大学博德莱恩图书馆将保留GitHub的10000个最受关注和最依赖的存储库作为复制Piql电影卷,为北极代码库提供冗余。

ARCTIC WORLD ARCHIVE (北极世界档案馆)
2020年2月2日,GitHub捕获了每个活动公共存储库的快照,保存在GitHub北极代码库中。这些数据将存储在3500英尺的胶卷上,由专门从事长期数据存储的挪威公司Piql提供和编码。薄膜技术依赖于聚酯上的卤化银。根据国际标准化组织(ISO)的测量,这种介质的使用寿命为500年;模拟老化试验表明,Piql薄膜的使用寿命是原来的两倍。

PROJECT SILICA FROM MICROSOFT RESEARCH(微软研究公司的二氧化硅项目)
GitHub存档程序正与微软的Silica项目合作,通过使用飞秒激光将所有活跃的公共存储库写入石英玻璃盘中,最终将它们存档超过10000年。

github 北极代码库

The GitHub Arctic Code Vault is a data repository preserved in the Arctic World Archive (AWA), a very-long-term archival facility 250 meters deep in the permafrost of an Arctic mountain. The archive is located in a decommissioned coal mine in the Svalbard archipelago, closer to the North Pole than the Arctic Circle. GitHub will capture a snapshot of every active public repository on 02/02/2020 and preserve that data in the Arctic Code Vault.

code
How the cold storage will last 1,000 years
Svalbard is regulated by the international Svalbard Treaty as a demilitarized zone. Home to the world’s northernmost town, it is one of the most remote and geopolitically stable human habitations on Earth.

The AWA is a joint initiative between Norwegian state-owned mining company Store Norske Spitsbergen Kulkompani (SNSK) and very-long-term digital preservation provider Piql AS. AWA is devoted to archival storage in perpetuity. The film reels will be stored in a steel-walled container inside a sealed chamber within a decommissioned coal mine on the remote archipelago of Svalbard. The AWA already preserves historical and cultural data from Italy, Brazil, Norway, the Vatican, and many others.

While Svalbard is affected by climate change, it’s likely to affect only the outermost few meters of permafrost in the foreseeable future. Warming is not expected to threaten the stability of the mine. The mine’s proximity to the famous Global Seed Vault, only a mile away, reinforces Svalbard’s status as a stable, very-long-term archive site for humanity’s collective knowledge.

What’s in the 02/02/2020 snapshot
The 02/02/2020 snapshot archived in the GitHub Arctic Code Vault will sweep up every active public GitHub repository, in addition to significant dormant repos. The snapshot will include every repo with any commits between the announcement at GitHub Universe on November 13th and 02/02/2020, every repo with at least 1 star and any commits from the year before the snapshot (02/03/2019 - 02/02/2020), and every repo with at least 250 stars. The snapshot will consist of the HEAD of the default branch of each repository, minus any binaries larger than 100KB in size—depending on available space, repos with more stars may retain binaries. Each repository will be packaged as a single TAR file. For greater data density and integrity, most of the data will be stored QR-encoded, and compressed. A human-readable index and guide will itemize the location of each repository and explain how to recover the data.

GitHub北极密码库是保存在北极世界档案馆(AWA)中的一个数据存储库,这是一个非常长期的档案设施,位于北极山区250米深的永久冻土中。档案馆位于斯瓦尔巴特群岛一座退役煤矿内,比北极圈更靠近北极。GitHub将在2020年2月2日捕获每个活动公共存储库的快照,并将这些数据保存在Arctic代码库中。

代码

cold storage将如何维持1000年

斯瓦尔巴群岛受《斯瓦尔巴群岛国际条约》管制,成为非军事区。它是世界上最北部城镇的所在地,是地球上最偏远、地缘政治最稳定的人类居住区之一。

AWA是挪威国有矿业公司Store Norske Spitsbergen Kulkompani(SNSK)和非常长期的数字保护提供商Piql AS共同发起的。AWA致力于永久性的档案存储。这些胶卷将存放在斯瓦尔巴特群岛一个废弃煤矿的密封室内的钢制容器中。AWA已经保存了意大利、巴西、挪威、梵蒂冈和其他许多国家的历史和文化数据。

虽然斯瓦尔巴受到气候变化的影响,但在可预见的未来,它很可能只影响最外层几米的永久冻土。预计升温不会威胁矿井的稳定。该矿距离著名的全球种子库只有一英里之遥,加强了斯瓦尔巴特作为一个稳定的,非常长期的人类集体知识档案网站的地位。

2020年2月2日快照中的内容

2020年2月2日归档在GitHub Arctic代码库中的快照将清除所有活动的公共GitHub存储库,以及大量的休眠回购。快照将包括从11月13日在GitHub Universe的公告到2020年2月2日的所有承诺回购,从快照发布前一年(2019年3月2日-2020年2月2日)起的所有承诺回购,以及至少250星的所有承诺回购。快照将由每个存储库的默认分支的头部组成,减去任何大小大于100KB的二进制文件(取决于可用空间),具有更多星型的repo可能保留二进制文件。每个存储库都将打包为一个TAR文件。为了获得更大的数据密度和完整性,大多数数据将被存储为QR编码并压缩。人类可读的索引和指南将逐项列出每个存储库的位置,并解释如何恢复数据。

如何确保未来可以使用我们的软件

我们将召集一个GitHub档案项目咨询小组,包括人类学、考古学、历史学、语言学、档案学、未来主义等方面的专家,就档案中应包括哪些内容以及如何与继承人进行最佳沟通向我们提供建议。

一千年是很长的一段时间。像吴哥窟、大津巴布韦和马丘比丘这样的古代遗迹,一千年前还没有建成。尽管如此,我们可以考虑并计划在今后1000年中有广泛的可能性。这个计划建立在我们今天的最佳想法之上。

档案的介绍将包括QR解码、文件格式、字符编码和其他关键元数据的技术指南,以便将原始数据转换回源代码供将来的其他人使用。档案馆还将包括一棵技术树——一个路线图和罗塞塔石,供未来好奇的人们继承档案馆的数据。

技术树概述了存档和如何使用它,它将作为软件开发和计算的快速入门手册,与存档的用户指南捆绑在一起。它将描述如何从原始数据向后工作到源代码,并提取项目、目录、文件和数据格式。

受长期以来的《文明手册》的启发(包括其中的一些内容),该档案馆还将包括应用开源的信息和指导,以及我们今天如何使用开源的背景,以防未来的读者需要从头开始重建技术。就像《旅行者1号》和《旅行者2号》的黄金纪录一样,它将有助于向未来传达我们这个世界的故事。

在人类可以使用现代计算机,但没有软件可以运行的未来,档案馆及其技术树可能是非常有价值的。然而,它的价值更可能是历史性的,也许可以确保今天的技术不会被一个不经意地认为无关紧要的明天所丢失,直到我们的软件被发现意外使用。

github archive计划 FAQ

官网:https://archiveprogram.github.com/faq/

参考

GitHub Archive分析 - 2015最受瞩目的项目们
参考URL: https://segmentfault.com/a/1190000004401498

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章