[#] Опубликована полная база свободных репозиториев Github через интерфейс BigQuery
habrabot(difrex,1) — All
2016-06-30 16:30:03


### 2,8 млн репозиториев, 3 ТБ исходного кода и метаданных


![][1]

Google в сотрудничестве с Github [выложила][2] для общественного пользования полную актуальную базу всех open-source репозиториев через интерфейс [BigQuery][3]. (Проверка [свободной лицензии][4] осуществляется через API.)

Наборы данных [Google BigQuery Public Datasets][5] содержат информацию о более чем 2,8 млн свободных репозиториев, более 2 миллиардах файлов (исходный код последних версий 163 млн файлов), 145 млн коммитов и т.д. Общий размер базы — около 3 терабайт.

Раньше архивы Github выкладывались на [Github Archive][6]. Теперь всё это богатство доступно для полнотекстового поиска и анализа через простые SQL-запросы. Github [обещает][7] обновлять наборы данных еженедельно.
[Читать дальше →][8]

[1]: https://habrastorage.org/files/9bb/a5b/6a4/9bba5b6a416848e2a68937b408f17080.png
[2]: http://google-opensource.blogspot.com.by/2016/06/github-on-bigquery-analyze-all-code.html
[3]: https://cloud.google.com/bigquery/
[4]: https://developer.github.com/v3/licenses/
[5]: https://cloud.google.com/bigquery/public-data/
[6]: https://www.githubarchive.org/
[7]: http://venturebeat.com/2016/06/29/github-releases-data-on-2-8-million-open-source-repositories-through-google-bigquery/
[8]: https://habrahabr.ru/post/304476/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut