![][1]
Google в сотрудничестве с Github [выложила][2] для общественного пользования полную актуальную базу всех open-source репозиториев через интерфейс [BigQuery][3]. (Проверка [свободной лицензии][4] осуществляется через API.)
Наборы данных [Google BigQuery Public Datasets][5] содержат информацию о более чем 2,8 млн свободных репозиториев, более 2 миллиардах файлов (исходный код последних версий 163 млн файлов), 145 млн коммитов и т.д. Общий размер базы — около 3 терабайт.
Раньше архивы Github выкладывались на [Github Archive][6]. Теперь всё это богатство доступно для полнотекстового поиска и анализа через простые SQL-запросы. Github [обещает][7] обновлять наборы данных еженедельно.
[Читать дальше →][8]
[1]:
https://habrastorage.org/files/9bb/a5b/6a4/9bba5b6a416848e2a68937b408f17080.png
[2]:
http://google-opensource.blogspot.com.by/2016/06/github-on-bigquery-analyze-all-code.html
[3]:
https://cloud.google.com/bigquery/
[4]:
https://developer.github.com/v3/licenses/
[5]:
https://cloud.google.com/bigquery/public-data/
[6]:
https://www.githubarchive.org/
[7]:
http://venturebeat.com/2016/06/29/github-releases-data-on-2-8-million-open-source-repositories-through-google-bigquery/
[8]:
https://habrahabr.ru/post/304476/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut