有很多老网站的数据2023年4月9日

admin
mt4平台下载
2023-04-09 14:20
admin

　　有很多老网站的数据2023年4月9日ChatGPT一炮而红，让邦内良众公司滥觞做大说话模子。然后他们很速就碰到了第一个题目，陶冶数据何如来。有些公司去买数据，有些公司雇用爬虫工程师。但借使现正在才开拓爬虫，那畏惧仍然来不足了。

　　假使爬虫工程师万分厉害，能够破解大肆反爬虫机制，能够让爬虫跑满搜集带宽，但是要陶冶出GPT-3这种界限的大说话模子，这个数据并不是一天两天就能爬完的。而且，有良众老网站的数据，早就被删除了，爬虫念爬也爬不到。

　　借使你看了本日这篇作品，那么祝贺你，你即将分明奈何敏捷获取600亿网站的数据。从2008年滥觞爬取，这些网站数据横跨40众种说话。截止我写这篇作品的时间，最新的数据积攒到了2023年2月。只须是Google现正在或者已经征采获得的网站，你正在这里都能找到。独一限制你的，即是你的硬盘巨细——仅仅2023年1月和2月的网页加到一齐，就有400TB。况且一切这些数据，全体免费！不必要注册登录！不必要梯子！不必要下载任何格外软件！只必要浏览器或者Linux中的wget夂箢就能直接下载。

　　获取数据的形式，网站仍然写到了Get Started[2]中。咱们来看看这个页面的第一段话：

　　Common Crawl的数据存在正在亚马逊S3上面，咱们能够直接通过HTTP来下载。当然借使你硬盘够大，你能够写代码来批量下载全盘数据，这个时间能够操纵Python的boto3模块拜望S3.

　　我用HTTP下载的体例，来给民众演示一下这个数据何如下载和操纵。咱们正在上面提到的Get Started页面，找到你念下载数据的工夫点。比如我念下载2023年1月和2月的网站数据，如下图所示：

　　从这个页面上，咱们能够看到这个数据集的简介。2023年1月到2月的数据，从1月26号滥觞抓取，到2月9号截止。包罗315亿个页面。原始数据不压缩的景况下有400TB。这些网站来自3300万个域名，130亿个之前没有抓过的URL。

　　此中WARC files文献，记实的是网页的原始HTML代码。WET files文献，记实的是简陋执掌后，提取出来的网页一切纯文本。

　　以WARC文献为例，点击File List中的链接，会主动下载一个很小的压缩文献warc.paths.gz。这个文献必要操纵gunzip夂箢来解压缩。这个夂箢外面上正在macOS和Linux中都是自带的。操纵如下夂箢解压缩：

　　解压杀青今后，会天生一个warc.paths的文献。这个文献有9.2MB，也万分的小。咱们能够操纵vim或者less夂箢查看内部的实质，如下图所示：

　　这内部列出来的是差异工夫段的文献。咱们能够挨次下载每个文献，永诀解压缩。如许分文献，是Common Crawl为了利便民众下载而做的。不然一次性下载几十TB，谁受得了。

　　咱们随意找一个地点，比如crawl-data/CC-MAIN-2023-06/segments/26.88/warc/CC-MAIN-1.warc.gz。把这个地点前面拼接上域名，以是完好的URL应当是：。这即是不妨下载这个工夫段数据的URL了。这个压缩文献有好几个G，以是不倡导直接正在浏览器上面掀开这个URL。咱们能够操纵wget夂箢来下载。当然你也能够用迅雷来下。

　　下载杀青今后，会获得一个CC-MAIN-1.warc.gz文献，一直操纵gunzip夂箢解压缩，获得CC-MAIN-1.warc文献。这个文献本色上是一个文本文献，能够操纵vim或者less夂箢查看：

　　这内部记实的是网站的元音信和HTML。数据是以WARC方式储蓄的。合于这个方式，正在上面提到的Get Started页面能够看到全部的解释：

　　你能够直接写一个步伐来解析，或者装置少许现成的步伐来解析，并转成JSON或者其他方式。Ubuntu下面能够操纵apt夂箢装置warcat来解析，这里就不众说了。借使不分明何如解析也能够问一问ChatGPT。

　　算是一个比力粗拙的正文提取形式，仅仅是把页面上的一切文本全盘提取出来了云尔。

　　借使你念让讯息类、博客类作品的提取功效更好，那么能够试一试把这个WARC方式内部的HTML提取出来，然后操纵我的GNE[3]来提取正文，提取功效就会好万分众：

　　一目了然，中文互联网是封锁的互联网。但不要以是就认为现正在仍然没有良心网站了。Common Crawl就属于如许的良心网站，全体免费，不必要注册登录，没有任何束缚，不必要装置任何软件，直接获取15年来绝大部门网站的原始数据。

微信分享