当前位置:首页 > mt4平台下载 >

有很多老网站的数据2023年4月9日

  有很多老网站的数据2023年4月9日ChatGPT一炮而红,让邦内良众公司滥觞做大说话模子。然后他们很速就碰到了第一个题目,陶冶数据何如来。有些公司去买数据,有些公司雇用爬虫工程师。但借使现正在才开拓爬虫,那畏惧仍然来不足了。

  假使爬虫工程师万分厉害,能够破解大肆反爬虫机制,能够让爬虫跑满搜集带宽,但是要陶冶出GPT-3这种界限的大说话模子,这个数据并不是一天两天就能爬完的。而且,有良众老网站的数据,早就被删除了,爬虫念爬也爬不到。

  借使你看了本日这篇作品,那么祝贺你,你即将分明奈何敏捷获取600亿网站的数据。从2008年滥觞爬取,这些网站数据横跨40众种说话。截止我写这篇作品的时间,最新的数据积攒到了2023年2月。只须是Google现正在或者已经征采获得的网站,你正在这里都能找到。独一限制你的,即是你的硬盘巨细——仅仅2023年1月和2月的网页加到一齐,就有400TB。况且一切这些数据,全体免费!不必要注册登录!不必要梯子!不必要下载任何格外软件!只必要浏览器或者Linux中的wget夂箢就能直接下载。

  获取数据的形式,网站仍然写到了Get Started[2]中。咱们来看看这个页面的第一段话:

  Common Crawl的数据存在正在亚马逊S3上面,咱们能够直接通过HTTP来下载。当然借使你硬盘够大,你能够写代码来批量下载全盘数据,这个时间能够操纵Python的boto3模块拜望S3.

  我用HTTP下载的体例,来给民众演示一下这个数据何如下载和操纵。咱们正在上面提到的Get Started页面,找到你念下载数据的工夫点。比如我念下载2023年1月和2月的网站数据,如下图所示:

  从这个页面上,咱们能够看到这个数据集的简介。2023年1月到2月的数据,从1月26号滥觞抓取,到2月9号截止。包罗315亿个页面。原始数据不压缩的景况下有400TB。这些网站来自3300万个域名,130亿个之前没有抓过的URL。

  此中WARC files文献,记实的是网页的原始HTML代码。WET files文献,记实的是简陋执掌后,提取出来的网页一切纯文本。

  以WARC文献为例,点击File List中的链接,会主动下载一个很小的压缩文献warc.paths.gz。这个文献必要操纵gunzip夂箢来解压缩。这个夂箢外面上正在macOS和Linux中都是自带的。操纵如下夂箢解压缩:

  解压杀青今后,会天生一个warc.paths的文献。这个文献有9.2MB,也万分的小。咱们能够操纵vim或者less夂箢查看内部的实质,如下图所示:

  这内部列出来的是差异工夫段的文献。咱们能够挨次下载每个文献,永诀解压缩。如许分文献,是Common Crawl为了利便民众下载而做的。不然一次性下载几十TB,谁受得了。

  咱们随意找一个地点,比如crawl-data/CC-MAIN-2023-06/segments/26.88/warc/CC-MAIN-1.warc.gz。把这个地点前面拼接上域名,以是完好的URL应当是:。这即是不妨下载这个工夫段数据的URL了。这个压缩文献有好几个G,以是不倡导直接正在浏览器上面掀开这个URL。咱们能够操纵wget夂箢来下载。当然你也能够用迅雷来下。

  下载杀青今后,会获得一个CC-MAIN-1.warc.gz文献,一直操纵gunzip夂箢解压缩,获得CC-MAIN-1.warc文献。这个文献本色上是一个文本文献,能够操纵vim或者less夂箢查看:

  这内部记实的是网站的元音信和HTML。数据是以WARC方式储蓄的。合于这个方式,正在上面提到的Get Started页面能够看到全部的解释:

  你能够直接写一个步伐来解析,或者装置少许现成的步伐来解析,并转成JSON或者其他方式。Ubuntu下面能够操纵apt夂箢装置warcat来解析,这里就不众说了。借使不分明何如解析也能够问一问ChatGPT。

  算是一个比力粗拙的正文提取形式,仅仅是把页面上的一切文本全盘提取出来了云尔。

  借使你念让讯息类、博客类作品的提取功效更好,那么能够试一试把这个WARC方式内部的HTML提取出来,然后操纵我的GNE[3]来提取正文,提取功效就会好万分众:

  一目了然,中文互联网是封锁的互联网。但不要以是就认为现正在仍然没有良心网站了。Common Crawl就属于如许的良心网站,全体免费,不必要注册登录,没有任何束缚,不必要装置任何软件,直接获取15年来绝大部门网站的原始数据。

  • 关注微信

猜你喜欢