项目背景
公司要求做爬虫,最开始的时候,爬虫爬取下来的文件是存储在服务器的共享盘(Linux NFS服务器的安装与配置)。因为最开始是爬虫也没有达到分布式,只是部署在一台服务器上。但是后面想要最高效的爬取网站,选用了netty做消息框架,涉及到监控,分解,任务队列,爬虫四个模块,此时,之前爬虫的存储方式就出现了一定的瓶颈:
- 爬虫存储在一个共享盘,需要这个共享盘足够大,磁盘io压力全部堆积到一台机器上。
- 文件没有进行备份,共享盘出现故障,爬取的所有文件都失效了
针对出现的种种问题,团队内也对现今流行的分布式文件系统进行了一个对比,最终决定采用FastDFS来实现。

