随着互联网的飞速发展和信息技术的飞跃,即使足不出户,获取数量众多、内容详实的基础数据已经不再是难事。学术研究长期受制于数据的获取。传统学术研究数据基于统计资料以及政府的行业主管部门的官方数据,而互联网的高速发展用户主体的行为变得有迹可循,能为学术研究提供新的数据支撑。但是,面对如今互联网庞大的数据如何进行采集、抽取、清洗、格式化、组织往往力不从心;人工采集处理数据往往费时费力,市面购买往往价格高昂;很多研究尚未开始便石沉大海。互联网公开数据采集系统以完全自主研发的分布式云计算平台为核⼼,可以在很短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任何需要从网页获取信息的客户实现数据自动化采集、编辑、规范化,摆脱对人⼯搜索及收集数据的依赖,从⽽降低获取信息的成本、提⾼效率。采集完成的数据由内置的通⽤型API接口同步导出到其它系统,如可视化系统、语义分析系统、舆情分析系统等。目前广泛应用到政府、高校、企业、银⾏、电商、科研、媒体等众多行业及领域。现代的学术成果,除了拼研究方法,也要拼新的数据来源。本次报告将通过介绍互联网数据采集的新方法,为学术研究工作提供新的思路。 |