陈峰做的医学图像处理领域的数据集少得可怜,这个很容易理解,跟医药相关的数据大多都是各大医院的机密,论文作者不会轻易公开。也就是因为陈峰的导师跟花城市第一人民医院有项目合作,所以才能拿到部分相关数据。但拿到数据只是个开始,还需要陈峰自己进行数据处理。
凌志就没这么幸运了,他的研究方向跟社交媒体中的舆情分析有关,具体而言就是找出社交网络中的水军,也就是属于同一个现实世界的人类的不同账号。他们通过多个账号发布垃圾评论扰乱社交网络秩序为乐,甚至有的商业机构会专门雇佣水军发表负面言论攻击竞争对手,影响十分恶劣。但水军自然不会告诉你自己是水军,而且社交网络的数据大多都很敏感,很少有人专门整理,所以这样的数据集很难弄到。凌志在过去一年的时间里在数据集上花费了大量的时间,目前他所用的比较好的办法是将同一个人发布的推文分成2份,假装是2个账号发布的,虽然不够真实,但从做实验的角度看足够了。
凌志并不觉得有数据集和没有数据集这两种情况孰优孰劣,但凌志相信一句话,只要你付出,虽然不一定成功,但一定会有收获。虽然凌志在科研上进展缓慢,但采集社交网络数据的过程让他掌握了数据采集、数据分析以及数据预处理等多项技能。该站采集不完全,请百度搜索格!!格!!党!,如您已在格!!格!!党!,请关闭浏览器广告拦截插件,即可显示全部章节内容!
看小说,630book。cc