项目背景
互联网信息内容庞杂多样,既有大量进步、健康、有益的信息,也有不少危害社会安全的内容。互联网作为一块正在加速膨胀的思想阵地,加上其虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的人们愿意通过这类渠道表达自己的个人想法,因此网络舆情的爆发将以“内容威胁”的形式逐渐对社会公共安全形成威胁,也给政府宣传部门工作带来困难和挑战。
客户需求
1、突发事件监测与跟踪。
2、自动生成专业舆情分析报告。
3、建立完善网络舆情监测管理体系。
4、舆情监测系统及时发现问题并预警
痛点分析
1、如何了解政府当前热点事件和最新网络动态?
2、如何了解政府主要领导干部的敏感信息?
3、如何了解网民对政府各部门的意见与建议?
4、如何了各类大小民生问题信息等?
舆情监测子系统
通过建立城市管理网络舆情采集系统,采用网络抓取信息技术及时发现、采集、接收网络上对城市管理方面的各种新闻、咨询、投诉、举报等事件,掌握城市舆情信息,了解学习各地城市经营,对城市管理突发事件迅速做出相应措施,增加信息透明度,准确、及时地发布权威信息,使谣言破灭,从而有效引导舆论。
是采取适当的舆情引导与控制手段,是建立科学有效的舆情应对机制的必需。加强网络舆情分析与研判工作,区分不同性质的涉及城市管理的负面舆情,可以正确的为相关部门提供决策参考。善与媒体沟通,借助媒体传达市城市管理的声音,掌握舆论引导主动权。
采集引擎
建立采集引擎,实时、高效的采集用户定制的网络舆情数据。网络环境下的舆情信息的主要来源有:新华网、人民网、微信、微博等公共网络信息平台,需要实时抓取这些信息源。
舆情采集规则定义
定义各种舆情采集的规则,先定义“城管、城市管理、、城管执法”等各种采集关键字,然后定义关键字的“+”,“-”,“{N,M}”等计算逻辑准则,实现对舆情监控的采集规则定义。
舆情信息采集
实现第一时间获取关于济南城管的正负面新闻、形象信息、领导的相关报道、近期关于城管的舆论热点等。
舆情存储
通过信息采集可以将抓取的信息存储在本地数据库系统,同时也可以将抓取页面存储在本地文件系统。面向城管主题建设本地数据存储系统,高效、安全的存储信息,提高信息的访问效率以及数据质量。
舆情分类
根据需求从不同侧面动态的定义关键字设立分类准则,通过自动分类技术,可对用户关注的敏感信息和城管形象、城管建设等各个重点领域进行监控,实现对敏感信息的有效监控。用户可自定义分类规则,输入分类关键词,进行精准分类;可根据用户需求从不同侧面、不同维度设置分类,并可以动态维护分类。
自动聚类
系统利用关键词过滤、语义分析、数值统计识别被关注话题,以及热点和敏感话题,对其趋势变化进行追踪,及时以邮件、短信、消息等方式提醒。
根据自动聚类技术,实现话题的及时发现和提取,并可以追踪话题事件的传播路径。实现对重要的热点新闻信息进行分析和追踪,对于突发事件引起的网络舆情,可以及时掌握舆情爆发点和事态。系统会根据新闻文章数及文章在各大网站和社区的传播链进行自动跟踪统计,提供不同时间段(1天、3天、7天、10天)的热点新闻。对每条热点新闻还可以查看新闻相关传播链,了解在某一时间段该热点新闻在哪些站点的传播数量。也提供热点帖子、热点专题等。
自动排重
网页去重的任务就是去掉网页中主题内容重复的部分,文本去重的基本方法是对页面特征关键词计算指纹,即从页面主题内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹。这里的关键词选取是在分词,去停止词,消噪之后,本项目采用指纹计算方法如I-Match算法。
I-Match算法的基本思想是:将文档中有语义的单词用hash的办法表示成一个数字,数字的相似性既能表达文档的相似性.算法的框架是:
1. 获取文档(或者是主体内容)
2. 将文档分解成token流,移除格式化的标签
3. 使用term的阈值(idf),保留有意义的tokens
4. 插入tokens到升序排列的排序树中
5. 计算tokens的SHA1
6. 将元组(doc_id,SHA hash) 插入到某一词典中,如果词典有冲突,这两个文档相似。
可以提供多层面、多角度分析:口碑分析、专题分析、趋势分析、事件分析等。舆情简报为领导和业务管理人员进行舆情分析与决策提供展现和支持。
自动过滤
系统自动过滤网页中新闻的正文内容,剔除广告、版权等垃圾信息。实现对采集的信息可自动抽取关键词、自动摘要、多维度自动分类(地区分类、舆情分类、内容分类)、按文章关键词自动关联相关报道。
舆情展现
可以提供多层面、多角度分析:口碑分析、专题分析、趋势分析、事件分析等。舆情简报为领导和业务管理人员进行舆情分析与决策提供展现和支持。