重点
PageRank 算法(暂时只写 的情况,考试只考 )
- 核心思想
- 如果一个网页被很多其他网页链接到则说明该网页比较重要,即
值相对较高 - 如果一个
值很高的网页链接到一个其他的网页 ,则被链接的网页的 值也相应提高
- 如果一个网页被很多其他网页链接到则说明该网页比较重要,即
- PageRank 算法原理
- PR 值的物理意义是一个网页被访问的概率,因此可设每个网页的
初值为 ,其中 为网页总数(其实最后收敛结果与初值无关,是马尔可夫过程)。通常情况下 - 迭代计算:页面
的 值计算公式为 ,其中 为链入页面 的页面, 为页面 的出度,之所以要除以 是因为从 指向 的概率被分散了,只有 的概率 - 经过几次迭代后,
值收敛稳定
- PR 值的物理意义是一个网页被访问的概率,因此可设每个网页的
- 排名泄露问题(简答题)
产生原因:如果存在某个网页没有出度,对其他网页没有值贡献,则会产生排名泄露问题,经过多次迭代后,所有网页的 值都趋向于 0
解决方案:为了满足 Markov 链的收敛性,设定其对所有网页(包括自身)都有出链,即该网页 - 排名下沉问题(简答题)
产生原因:如果存在某个网页没有入度,则会产生排名下沉现象,经过多次迭代后,该页面的值趋向于 0
解决方案:引入概率系数(先略了) 排名上升问题(简答题)
产生原因:某几个网页之间存在闭合回路,迭代后这几个网页值上升,其余网页 值趋向于 0
解决方案:引入概率系数值计算方法 - 幂迭代法
, 矩阵为状态转移矩阵(随机、不可约、非周期),一般一列一列看,每列元素之和为 1,一直迭代直到 - 特征值法
当 Markov 链收敛时,有,且 ,即 , 为状态转移矩阵 的特征值 对应的特征向量,求出 后对 进行归一化即得到结果 - 代数法
代公式,要算逆矩阵,开销比较大(。
话不多说,上个例题(考试就这样,不出要引入
的情况): 构造状态转移矩阵:
初始状态
- 迭代法:
,… - 特征值法:
代入 即 ,化成行最简得 ,得特征向量 ,归一化后得 。 - 代数法:
有点迷…先放着
- 幂迭代法
KMP 算法
- 求 Next 数组
爬虫
搜索引擎结构
- 爬取页面得到原始页面数据库
- 深度优先
- 广度优先
- 预处理
- 中文分词
- 去重
- 消除噪声
- 建立索引得到索引数据库
- 正向索引
以文档为索引 - 倒排索引
以关键词作为索引(关键词 i 包含在哪些文档里,然后取交集)
- 正向索引
- 用户搜索词处理
- 中文分词
- 去停止词
- 指令处理
- 拼写纠正
- 整合搜索触发
- 排名
- 初始集合选择
- 相关性计算/PageRank
- 排名过滤与调整(这一步中有个重点是施加惩罚对排名调整(某度竞价排名就是在此阶段))
- 排名显示
- 搜索缓存
- 查询日志(记录用户主要点击结果的那个链接,属于正反馈技术)
网络爬虫技术
系统框图
Web 规模扩大带来的问题
- 网络带宽利用率
- 分布式存储
爬取器陷阱
- 每次爬取一定要将已经爬取到的内容储存到数据库中并记录爬取到了哪里,不要每次重头再来,否则可能被对方服务器认定为恶意攻击(增量式采集)
- 检查 URL 长度
- 定期收集查看爬虫数据
同步异步、阻塞非阻塞
- 同步:线性执行程序,面向过程编程。发起一个请求,直到请求返回结果之后,才进行下一步操作
- 异步:将多个任务加到消息循环队列,不需要等待某操作的返回结果就可以发出下一个操作请求
- 阻塞:调用结果返回之前,当前线程被挂起。调用线程只有在得到结果之后才会被唤醒执行后续的操作
- 非阻塞:在结果没有返回之前,其他请求调用不会阻塞住当前线程
附并发、并行:
- 并发:当有多个线程在操作时,如果系统只有一个 CPU,操作系统只能把 CPU 运行时间划分成若干个时间段,再将时间段分配给各个线程执行,在一个时间段的快速的切换不同的线程代码运行
- 并行:当系统有多个 CPU 时,可以存在当一个 CPU 执行一个线程时,另一个 CPU 可以执行另一个线程,两个线程互不抢占 CPU 资源,可以同时进行。
信息检索模型
- 四元组
文档集的机内表示 用户需求的机内表示 文档表示、查询表示和它们之间的关系模型框架(检索函数) 排序函数
布尔模型
不支持部分匹配、难以控制被检索的文档数量、难以对输出进行排序、难以进行自动的相关反馈
文档集的机内表示——关键词的集合(集合是无重复元素的) 用户需求的机内表示——关键词用与或非连接起来 文档表示、查询表示和它们之间的关系模型框架(检索函数)——基于二值判定标准,满足布尔查询式时文档被检索出来 排序函数
正排索引:
倒排索引:
本体论
本体论模型
本体构造要点
基于本体的检索引擎搜索过程
非重点(bushi
第二章
网络文化现状
- 互联网是现在社会主要的信息媒介
- 网民规模大,普及率高,增长空间大,网络文化软实力强
- 手机网民数量多,占网民数量的 99%
- 互联网接入设备多样
- 人均上网时长长
- 互联网不良信息泛滥
- 淫秽色情
直播平台 - 网络赌博
- 网络诈骗
针对老年人等特殊群体,拼多多营销策略,虚假招工信息,虚拟中奖诈骗,网络兼职诈骗,钓鱼网站 - 其他
个人信息泄露,账号密码泄露,邪教
- 淫秽色情
- 国家级掌控措施
- 群众举报
- 搜索平台
谷歌(居心叵测,8.8.8.8)、百度、中搜 - 人工关注相关社区
天涯舆情、各种论坛
网络信息内容分类
- 网络信息存在形式
- 从服务特性角度分类
- 一阶
文件形式
超文本/超媒体
网站网页 - 二阶
主题目录
搜索引擎
虚拟图书馆 - 三阶
元搜索引擎(调用其他搜索引擎汇聚结果)
- 一阶
- 从传输角度分类
- 有线传输:光信号、电信号
- 无线传输
- 从服务特性角度分类
- 网络信息文化标准分类
- 网络违法犯罪案件
- 利用互联网进行违法案件
邪教,如此次疫情中的韩国
散布谣言扰乱社会秩序,老八角了
利用互联网进行颜色革命,老洪博培了
传播淫秽色情信息,虐待动物,暴力事件
敲诈勒索
诽谤他人,网络暴力
窃取篡改他人电子信息 - 危害互联网运行安全的违法案例
国人 DNA 信息
网络入侵与破坏
制作传播计算机病毒木马 - 重大互联网运行安全重大事件
- 利用互联网进行违法案件
- 网络违法信息
违反宪法基本原则(泄密)
损害国家利益、煽动民族仇恨(疆独藏独)等
宣扬邪教
散布谣言,扰乱社会秩序
侮辱或诽谤他人,侵犯他人合法权益 - 网络不良信息
balabala
- 网络违法犯罪案件
信息内容安全技术概述
- 内容安全分析模型
- 网络信息获取
旁路监听网关数据流、主动采集(爬虫) - 有效信息提取
网络协议解析、有效信息提取、媒体信息分离、数据缓冲存储 - 违规信息判断
文本识别、图像识别、视频识别 - 海量信息展示
分级展示、融合计算 - 违规信息管控
分析、预警、阻断(若没有权限可用其余信息淹没等)
- 网络信息获取
- 其他关键技术
信息安全技术及产品
- 传输安全
防窃听、防阻塞、防篡改、防盗用
加密认证
VPN、专网 - 网络安全
可控可靠
访问控制、认证、审计、入侵检测
防火墙、VPN - 应用安全
机密性、完整性、抗否认性、可用性
加密、验证、签名、备份
保密网关、加密卡 - 内容安全
净化内容、保护涉密信息
密级管理、搜索
检察系统、涉密检查
社交网络分析
社交网络研究意义
- 社交网络改变人们的生活方式(政治、教育、购物、文化、暴力、谣言、欺诈、色情)
- 社交网络的根本在于能够影响人们的思想(认识观、世界观、价值观、人生观)并迅速推动社会舆论,有害舆情给社会稳定带来巨大影响
- 社交网络为社会突发事件推波助澜(颜色革命)
- 国家与社会安全需求
社交网络研究现状
社交网络科学问题
- 结构与演化
- 社交网络结构建模与特性分析
- 虚拟社区发现和社交网络演化规律
- 群体互动
- 社交网络群体行为特征与情感分析及建模
- 社交网络群体聚集机理及演化规律
- 社交网络群体影响力建模及互动规律
- 信息与传播
- 社交网络信息内容和的表示和计算
- 社交网络中信息传播模型和演化规律
- 社交网络舆情信息的引导与溯源方法