对网络爬虫技术的研究
科技 创 业PIONEERINGWITHSCIENCE& TECHNOLOGYMONTHLY月刊科技创业月刊 2010 年第 10 期随着网络技术的飞速发展 , 互联网已经称为全球最大的信息载体 。 如何快速有 效 地 提 取 并 利 用 这 些信 息 成 为 一个 巨 大 的 技术 挑 战 。 搜 索 引 擎 ( SearchEngine) 的出现 , 使得人们能够迅速检索到自己所需要的信息 , 为人们提供了打开互联网这个巨大知识宝库的钥匙 。 网络爬虫是搜索引擎的重要组成部分 , 通过网络爬虫 , 搜索引擎才能采集到互联网上数亿的网页信息 。 网络爬虫效率的提高 , 是搜索引擎领域的研究热点 。1 网络爬虫的工作原理所谓网络爬虫 ( Web Spider) 是一个自动提取网页的程序 , 它可以从万维网上自动下载网页 , 并将收集到的信息存储到本地数据库中 。 网络爬虫被设计用来从 互 联 网 上 海 量 的 信 息 中 抓 取 网 页信息 , 是搜索引擎的重要组成部分 。1.1 网络爬虫的基本结构传 统 网 络 爬 虫 包 括 一 个 协 议 处 理模 块 , URL 处 理 模 块 和内 容 检 测 模 块 。其中 , 协议处理模块用来提供网络爬虫在爬行是所需的网络协议 ; URL 处理模块负责对采集的 URL 进行排序 ; 内容检 测模 块 用 来 处 理 网 络 上 大 量 存 在 的内容重复的页面 , 从而提高网络爬虫的工作效率 。 网络爬虫的基本功能结构如图 1 所示 。1.2 网络爬虫的工作流程传 统 的 网 络 爬 虫 从 一 个 或 若 干 初始网页的 URL 开始 , 获得初始网页上的 URL 列表 , 在抓取网页的过程中 , 不断从当前页面上抽取新的 URL 放 入队列 , 直到满足系统的一定停止条件 。 其工作流程如图 2 所示 :1.3 网络爬虫的搜索策略互联网上的资源极其丰富 , 网络爬虫 需 要 采 取 一 定的 策 略 优 先 爬 取 重 要性高的网页 。 目前主流的网页搜索策略主要有 三 种 , 即 : 深 度 优 先 、 广度 优 先 、最佳优先 。深 度 优 先 搜 索 策 略 是 指 从 设 定 的初始 URL 开始 , 进入并分析 这个网页中的 URL, 选择一个再进入 。 如此一个链接一个链接地深入追踪下去 , 处理完一条路线之后再处理下一条路线 。 深度优先型网络爬虫存在一个问题 : 一些门户网站提供的链接往往具有很高价值 ,PageRank值 也 很 高 , 而 每 深 入 一 个 层次 , 网页价值和 PageRank都会相应地有所下降 。广度优先搜索策略的基本思想是 :与种子 URL 在一定距离内的网页重要度较高 , 因此可以从起始网页开始 , 抓取其中所有链接的网页 , 然后从中选择一个 , 继续抓取该网页中的所有链接页面 , 即 首 先 完 成 同 一层 次 的 搜 索 , 才 进行下一层次的搜索 。 该算法的设计和实现相 对 简 单 并 且 能 够 获 得较 高 的 网 络覆盖率 。在聚焦爬虫的应用中 , 广度优先策略可以与网页过滤技术结合 , 即先用广度优先抓取一些网页 , 再将其中与主题无关的过滤掉 。 随着抓取网页的增多 ,大量的无关网页将被下载并过滤 , 算法的效率将变低 。最 佳 优 先 搜 索 策 略 按 照 一 定 的 网页分析算法 , 预测候选 URL 与目标网页的相似度 , 选取其中评价最好的一个或几个 URL 进行抓取 。 存在的一个问题是 , 在爬虫抓取路径上的很多相关网对网络爬虫技术的研究杨靖韬 陈会果( 解放军通信指挥学院六系二十队 湖北 武汉 430010)摘 要 : 网络爬虫是一种自动下载网络资源的程序 , 是搜索引擎的基础构件之一 , 它的性能直接决定了在庞大的互联网上进行网页信息采集的质量 。 文章对网络爬虫相关技术以及聚焦网络爬虫的特点进行了分析和探讨 。关键词 : 网络爬虫 ; 搜索策略 ; 聚焦网络爬虫中图分类号 : TP393 文献标识码 : A收稿日期 : 2010- 08- 02图 1 通用网络爬虫功能结构图170P IONEERING WITH SCIENCE & TECHNOLOGY MONTHLY NO.10 2010页可能被忽略 。 因为最佳优先策略是一种局部最优搜索算法 。 因此需要将最佳优先结合具体的应用进行改进 , 以跳出局部最优点 。2 聚焦网络爬虫简介传 统 网 络 爬 虫 被 设 计 来 获 得 尽 可能高的网络覆盖率 , 在这一过程中它并不关 心 采 集 页 面 的 顺 序 和 被 采 集 页 面相关的主题 。 我们在使用搜索引擎的过程中会遇到不少这样的情况 , 即搜集到的网页并不是我们想要的领域内容 。为了解决上述问题 , 一种能够定向抓 取 相 关 页 面 资源 的 聚 焦 爬 虫 应 运 而生 。 聚焦爬虫是能够根据既定的抓取目标 , 有选择的访问互联网上的网页和相关的链接 , 获取所需要的网页信息 。 聚焦 爬 虫 在 工 作 过 程 中 需 要根 据 一 定 的网页分析算法过滤与主题无关的链接 ,保留 有 用 的 链 接 并 将 其 放入 等 待 抓 取的 URL 队列 。 然后 , 它将根据一定的搜索策 略 从 队 列 中 选 择 下 一步 要 抓 取 的网 页 URL, 并 重 复上 述 过 程 , 直 到 达 到系统的某一条件时停止 。 与传统的网络爬虫不同 , 聚焦爬虫并不追求很大的网络覆盖率 , 而是将目标定为抓取与某一特定主题相关的网页 , 为面向主题的用户查询提供信息资源 。聚 焦 爬 虫 还 需 要 解 决 以 下 几 个 主要问题 :( 1) 如何对目标网页进行描述 ;( 2) 如何对网页和数据进行分析和过滤( 3) 对 URL 的搜索和排序策略 。3 结语关 于 网 络 爬 虫 技 术 研 究 是 当 前 计算机科学的一个研究热点 。 本文对网络爬虫的相关概念和技术了介绍和探讨 ,随着人们对信息搜索需求的不断增加 ,网络爬虫也将向高效化 、 智能化方向迅速发展 。参考文献1 陈言 , 颜晨 阳 . 一 种 网络 爬虫 的 带缓 存非阻塞异步域名解析器模型及其性能分析[ J] . 软件导刊 , 2009( 11)2 杨定中 , 赵刚 . 网络爬虫在 Wed 信息搜索与 数 据 挖 掘 中 的 应 用 [ J] . 计 算 机 工 程 与设计 , 2009( 24)3 梁雪松 , 张 容 . 网 络 爬虫 对网 络 安全 的影响及其对策分析 [ J] . 计算机与数字工程 ,2009( 12)4 吴小惠 . 分布式网络爬虫 URL 去重策略的改进 [ J] . 平顶山学院学报 , 2009( 5)( 责任编辑 高 平 杜倩倩 )1 概述大功率内燃设备 , 电启动马达功率很大 , 需要几块单电池并联或串联后才能达到启动马达所需电量 。 启动马达起动电流很高 , 当蓄电池容量降低时 , 大电 流 放 电 很 容易 导 致 蓄 电 池 过 放 电 而损坏蓄电池 。 为保护蓄电池避免因过放电损坏 , 根据实际使用情况设定蓄电池放电终止电压 , 通过过放电保护保护电路 来 监 控 , 来 保 护 蓄 电 池 , 延 长 蓄 电 池使用寿命和设备无故障运行时间 。以矿山电动自卸车为例 , 卡车熄火后 , 用 电 装 置 未 及 时 关 闭 或 长 时 间 放置 , 导致 因 蓄 电 池 容 量 降 低 , 再 次 启 动时因起动电流太大 , 很容易造成蓄电池过 放电 , 降 低 蓄 电 池 寿 命 , 严 重 时会 损坏蓄电池组 。 为了阻止蓄电池过放电现象的发生 , 降低设备检修成本和工人劳动强度 , 文章设计一蓄电池过放电保护保护电路 , 保护电路监测到单蓄电池电压降至 10V 时 , 保护装置自动切断负载供 电 电 路 , 防 止 蓄 电 池 过 放电 ; 并 显 示蓄电池容量底报警信号 。2 放电终止电压设定根 据 铅 酸 蓄 电 池 放 电 电 压 与 放 电率的关系 , 结合启动马达正常工作所需的电池容量 , 来确定蓄电池放电终止电压 。矿山卡车起动时 , 启动马达起动电流为 600A, 卡车配备 6 块进口澳铁马阀控式密封铅酸蓄电池 , 电池标称电压矿用卡车启动蓄电池过放电保护电路的实现李海军 张 勇( 神华准格尔能源有限责任公司 内蒙古 准格尔 010300)摘 要 : 铅酸蓄电池用作大功率内燃设备启动电源 , 常因蓄电池容量降低导致蓄电池过放电 , 大大降低蓄电池的使用寿命 。 利用蓄电池电压采集电路采集的电压信号来确定蓄电池剩余容量多少 , 当发现蓄电池剩余容量低于警戒线时 , 放电保护电路会发出警报 , 通知操作人员尽快为蓄电池充电 ; 当操作人员 30秒内没有关断供电主电路 , 保护电路会自动切断主电路 , 避免因误操作导致蓄电池过放电 , 进而延长电池寿命 。 在蓄电池容量恢复正常后 , 保护电路会自动打开供电线路 。关键词 : 铅酸蓄电池 ; 内燃设备 ; 电压采集电路 ; 放电保护电路中图分类号 : TM912 文献标识码 : A收稿日期 : 2010- 07- 20应用技术171