采集操作使用详细说明

2014-02-01  来源:本站原创  分类:应用技巧  人气:0 

一、项目编辑--基本设置

  项目名称: 电脑入门 (注:随便写)
  网站名称: it.com.cn (注:随便写)
  网站地址: http://www.it.com.cn (注:随便写)
  新闻列表网址:http://www.it.com.cn/edu/readme/ (注:采集网站哪个网站的网址。)
  项目备注: 记得经常采集这个栏目。 (注:随便写)

二、项目编辑--采集目标源码

  列表开始代码:(注:要找到唯一的)
  列表结束代码:频道精选
  列表索引分页:(注:这里有三种,<设置标签>、<批量生成>、<手动添加>)

  1、设置标签:
  下页开始标记:下页结束标记:>下一页 (注:要找到唯一的)
  索引分页重定向: (注:不知何意,请老大指教!)

   2、批量生成 (注:这里设置生成范围为 1 TO 5 是不行的,没index_1.html这个目标,有些网站是可以。)
  原字符串:http://www.it.com.cn/edu/readme/index_{$ID}.html
  生成范围:2 To 5

  3、手动添加(注:这里不能添加:http://www.it.com.cn/edu/readme/index_1.html,理由同上)
  http://www.it.com.cn/edu/readme/index_2.html
  http://www.it.com.cn/edu/readme/index_3.html
  http://www.it.com.cn/edu/readme/index_4.html
  http://www.it.com.cn/edu/readme/index_5.html

三、项目编辑-- 采集列表

  链接开始代码: 链接结束代码: target=_blank (注:要找到唯一的)
  链接特殊处理: 不作处理 重新定位 (注:不知何意,请老大指教!)
  绝对链接字符: (注:不知何意,请老大指教!)

  这是分析后所得到的新闻绝对链接地址:http://www.it.com.cn/f/edu/051/15/68987.htm 请查看是否正确。(注:点击后的地址是:http://127.0.0.1/Admin/target=_blank BUG???)

四、项目编辑--采集目标内容页源码

  标题开始标记: 或:
  正文开始标记: (注:要找到唯一的)
  正文结束标记: (注:要找到唯一的)

  作者设置:   (注:这里就不说了,设置标签和采集正文的一样)
  关键字词设置: (注:同上)
  正文分页设置: (注:这里演示<设置标签>)

  设置标签
  下页开始标记:下页结束标记:>[下一页]
  分页绝对链接: (注:感觉没什么用处?不知何意,请老大指教!)

五、项目编辑--属性设置

  (注:到这一步显示出正文,说明测试采集目标成功,这里要注意的是:文中的图片显示不出来是正常的,发表后自然会显示出来)

六:项目编辑--文章属性 (注:自己设置啦~~~)

  过滤选项: (注:建议全部打上勾)

satan_zero兄的【经验之谈】几个关键:

  1. 请选择文章中独一无二、每篇必存的代码作为代码。这要看你的心思了,这关都通不过,
  嘿嘿,还是去买本有讲HTML的书或者找个教程看看

  2. 请在不要复制2005版中的代码作为标签。因为在代码视图中有些代码不可见,这应该是中鸟(嘿嘿)采集失败的原因,
  譬如:2个字节的空格的代码 ,代码视图中就看不到。
  解决办法:用记事本或者文本编辑器打开源代码看。

文件比较大,传到自己的空间里,分三部分下载:
  http://www.itcfan.com/cj/1.part1.rar
  http://www.itcfan.com/cj/2.part2.rar
  http://www.itcfan.com/cj/3.part3.rar

相关文章
  • 采集操作使用详细说明 2014-02-01

    一.项目编辑--基本设置 项目名称: 电脑入门 (注:随便写) 网站名称: it.com.cn (注:随便写) 网站地址: http://www.it.com.cn (注:随便写) 新闻列表网址:http://www.it.com.cn/edu/readme/ (注:采集网站哪个网站的网址.) 项目备注: 记得经常采集这个栏目. (注:随便写) 二.项目编辑--采集目标源码 列表开始代码:(注:要找到唯一的) 列表结束代码:频道精选 列表索引分页:(注:这里有三种,<设置标签>.<批量生

  • 基于PHP文件操作的详细诠释 2014-04-03

    本篇文章是对PHP中的文件操作进行了详细的分析介绍,需要的朋友参考下 $path1= "E:/myphp/text.txt"; if(!file_exists($path1)){ echo "文件不存在!"; }else{ $handle1 = fopen($path1, 'r+') or exit("Unable to open file"); // while (!feof($handle1)){ // echo fgets($handle1

  • javascript操作referer详细解析 2014-12-21

    本篇文章主要是对javascript操作referer进行了详细的介绍,需要的朋友可以过来参考下,希望对大家有所帮助 Referrer的重要性HTTP请求中有一个referer的报文头,用来指明当前流量的来源参考页.例如在www.sina.com.cn/sports/上点击一个链接到达cctv.com首页,那么就referrer就是www.sina.com.cn/sports/了.在Javascript中,我们可以通过document.referrer来获取同样的信息.通过这个信息,我们就可以知

  • JS操作JSON详细总结 2014-03-24

    本篇文章主要是对JS操作JSON进行了总结介绍,需要的朋友可以过来参考下,希望对大家有所帮助 在JS中将JSON的字符串解析成JSON数据格式,一般有两种方式: 1.一种为使用eval_r()函数. 2. 使用Function对象来进行返回解析. 在数据传输流程中,json是以文本,即字符串的形式传递的,而JS操作的是JSON对象,所以,JSON对象和JSON字符串之间的相互转换是关键.例如: JSON字符串: var str1 = '{ "name": "cxh"

  • ASP Cookies操作的详细介绍与实例代码 2014-01-07

    Request和Response对象都有一组Cookie.Request.cookie集合是一系列Cookie,从客户端与HTTP Request一起发送到Web服务器.反过来,如果你希望把Cookie发送到客户机,就可以使用Response.cookie. Cookie是一种发送到客户浏览器的文本串句柄,并保存在客户机硬盘上,可以用来在某个Web站点会话之间持久地保持数据.Request和Response对象都有一组Cookie.Request.cookie集合是一系列Cookie,从客户端与

  • ASP下Cookie操作的详细讲解 2014-08-28

    Cookie是一种发送到客户浏览器的文本串句柄,并保存在客户机硬盘上,可以用来在某个Web站点会话之间持久地保持数据.Request和Response对象都有一组Cookie.Request.cookie集合是一系列Cookie,从客户端与HTTP Request一起发送到Web服务器.反过来,如果你希望把Cookie发送到客户机,就可以使用Response.cookie 1.ExpiresAbsolute属性 该属性可以赋一个日期,过了这个日期Cookie就不能再被使用了.通过给Expires

  • centos的用户.组权限.添加删除用户等操作的详细操作命令 2014-04-23

    1.Linux操作系统是多用户多任务操作系统,包括用户账户和组账户两种细分用户账户(普通用户账户,超级用户账户)除了用户账户以为还有组账户所谓组账户就是用户账户的集合,centos组中有两种类型,私有组和标准组,当创建一个新用户时,若没有指定他所属的组,centos就建立以个和该用户相同的私有组,此私有组中只包括用户自己.标准组可以容纳多个用户,如果要使用标准组,那创建一个新的用户时就应该指定他所属于的组,从另外一方面讲,同一个用户可以属于多个组,例如某个单位的领导组和技术组,lik是该单位的

  • C#实现对图片文件的压缩.裁剪操作实例 2014-04-24

    这篇文章主要介绍了C#实现对图片文件的压缩.裁剪操作,较为详细的介绍了操作过程中用到的相关类文件及具体的操作步骤,是非常实用的技巧,需要的朋友可以参考下 本文实例讲述了C#对图片文件的压缩.裁剪操作方法,在C#项目开发中非常有实用价值.分享给大家供大家参考.具体如下: 一般在做项目时,对图片的处理,以前都采用在上传时,限制其大小的方式,这样带来诸多不便.毕竟网站运维人员不一定会对图片做处理,经常超出大小限制,即使会使用图片处理软件的,也由于个人水平方面原因,处理效果差强人意. 于是采用C#为我们

  • PHP在不同服务器上共享SESSION操作 2012-07-26

    一.问题起源 7 O8 X8 R7 o& Z) Y# i3 O 稍大一些的网站,通常都会有好几个 服务器 ,每个 服务 器运行着不同 功能 的模块,使用不同的二级域名,而一个整体性强的网站, 用户 系统 是统一的,即一套用户名.密码在整个网站的各个模块中都是可以登录使用的.各个服务器共享用户 数据 是比较容易实现的,只需要在后端放个 数据库 服务器,各个服务器通过统一接口对用户数据进行访问即可.但还存在一个问题,就是用户在这个服务器登录之后,进入另一个服务器的别的模块时,仍然需要重新登录,这就是

  • selenium webdriver(4)-模拟鼠标键盘操作 2015-01-05

    webdriver提供Actions来模拟鼠标悬浮.拖拽和键盘输入等操作,详细代码见org.openqa.selenium.interactions.Actions.本文通过几个实例来说明Actions的相关操作 输入数据 需求:登录安居客网站,在二手房板块输入"@@@",点击搜索,正确跳转成功反之失败,大部分情况下我们这样写 //搜索二手房 import org.openqa.selenium.By; import org.openqa.selenium.WebDriver; imp

  • 谷歌明天将推出目标广告:曾引发隐私热议 2013-12-01

    新浪科技讯 北京时间3月11日晚间消息,据国外媒体报道,谷歌当地时间周三(北京时间周四)将推出针对浏览者兴趣点的目标广告.谷歌的竞争对手此前曾推出过这类广告,并引发热议. 据悉,谷歌将利用采集的数据,依照用户浏览各类网站的类型.了解浏览网站内容的情况将用户分门别类,例如曲棍球迷.驴友等.上述数据并不是来自用户的搜索查询,而是通过谷歌安装在用户浏览器中的cookies文本文件获取. 谷歌产品管理总监布拉德·本德尔(Brad Bender)称,谷歌将推出新的广告功能,使得广告对广告商和用户更为有效.

  • Android 上百实例源码分析以及开源分析 2014-07-16

    首先 介绍几本书籍(下载包中)吧. 01_Android系统概述 02_Android系统的开发综述 03_Android的Linux内核与驱动程序 04_Android的底层库和程序 05_Android的JAVA虚拟机和JAVA环境 06_Android的GUI系统 07_Android的Audio系统 08_Android的Video 输入输出系统 09_Android的多媒体系统 10_Android的电话部分 11_Android的连接部分 12_Android的传感器系统 13_An

  • windows下文件同步工具 CwRsync 4.0.2 安装配置方法(图文) 2013-10-05

    这篇文章主要介绍了CwRsync 4.0.2 安装配置方法,需要的朋友可以参考下 CwRsync是基于cygwin平台的rsync软件包,支持windows对windows.windows对Linux.Linux对windows高效文件同步.由于CwRsync已经集成了cygwin类库,因此安装的时候可以省去cygwin包.Cwrsync还集成了OpenSSH for windows,可以实现Linux 下Rsync一模一样的操作.详细配置步骤如下: 一.服务器端安装配置 1.下载服务器端安装文

  • win2003 服务器 安全设置 技术实例(比较安全的方法) 2013-11-03

    文章着重谈需要的权限,也就是最终文件夹或硬盘需要的权限,可以防御各种木马入侵,提权攻击,跨站攻击等,本实例经过多次试验.安全性能很好.服务器基本没有被木马威胁的担忧了. 1.服务器安全设置之--硬盘权限篇 这里着重谈需要的权限,也就是最终文件夹或硬盘需要的权限,可以防御各种木马入侵,提权攻击,跨站攻击等.本实例经过多次试验,安全性能很好,服务器基本没有被木马威胁的担忧了. 硬盘或文件夹: C:\ D:\ E:\ F:\ 类推 主要权限部分: 其他权限部分: Administrators 完全控制

  • SQL Server误区30日谈 第8天 有关对索引进行在线操作的误区 2013-11-09

    在线索引操作会在操作开始时和操作结束时对资源上短暂的锁.这有可能导致严重的阻塞问题 误区 #8: 在线索引操作不会使得相关的索引加锁 错误! 在线索引操作并不是想象的那么美好. 在线索引操作会在操作开始时和操作结束时对资源上短暂的锁.这有可能导致严重的阻塞问题. 在线索引操作开始时,会在被整理的资源上加一个共享的表锁,这个表锁在会在新的索引创建时.老索引进行版本扫描时一直持续. 但问题是,这个S锁会和表上的其它锁排成锁队列.这也就是意味着和S锁不兼容的其它锁在表上存在S锁或是表上的锁队列存在中包

  • win2003 iis6服务器设置排错集锦[比较全] 2014-02-14

    2003iis碰见的一些问题,只要对着症状处理.服务器一定可以使用的 问题1:未启用父路径 症状举例: Server.MapPath() 错误 'ASP 0175 : 80004005' 不允许的 Path 字符 /0709/dqyllhsub/news/OpenDatabase.asp,行 4 在 MapPath 的 Path 参数中不允许字符 '..'. 原因分析: 许多Web页面里要用到诸如../格式的语句(即回到上一层的页面,也就是父路径),而IIS6.0出于安全考虑,这一选项默认是关闭

  • 几种VC++数据库开发技术的比较 2014-03-01

    从功能简单的数据库(如Jet Engine)到复杂的大型数据库系统(如oracle),VC++6.0都提供了一些编程接口.本文主要介绍以下五种: 1.ODBC API: 2.MFC ODBC类: 3.MFC DAO类:(数据访问对象) 4.MFC的OLE/DB: 5.ActiveX数据对象(ADO). 1.开放数据库连接(ODBC API):提供了一个通用的编程接口,允许程序与多种不同的数据库连接.它为Oracle,SQL Server,MS Excel等都提供了驱动程序,使得用户可以使用SQL

  • PHP5中使用DOM控制XML实现代码 2014-03-09

    PHP5中增强了XML的支持,使用DOM扩展了XML操作的能耐.这些函数作为 PHP5 核心的一部分,无需被安装即可使用. 下面的例子简单的演示了DOM对XML的操作,详细解释请看代码中的注释 <? /************************************************ ** use XML in PHP5 ** reference site: ** http://cn.php.net/manual/zh/ref.dom.php ** the follow codes

  • PHP 实现多服务器共享 SESSION 数据 2014-05-28

    稍大一些的网站,通常都会有好几个服务器,每个服务器运行着不同功能的模块,使用不同的二级域名,而一个整体性强的网站,用户系统是统一的,即一套用户名.密码在整个网站的各个模块中都是可以登录使用的. 一.问题起源 稍大一些的网站,通常都会有好几个服务器,每个服务器运行着不同功能的模块,使用不同的二级域名,而一个整体性强的网站,用户系统是统一的,即一套用户名.密码在整个网站的各个模块中都是可以登录使用的.各个服务器共享用户数据是比较容易实现的,只需要在后端放个数据库服务器,各个服务器通过统一接口对用户数

  • 如何使用Cocos2D制作简单的iPhone游戏(2) 2014-06-06

    如下部分主要关于如何将炮台瞄准射击方向.这是很多游戏的必要条件--包括一类我最喜欢的游戏题材,塔防游戏.(本系列第1部分详见此处) 所以下文主要谈论这一话题及在简单游戏中添加旋转炮台. 着手设置 若你有遵照上一指南的操作,那么现在你就可以轻松接下去. 接着,下载新玩家精灵和抛射体精灵图像,将它们添加至项目中,将之前的Player.jpg和Projectile.jpg从项目中删除.然后将生成精灵的代码行修改成如下内容: // In the init method CCSprite *player