搜索引擎

  • 中文域名及中文域名搜索在谷歌网页搜索及谷歌 Chrome 中的妙用

    今天,我们想给大家介绍一个好用的功能--用中文域名来进行搜索的妙用,这个中文功能看来基本,但是您不妨在其他的搜索引擎中也试一试, 比较谷歌搜索和其他搜索引擎在这方面的功能差异. 谷歌搜索懂中文域名 谷歌从很早就开始支持"指定网站" (site restrict) 搜索,许多搜索引擎后来也纷纷效仿增加了支持"指定网站"搜索:例如,搜索"中文域名 site:cnnic.cn" 就是指定在"cnnic.cn"网站内搜索有关"

    搜索引擎May 4

  • Social Oyster:社会化网络的搜索引擎
    Social Oyster:社会化网络的搜索引擎

    Social Oyster虽然界面感觉比较简陋,但却是一个功能强大的社会化网络搜索引擎,它可以搜索各个社会网站上的用户及其发布的信息.当然这些网站大都是开放API的web2.0网站,否则Social Oyster也不会这么轻易的得到用户的信息. Social Oyster可以通过用户名.姓名进行搜索,目前支持twitter.flickr.Jaiku.delicious.youtube.MySpace等近20家社会网站的搜索:另外还可以通过Google地图每次列出50位随机用户,可惜不能按地域进行

    搜索引擎May 4

  • Google Site Search新增"on Demand"自定义索引服务
    Google Site Search新增"on Demand"自定义索引服务

    Google新增索引服务:持续更新你的网页 Google今天为自定义搜索(Google Custom Search Engine,简称CSE)商业版Site Search新增了"on Demand"索引服务,帮助用户强化自己的主页搜索服务,用户可以利用该服务任意调整自己的索引. 在Site Search的控制面板上,用户会发现新增了"index now"图标,双击即可激活该功能. Google的企业搜索产品部经理Nitin Mangtani说:"on De

    搜索引擎May 4

  • Alexa网站排名:微软Bing.com已成全球第15位网站
    Alexa网站排名:微软Bing.com已成全球第15位网站

    微软Bing.com的Alexa排名(酷勤网截图) 6月15日消息,微软Bing已经成为互联网上排名前15位的网站.Bing.com网站正在引起全世界的兴趣.一开始,没有人重视这个网站.但是,现在Bing.com带来的良好的搜索结果使其成为全球排名前15位的网站. 专门给全球网站排名的Alexa.com把微软的Bing.com列为在过去的一个星期里排名第15位的使用量最多的网站.Bing.com网站受欢迎的程度正在稳定增长并且正在获得很好的口碑.此外,微软还在利用一切手段推广这个网站. <洛杉矶

    搜索引擎May 4

  • 微软Bing六大新特性及功能概览
    微软Bing六大新特性及功能概览

    Best Match 微软Bing 会将最匹配结果(尤其是官方站点)显示在其他结果上方,并整合其他快捷功能,包括:官方客服热线.Deep Links.站内搜索(Deep Search).显示与搜索内容近似的站点. 例如:搜索 UPS,Best Match 特性将会给出 UPS 官方客服热线.跟踪 UPS 包裹搜索框.以及相关快递服务网站. Deep Links 微软微软Bing 支持类似 Google Sitelinks(站内链接)的特性 – Deep Links,能够帮助用户快速了解该网站的链

    搜索引擎May 3

  • 关于开发简易搜索引擎的一些总结和思考

    在大学期间,有段时间对搜索还是比较感兴趣的,就研究了几天.后来,发现搜索引擎太难搞了,分词啥的,好多都是纯算法.感觉没啥意思,so就半途而废,玩别的技术领域去了. 大学毕业加入秒针,对广告和监测有了一定的兴趣.so又想搞搜索引擎了,大概的目标就是,从网上爬去内容,建立索引,网友搜索.点击.广告点击等监测统计,存到数据库. 这个项目,还真是做了,做完了一个Demo版.借助jsoup和自己写几行代码爬网页, 然后用lucene建立索引,然后就可以查询了,只能存储最基本的日志.项目名称叫做FansIT

    lucene, 搜索引擎, 爬虫, 索引May 3

  • SpringMVC大坑一枚:ContentNegotiatingViewResolver可能不利于SEO

    广大站长都有关注自己网站被搜索引擎收录的习惯,最近用百度.360等搜索引擎,查看了自己网站的一些情况,使用命令"site:fansunion.cn". 我发现了一些异常信息,不止一次: "http://fansunion.cn/service {"page":{"totalCount":5,"totalPage":1,"pageNo":1,"pageSize":10,"

    json, seo, 搜索引擎, 百度, SpringMVCApril 13

  • 使用Java调用百度搜索

    search托管于github 如何利用Java来调用百度搜索,更多细节请到github上查看search 自己没搜索引擎,又想要大规模的数据源,怎么办?可以对百度搜索善加利用,以小搏大,站在巨人的肩膀上.有很多的应用场景可以很巧妙地借助百度搜索来实现,比如网站的新闻采集,比如技术.品牌的新闻跟踪,比如知识库的收集,比如人机问答系统等,我之前做的一个准确率达百分之九十几的人机问答系统的数据源,其中一部分就是充分利用了百度搜索.我们可以很容易地扩展到其他的搜索引擎,使用JSoup+CSSPath技

    Java, 搜索引擎, search, 百度搜索APIApril 8

  • 使用Java调用谷歌搜索

    search托管于github 如何利用Java来调用谷歌搜索,更多细节请到github上查看search 自己没搜索引擎,又想要大规模的数据源,怎么办?可以对谷歌搜索善加利用,以小搏大,站在巨人的肩膀上.有很多的应用场景可以很巧妙地借助谷歌搜索来实现,比如网站的新闻采集,比如技术.品牌的新闻跟踪,比如知识库的收集,比如人机问答系统等,我之前做的一个准确率达百分之九十几的人机问答系统的数据源,其中一部分就是充分利用了谷歌搜索. package org.apdplat.search; import

    json, httpclient, Java, 搜索引擎, search, 谷歌搜索APIApril 8

  • 运行nutch提示:0 records selected for fetching, exiting
    运行nutch提示:0 records selected for fetching, exiting

    运行Nutch的时候提示Generator: 0 records selected for fetching, exiting ... 然后程序退出,怎么回事呢? 原因多种多样,归根结底就是CrawlDB中的URL经过爬虫抓取调度器(默认是 org.apache.nutch.crawl.DefaultFetchSchedule)判断,断定都不应该去抓, 所以,Stop The World. 我们使用命令如下命令来查看CrawlDB的统计信息: bin/nutch readdb data/craw

    hadoop, nutch, 搜索引擎, 大数据, 网络爬虫April 7

  • 大数据系列12:Hadoop2 – 全新的Hadoop

    wget http://mirrors.hust.edu.cn/apache/hadoop/common/stable2/hadoop-2.2.0.tar.gz tar -xzvf hadoop-2.2.0.tar.gz cd hadoop-2.2.0 vi etc/hadoop/hadoop-env.sh 修改: export JAVA_HOME=/home/ysc/jdk1.7.0_17 vi etc/hadoop/slaves 修改localhost为host001 vi etc/hado

    搜索引擎, 大数据, 网络爬虫, hadoop2, hadoopV2April 7

  • 大数据系列11:Gora – 大数据持久化

    wget http://mirrors.cnnic.cn/apache/gora/0.3/apache-gora-0.3-src.zip unzip apache-gora-0.3-src.zip cd apache-gora-0.3 mvn clean package 1.创建项目 mvn archetype:create -DgroupId=org.apdplat.demo.gora -DartifactId=gora-demo 2.增加依赖 vi gora-demo/pom.xml 在<d

    hbase, 搜索引擎, 大数据, 网络爬虫, GoraApril 7

  • 大数据系列9:Mahout – 机器学习

    wget http://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gz tar -xzvf mahout-distribution-0.8.tar.gz cd mahout-distribution-0.8 sudo vi /etc/profile 增加: export PATH=$PATH:/home/ysc/mahout-distribution-0.8/bin source /etc/profile

    mahout, 搜索引擎, 大数据, 网络爬虫, 机器学习April 7

  • 大数据系列8:Sqoop – HADOOP和RDBMS数据交换

    Sqoop1: wget http://mirrors.ustc.edu.cn/apache/sqoop/1.4.4/sqoop-1.4.4.bin__hadoop-1.0.0.tar.gz tar -xzvf sqoop-1.4.4.bin__hadoop-1.0.0.tar.gz mv sqoop-1.4.4.bin__hadoop-1.0.0 sqoop-1.4.4 cd sqoop-1.4.4 sudo vi /etc/profile 增加: export HADOOP_COMMON_H

    搜索引擎, 大数据, 网络爬虫, 数据迁移, sqoopApril 7

  • 大数据系列7:Storm – 流计算

    wget http://download.zeromq.org/zeromq-2.1.7.tar.gz tar -xzvf zeromq-2.1.7.tar.gz cd zeromq-2.1.7 sudo apt-get install gcc sudo apt-get install g++ sudo apt-get install libuuid-dev ./configure sudo apt-get install make make sudo make install sudo apt

    搜索引擎, 大数据, 网络爬虫, STORM, 流计算April 6

  • 大数据系列6:HBase – 基于Hadoop的分布式数据库

    wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.5/zookeeper-3.4.5.tar.gz tar -xzvf zookeeper-3.4.5.tar.gz cd zookeeper-3.4.5 cp conf/zoo_sample.cfg conf/zoo.cfg vi conf/zoo.cfg 修改:dataDir=/home/ysc/zookeeper 添加: server.1=host001:2888:3888

    hbase, 搜索引擎, 大数据, 网络爬虫, GoraApril 6

  • 大数据系列5:Pig – 大数据分析平台

    wget http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gz tar -xzvf pig-0.11.1.tar.gz sudo vi /etc/profile 增加: export PIG_HOME=/home/ysc/pig-0.11.1 exportPATH=$PATH:$PIG_HOME/bin source /etc/profile cp conf/log4j.properties.template conf/

    latin, pig, 搜索引擎, 大数据, 网络爬虫April 6

  • 大数据系列4:Hive – 基于HADOOP的数据仓库

    wget http://mirror.bit.edu.cn/apache/hive/hive-0.11.0/hive-0.11.0-bin.tar.gz tar -xzvf hive-0.11.0-bin.tar.gz cd hive-0.11.0-bin sudo vi /etc/profile 增加: export HIVE_HOME=/home/ysc/hive-0.10.0-bin export PATH=$PATH:$HIVE_HOME/bin source /etc/profile

    hive, 搜索引擎, 大数据, 网络爬虫, hcatalogApril 6

  • 大数据系列3:用Python编写MapReduce

    vi mapper.py 输入: #!/usr/bin/env python importsys for linein sys.stdin: line= line.strip() words= line.split() forword in words: print'%s\t%s' % (word,1) chmod +x mapper.py vi reducer.py 输入: #!/usr/bin/envpython from operator import itemgetter import

    python, hadoop, 搜索引擎, 大数据, 网络爬虫April 6

  • 大数据系列2:建立开发环境编写HDFS和Map Reduce程序

    1.在eclipse中配置hadoop插件 将hadoop-eclipse-plugin-1.2.1.jar 复制到eclipse/plugins目录下,重启eclipse. 2.打开MapReduce视图 Window-> Open Perspective -> Other 选择Map/Reduce,图标是个蓝色的象. 3.添加一个MapReduce环境 在eclipse下端,控制台旁边会多一个Tab,叫"Map/ReduceLocations",在下面空白的地方点右键,

    hadoop, 搜索引擎, 大数据, 网络爬虫, 搭建hadoop开发环境April 6

  • 大数据系列1:在win7上安装配置Hadoop伪分布式集群

    1. 安装虚拟机和操作系统 VMware-workstation-full-10.0.0 或 VirtualBox-4.2.18-88781-Win 下载VMware 下载VirtualBox ubuntu-13.04-server-amd64.iso 下载ubuntu 2. 设置root用户密码 sudo passwd root 3. 上传文件 利用WinSCP上传JDK和HADOOP文件,利用putty连接虚拟机中的ubuntu,下载WinSCP, 下载putty, 下载jdk,下载hado

    hbase, hadoop, 搜索引擎, 大数据, 网络爬虫April 6

  • 分布式搜索算法

    对于搜索引擎来说,索引存放在成千上万台机器上,如何进行分布式搜索呢? 假设搜索结果是以分页的方式显示,以PageNumber代表当前页,从1开始,以PageSize代表页面大小,默认为10,以N代表搜索服务器数量.最简单的分布式搜索算法为:有一台合并服务器负责接受用户的搜索请求,然后分别向N台机器获取前PageNumber*PageSize条结果,得到的结果数为N*PageNumber*PageSize,然后把这些数据重新进行排序,根据所要显示的页面PageNumber,获取从(PageNumb

    搜索引擎, 分布式, 分布式搜索引擎April 5

  • 使用Java8实现自己的个性化搜索引擎

    需要对249本软件著作实现句子级别全文检索,这些著作均为PDF文件,不使用现有的框架如lucene,自己实现的方法如下: 1.从PDF文件中提取文本,这里的重点是如何最大可能地还原文本.提取之后的文本,一个句子一行保存为文本文件. 2.将所有文本文件合并为一个单一的文本文件,这样,每一个句子就有一个唯一行号. 3.对每一行文本进行分词,建立倒排表,倒排表的格式为:词=包含该词的总行数N=行号1|行号2|行号3|行号N......,如下的例子表示所有文本中,包含ysc的有12行,分别是......

    Java, 搜索引擎, Java8, 全文检索, superwordApril 5

  • 怎样实现一个搜索引擎

    首先说声抱歉,这是个标题党.我们经常使用Google和百度搜索引擎去查找我们想要的内容,也许你想过这么一个问题,他们如何做到迅速的查找你所需的信息.本文将为你介绍一个简单的搜索引擎的实现,"哦,不是搜索引擎,是全文检索!" 背景 交代下背景,公司做一个网站需要搜索站内文章的信息的功能,首先想到的是就是使用数据库的全文检索功能,但是查查资料发现,感觉不好,然后又去查查第三方的全文检索的软件或者库,有很多成熟的,比如Lucene,Sphinx等.我就想如果能集成第三方的也不错,于是看下,结

    搜索引擎, 全文搜索March 29

  • 自动更改IP地址反爬虫封锁,支持多线程
    自动更改IP地址反爬虫封锁,支持多线程

    8年多爬虫经验的人告诉你,国内ADSL是王道,多申请些线路,分布在多个不同的电信机房,能跨省跨市更好,我这里写好的断线重拨组件,你可以直接使用. ADSL拨号上网使用动态IP地址,每一次拨号得到的IP都不一样,所以我们可以通过程序来自动进行重新拨号以获得新的IP地址,以达到突破反爬虫封锁的目的. 那么我们如何进行自动重新拨号呢? 假设有10个线程在跑,大家都正常的跑,跑着跑着达到限制了,WEB服务器提示你"非常抱歉,来自您ip的请求异常频繁",于是大家争先恐后(几乎是同时)请求拨号,这

    搜索引擎, 网络爬虫, 反爬虫, superword, 反封锁March 25

  • 13 款开源的全文搜索引擎

    本文转载自xum2008的博客,主要介绍13款现有的开源搜索引擎,你可以将它们用在你的项目中以实现检索功能. 1. Lucene Lucene的开发语言是Java,也是Java家族中最为出名的一个开源搜索引擎,在Java世界中已经是标准的全文检索程序,它提供了完整的查询引擎和索引引擎,没有中文分词引擎,需要自己去实现,因此用Lucene去做一个搜素引擎需要自己去架构.另外它不支持实时搜索,但linkedin和twitter有分别对Lucene改进的实时搜素. 其中Lucene有一个C++移植版本

    搜索引擎March 19

  • 2015年苹果告别谷歌搜索业务,有望将推出自己的"苹果搜索"

    北京时间2月5日早间消息,苹果周一在公司网站上发布了新的招聘信息.最新信息显示,苹果正在为"苹果搜索"招聘一名工程项目经理.业内人士据此猜测,苹果有可能将为OS X和iOS平台开发一款功能全面的搜索引擎. 这一职位的地点在旧金山,要求申请者"有技术能力.激情和创造性",并且有能力"为搜索平台管理后端运营项目,从而为数亿用户提供支持".尽管苹果网站上这一职位的发布时间是2015年2月2日,但其他招聘网站上的类似信息发布于2014年11月19日. 尽

    搜索引擎, 谷歌, 苹果February 6

  • 什么是SEO,学习SEO的六大步骤
    什么是SEO,学习SEO的六大步骤

    温馨提示 乐晨博客导航子栏:seo学习-旨在搜集互联网seo基础知识,提供新人SEO学习参考!seo学习就来乐晨博客,这里为你提供良好的SEO学习平台! 要学习seo,首先你要了解seo是什么:seo即是搜索引擎优化英文Search Engine Optimization的缩写,它是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式.它的操作包括两个方面:理论和实践 学习SEO如果按步骤细分的话,可以分为六大步骤 1.搜索引擎 搜索引擎的了解研究是学习seo的入门!通过搜索引擎

    seo, 站长经验, 搜索引擎, 乐晨January 25

  • 搜索引擎的分片(shard)和副本(replica)机制
    搜索引擎的分片(shard)和副本(replica)机制

    搜索引擎通过分片(shard)和副本(replica)实现了高性能.高伸缩和高可用. 分片技术为大规模并行索引和搜索提供了支持,极大地提高了索引和搜索的性能,极大地提高了水平扩展能力: 副本技术为数据提供冗余,部分机器故障不影响系统的正常使用,保证了系统的持续高可用. 有2个分片和3份副本的索引结构如下所示: 一个完整的索引被切分为0和1两个独立部分,每一部分都有2个副本,即上图的灰色部分. 在 生产环境中,随着数据规模的增大,只需简单地增加硬件机器节点即可,搜索引擎会自动地调整分片数以适应硬件

    搜索引擎, ElasticSearch, 分片, 副本August 30

  • SEO优化

    SEO SEO是依据对搜索引擎录取网站规则的长期摸索.观察出来的技术和经验,将网站整体的结构和布局.关键词分布和密度进行优化,使之具有对搜索引擎抓取有友好性,从而进行搜索引擎的优化,使网站有较高的排名效果. 这些SEO的技术经验包括有: 设置好关键词 关键词应出现在<title>中 <meta>中放入关键词 粗体显示过关键词,至少一次 图像[alt]中可以放入关键词 合理地分布关键词在<h1>~<h6>中 友好的网页文档 良好的文档结构 代码写法规范.无错误

    seo, 搜索引擎, 优化, 前端August 6

  • 超级搜索引擎:让菜鸟变成搜索高手
    超级搜索引擎:让菜鸟变成搜索高手

    随着百度.谷歌.360.腾讯soso.搜狗.必应等搜索引擎的不断成长,时下搜索已成为人们生活和工作的重要组成部分,人们对搜索引擎的依赖,已接近于电脑对WINDOWS系统的依赖. 可是由于不同搜索引擎算法不同,理念不同,搜索结果也非常不同,有些重要信息在某家搜索引擎没显示,却在另一家有显示,这样如果只使用一家搜索引擎就 很可能遗漏掉一些关键信息,这使得当我们有很重要的事项需要查找资料时,就不得不在几家搜索引擎间来回地切换.为了解决来回"奔波"的麻烦,被业内称为 "超级搜索引擎&

    搜索引擎, 大数据, 超级搜索引擎June 16

  • nodejs 版本开源全文搜索引擎

    这几年nodejs越来越火爆,js程序员们终于可以不局限于浏览器那一亩三分地了,很多以前由java,c等实现的东西纷纷有了nodejs版本,我也随波逐流一把,写了一个nodejs的搜索引擎addon,现在已经放github:https://github.com/luyongfugx/seamSearch 这个开源addon其实是对我几年前写的c++ 版的luyfsearch(github:https://github.com/luyongfugx/luyfsearch)进行的一个nodejs封装

    JavaScript, 搜索引擎, nodejsMarch 17

  • Nutch抓取需要登录的网站

    Tomcat自身带的后台管理程序是需要用户登录的,这样的网站如何用Nutch来爬呢?Nutch可以处理Http authentication(BASIC, DIGEST)这种稍显简单的认证,对于普遍流行的用户自定义Form表单以Post或Get方式提交数据认证的情况,Nutch就无能为力了,就更不用说复杂验证码的认证方式了. 下面用一个简单的例子说明如何配置Nutch,使其能爬需要Http authentication(BASIC, DIGEST)的站点. 1.修改Tomcat配置文件conf/

    lucene, hadoop, nutch, solr, 搜索引擎, 网络爬虫, 爬虫, 登陆抓取March 16

  • 16条有用的Chrome浏览器命令
    16条有用的Chrome浏览器命令

    Google Chrome浏览器有很多的特性在界面菜单中是没有体现的,你可以通过「chrome://命令」来访问.在Chrome的浏览器地址栏中输入命令,就会返回相应的结果.下面是16个非常有用的chrome://命令: 1. chrome://downloads 等同于从菜单中查看下载内容,其快捷键是Ctrl+J 2. chrome://extensions 等同于菜单-工具-扩展 3.chrome://plugins 显示已安装插件 4. chrome://bookmarks 等同于菜单-书

    google, 浏览器, 搜索引擎, https, 谷歌February 28

  • Jquery实现仿搜索引擎文本框自动补全插件,类似百度输入就会有文字提示
    Jquery实现仿搜索引擎文本框自动补全插件,类似百度输入就会有文字提示

    看效果: 不多说了,上代码了 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv

    搜索引擎, 插件, 文本框, 输入, 补全, 文字提示November 27

  • Google偏爱HTTPS SSL加密链接网站
    Google偏爱HTTPS SSL加密链接网站

    我的个人网站由于某些神秘原因,在国内是被屏蔽的状态,现在只能通过ssl https加密链接可以访问,就像使用银行服务时的链接形式,在地址栏里会一把绿色的小锁. 现在网站同时支持http和https两种链接形式,理论上会如网上那些传闻所说,存在Google收录内容重复的问题,我虽然有听说,也不太在乎,博客的最重要的事情是写作,像SEO这样的事情实在是多此一举. 但是,问题是Google在https ssl和http两个链接形式上表现怎么样呢?无意中,我在Google Webmaster后台数据看到

    google, 搜索引擎, 百度, SSL, https, 加密链接October 17

  • 搜索引擎特征码(转)

    百度搜索引擎 baiduspider:百度网页搜索 baiduspider-mobile:无线搜索 baiduspider-image:图片搜索 baiduspider-video:视频搜索 baiduspider-news:新闻搜索 baiduspider-favo:百度搜藏 baiduspider-mobile-gate:百度手机搜索 baidu-thumbnail:百度快照 符合某种情况才会出动的爬虫特征码 baiduspider-cpro:百度联盟站点 baiduspider-sfkr:

    搜索引擎June 9

  • 帮助你搜索免费矢量,图标和PSD的搜索引擎 - Freepik
    帮助你搜索免费矢量,图标和PSD的搜索引擎 - Freepik

    日期:2013-2-24 来源:GBin1.com 如果你需要上网搜索的话,肯定会使用Google,百度等等,但是作为一个设计师如果你需要搜索图片,素材的话,Google和百度的效果可能就并不是那么完美了,在这篇文章中,我们将介绍一个专门帮助你搜索矢量,图标和PSD的搜索引擎 - Freepik. 这个搜索引擎自动抓取一些设计相关网站的内容,自动将搜索到的内容根据相关内容评级并且呈现给用户. 你可以使用过滤功能来更准确的查询和过滤相关功能: 颜色 文件类型(psd,vector,photo) 同

    psd, 搜索引擎, 免费图标, 矢量图标, freepikFebruary 26

  • SEO新手入门笔记

    上个月公司让我给产品网站做SEO,第一次做这种事情,从中学到一些新东西,在这里做一个总结. 什么是SEO SEO是"搜索引擎优化"的简称,目的是提升网站在搜索引擎结果中的排名,让用户更容易找到我们的网站,从而带来更多的网站访问量. 网络爬虫 爬虫("crawler")或蜘蛛("spider")是对web机器人一个很形象的概括.它们会递归地对网站进行遍历,顺着一个页面上的链接爬到其他页面上并且获取页面的内容然后存储在自己的服务器上. SEO的常用方

    google, seo, 搜索引擎, 网络爬虫, 优化December 4

  • 解析搜索引擎的Robots协议

    对于初为站长的人来说,robots.txt文件应该是个比较神秘的东西,今天, 济宁辉腾网站建设就为大家来解析一下这个文件 . robots.txt是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引.通常认为,robots.txt文件用来搜索引擎对目标网页的抓取. robots.txt协议并不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个文件,但也有一些特殊情况. 对于Google来说,使用robots也未必

    robots, 搜索引擎, 济宁辉腾网站建设, www.0537.netOctober 8

  • solr.xml 之core

    转自 solr中文网 每个 core 指定一个 SolrCore,core 是 cores 的子元素,core 元素有以下 6 个属性: name SolrCore 名称,在通过 CoreAdminHandler 运行命令时,需要这个名称 instanceDir core 文件的路径,相对于 solr home 目录 config 指定 core 的配置文件的名称,默认为 solrconfig.xml schema 指定 schema.xml 配置文件的名称,默认为 schema.xml dat

    lucene, solr, 搜索引擎June 24

  • 网络爬虫基本原理(一)
    网络爬虫基本原理(一)

    网络爬虫是捜索引擎抓取系统的重要组成部分.爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份.这篇博客主要对爬虫以及抓取系统进行一个简单的概述. 一.网络爬虫的基本结构及工作流程 一个通用的网络爬虫的框架如图所示: 网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL: 2.将这些URL放入待抓取URL队列: 3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中.此外,将这些URL放进已

    搜索引擎, 网络爬虫, 抓取系统June 20

  • solr定时重建索引和增量更新
    solr定时重建索引和增量更新

    自我惭愧: 1.信息添加者总是说添加的内容在搜索时搜索不到,是因为我还没来得及搞清楚怎么定时自动重建索引. 2.应该有增量索引,新添加的信息应该能及时被搜到,但如果同时新增很多信息时会有性能问题 3.应定时重建索引?(自己想的,不知道为何要重建,凭感觉吧.可能是初期数据量小,重建一次的时间比较短,如果数据量大了不知道能不能重建索引) 4.现在的状况是:只是使用solr来建立搜索服务,其较深的原理知识不懂,只知道这么安装,这么配置,ta就能索引我想要索引的表,通过接口能查询出结果,但底层的东西真的

    solr, 搜索引擎, 索引, 重建索引, 增量更新June 12

  • 基于二次搜索的站内搜索引擎设计优化

    转载自自己的博客,或许在这里这篇文章可以让更多有需要的人看到吧. ------------------------------------------------------------------------------------------------- 昨天上海一些SEO圈里的朋友小会了下,夜息也从无锡跑来上海,因此顺带听了些途牛的奇闻异事.聊着聊着夜息也提到了一件有些意思的事情,"4399小游戏"原先的百度日搜索量远高于"小游戏",但在今年春节前后,&qu

    搜索引擎May 7

  • dySE:一个 Java 搜索引擎的实现,第 3 部分: 查询服务
    dySE:一个 Java 搜索引擎的实现,第 3 部分: 查询服务

    在之前的两个部分中,您了解到 spider 的编写和对原始网页库的预处理:通过 spider 我们得到一个原始网页库,而通过预处理部分建立网页的索引,并用分词器对网页进行分词进而创建倒排索引.本部分内容将要介绍查询服务的编写,查询服务通过接收用户的输入,调用后台程序对输入进行分词以及查询操作之后,将返回的查询结果在网页上显示.本文分三个步骤介绍查询服务的实现过程:首先使程序在控制台下能够返回查询结果,为查询结果的显示做准备:然后,搭建 Web 服务器进行网络编程使得程序能够方便的输入并进行结果返

    搜索引擎February 2

  • dySE:一个 Java 搜索引擎的实现,第 2 部分: 网页预处理
    dySE:一个 Java 搜索引擎的实现,第 2 部分: 网页预处理

    在 上一部分 中,您了解到如何编写一个 spider 程序来进行网页的爬取,作为 spider 的爬取结果,我们获得了一个按照一定格式存储的原始网页库,原始网页库也是我们第二部分网页预处理的数据基础.网页预处理的主要目标是将原始网页通过一步步的数据处理变成可方便搜索的数据形式.下面就让我们逐步介绍网页预处理的设计和实现. 预处理模块的整体结构 预处理模块的整体结构如下: 图 1. 预处理模块的整体结构 通过 spider 的收集,保存下来的网页信息具有较好的信息存储格式,但是还是有一个缺点,就是

    搜索引擎February 2

  • dySE:一个 Java 搜索引擎的实现,第 1 部分: 网络爬虫
    dySE:一个 Java 搜索引擎的实现,第 1 部分: 网络爬虫

    自己动手写一个搜索引擎,想想这有多 cool:在界面上输入关键词,点击搜索,得到自己想要的结果:那么它还可以做什么呢?也许是自己的网站需要一个站内搜索功能,抑或是对于硬盘中文档的搜索 -- 最重要的是,是不是觉得众多 IT 公司都在向你招手呢?如果你心动了,那么,Let's Go! 这里首先要说明使用 Java 语言而不是 C/C++ 等其它语言的原因,因为 Java 中提供了对于网络编程众多的基础包和类,比如 URL 类.InetAddress 类.正则表达式,这为我们的搜索引擎实现提供了良好

    搜索引擎February 2

  • nutch与起点R3集成之笔记(三)
    nutch与起点R3集成之笔记(三)

    四.抓取网页,建立solr索引 在抓取网页前,要保证起点R3处在运行状态.即 在浏览器中键入 http://127.0.0.1:880/ 后,会出现如下窗口: 在linux或cygwin中运行nutch抓取网页命令为 :bin/nutch crawl url -solr http://127.0.0.1:880 -dir test -depth 3 -topN ,其dir.depth.topN参数的含义网上介绍有很多,在这里不做解释.参数solr表示将抓取后的网页solr索引到一个提供solr服

    nutch, solr, 搜索引擎, 起点R3July 25

  • nutch与起点R3集成之笔记(二)
    nutch与起点R3集成之笔记(二)

    在nutch与起点R3集成之笔记(一)中介绍了在起点R3中添加nutch要用到的索引字段,上述字段建好后,就可以通过nutch抓取一个或多个网站内容,并通过 bin/nutch solrindex 送到起点R3索引库中. 三.nutch安装与配置 1.安装nutch 先从http://www.apache.org/dist//nutch/apache-nutch-1.3-bin.zip下载nutch1.3,展开.nutch可以在linux环境下运行,也可以在windows环境下运行,也可以导入到

    nutch, solr, 搜索引擎, 起点R3July 25

  • nutch与起点R3集成之笔记(一)

    百度.google帮我们找Internet的信息,但对于一个行业内部网(intranet)来说,百度.google就无法帮忙了.并且,对一个行业来说,更多的信息都是放在行业内部网上,并且采用网页.office文档.图片.视频.音频等格式存放.如何方便,快捷,安全地获取行业内部的信息内容,建立一个行业内部网的搜索引擎就显得尤为重要. 佛山起点软件(http://www.rivues.com)推出了起点R3软件,是一个开箱即用的企业级搜索引擎产品,并且已开源,下载地址http://sourcefor

    nutch, solr, 搜索引擎, 起点R3July 21