二、网络信息搜索和提取方法
现在互联网上的信息极为丰富,许多都可用于咨询。咨询工程师应当知晓网上有何种信息,掌握从网上获取信息的方法与基本技巧。
网上的信息可利用浏览器和搜索引擎获取。浏览器是供用户阅读网页内容的软件;搜索引擎指从互联网上搜集信息的特定电脑程序。
早期的搜索引擎是收集互联网中服务器的地址,按这些服务器拥有的资源类型将其编成不同的目录,各个目录再逐层分类。搜索引擎则沿着此类层级向下搜索,找到用户想要的信息。随着互联网上信息的迅猛增长,出现了新式搜索引擎,性能大为改进,能够找到网站每一页的起始地址,随后搜索网上所有超级链接,把代表超级链接的所有词汇放入一个数据库。搜索引擎的功能不再限于搜索,添加了电子商务、新闻信息服务、个人免费电子信箱服务等。
(一)搜索引擎工作原理
搜索引擎有信息搜集、信息整理和接受用户查询三部分,各自工作原理大致如下(图1-1):
图1-1 搜索引擎工作原理
1.搜集信息
搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程序,从少数几个网页开始,将各个网页的超链接联结在一起,只要网页上有适当的超链接,机器人便可以遍历绝大部分网页。
2.整理信息
这个过程称为“建立索引”。搜索引擎不仅要保存搜集到的信息,还要按照一定规则编排。这样,搜索引擎无须重新翻查已保存的所有信息,便能迅速找到所要的资料,从而大大加快搜索速度。
3.接受查询
搜索引擎按照各个用户的要求检查自己的索引,能在极短时间内找到用户需要的资料,并交给用户。目前,搜索引擎交给用户的主要是网页链接,用户按照这些链接便能找到含有自己所需资料的网页。搜索引擎一般会在这些链接下加一段有关这些网页的摘要,以便用户判断此网页是否含有自己需要的内容。
(二)搜索引擎的种类
搜索引擎有很多种,可以从不同的角度分类:
按搜索方法,分全文索引、目录索引、元搜索、垂直搜索、集合式搜索、门户搜索、个性搜索、专家型搜索与免费链接列表等。
按搜索对象,分购物、自然语言、新闻、MP3、图片等。
按搜索范围,分桌面、地址栏、本地等。
按出现的时间,分第三代、第四代搜索引擎等。
目前用得较多的搜索引擎有Google、百度、Yahoo!、MSN Search、Webcrawler、Lycos、CNet Search、LookSmart等。
(三)搜索方法与技巧
要想使搜索引擎能在网上快速找到有关咨询的资料,首先要明确查询目的。目的不同,查询策略与方法不同。在明确目的之后,还应了解查询的种类与技巧,学会恰当地使用关键词。
搜索方法的选择取决于搜索的内容。不同搜索引擎的复杂条件查询功能和实现方法各有不同,网站中一般都有“帮助”和“说明”解释各自的功能和方法。
现在的搜索引擎都有模糊查询功能。当用户输入关键词时,搜索引擎不但交给用户关键词的网址,还发来与关键词意义相近的内容。比如,查找“建筑报”一词时,模糊查询搜索的结果会有“建筑报”、“建设报”、“建筑时报”等的网址。网址的排列,一般是完全符合关键词在最前边,其次是相近的。
搜索引擎一般有关键字索引与逐步缩小范围两种查询方式。下面以“百度”为例介绍使用搜索引擎的技巧。
1.关键词索引
关键词索引的关键是选用关键词。关键词应尽量用完整的句子或用合适的运算方式来减少搜索范围。当用两个以上的关键词时,应按关键词的重要性次序输入,搜索引擎会以第一个关键词作为查找信息的根据,然后将符合条件的内容再按第二个关键词搜索,符合第二个关键词的内容再按下一个关键词的搜索,这样查找的结果多数令人满意。
关键词之间可使用逻辑运算符。以下是几个例子。
(1)+:用加号连接两个关键词时,只有同时满足这两个关键词的匹配才有效,排除只满足其中一项者。比如,键入“电脑+计算”,则在查询“电脑”的结果中排除不含“计算”的结果。+可写作AND。
(2)-:用减号连接两个关键词,“百度”将只含第一个关键词但不含第二个关键词的内容交给用户。例如键入“电脑-计算”,“百度”提交给用户的查询结果中只含“电脑”不含“计算”。-可写作NOT。
(3)():当两个关键词用另外一种操作符连在一起,而又想把他们列为一组,就可以对这两个词加上圆括号。比如我们可以键入“(电脑-计算)+(程序设计)”来搜索包含“电脑”、不包含“计算”,但同时包含“程序设计”的网站。
(4)*:星号可代替所有的数字及字母,用来检索那些变形的拼写词或不能确定的一个关键字。比如键入“电*”后,查询结果可以包含电脑、电影、电视等内容。
(5)“”:如果要搜索引擎找到与关键字完全一样的内容,可将该关键字放在双引号之间。比如键入“建筑时报”,则搜索引擎不会向用户提交“中华建筑报”等信息。
(6)“t:”和“u:”:在关键字前加上t:,搜寻引擎仅会查询网站名称,而在关键字前加u:,则搜寻引擎仅会查询网址URL(“统一资源定位符”英文缩写,相当于文件名在网络上的扩展,指向资源在互联网上的位置,系统可按资源的URL,就可以存取、更新、替换或查找其属性)。
2.缩小范围
如果想查找某一类信息但又找不到合适的关键词时,就可以采取逐步缩小范围的办法。这种办法也有多种方式。
(1)分类式搜索。各大网站已将信息分类,例如休闲与运动、社会科学、社会与文化、新闻与媒体、电脑与因特网等,然后再根据各个大类再分为各个小类别,如在“电脑与因特网”中又细分为“因特网、谈天室、软件”。不难发现,各个类别显示的小类别并不完整。这是由于目前网络上的类别实在太多,不可能在一个屏幕上列出所有的类别。
但是,只要用户在各大类别,例如“电脑与因特网”下单击鼠标,系统就会很快地将所有的细分内容一一呈现在用户面前。比如说,我们想通过这种方法找到“电脑报”的网址,就可以首先按一下“电脑与因特网”,紧接着出来的页面上会提示“电脑与因特网”一类中含有“安全与加密”、“新闻与媒体”、“电子通讯”、“多媒体”等一系列信息,我们按下“新闻与媒体”查询后结果仅有“报纸”和“杂志”两项,我们再按下“报纸”,“电脑报”就找到了。
(2)用逻辑条件限制。当使用多个关键词搜索时,最好指出各关键词之间的关系,例如“和”、“或”、“非”。各搜索引擎以这种方式查询的过程不尽相同,多试几次或许就能找到合适的办法。
对于搜索引擎,可以从搜索对象的类型、地域、时间、网站类型以及其他特殊方面施加限制。在特殊方面施加限制的例子有:域名后缀(com、gov、org等)、文件类型(文本、图形、声音等)等。施加限制的方法各搜索引擎不同,例如,在关键词前加特殊字符,利用下拉式菜单等。