個人檔案杨谷的评论相片部落格清單 工具 說明
2006/1/24

Google是知识库技术的先锋

当我在Google上检索到某个网页时,Google自动地提供出来与这个网页内容相关的3-5个网页的简要信息,放在屏幕的右边,供我参考。

要做到这一点,Google需要做到:

1.海量信息的高性能存取能力,对数据库中存放的80亿个以上的网页,迅速地提取出关键字,并在备选数据库中抽取适合3-5个网页。

2.近于完美的关键字提取技术。这技术,“情报分析”工作者“御宇多年求不得”, 现在梦想成真了。

3.高效能的网络蜘蛛。

Google所做的工作,运用了一项很关键的技术——语义分析,可以从一篇文章中,自动地抽取出关键字来。

2006/1/23

永远不要下载不熟悉的网站上的软件

    很久没有中招了。
    我已经多年没有用过来历不明的软件了。为了转换RM文件,从网上下载了一些软件。今天,发现笔记本中招了,打开IE,不断地弹出广告。
    检查后,发现是在IE的加载项中,多了一个cpapview, 文件在\windows\system32\cacb.dll
    要清除这个恶意程序很麻烦,光是使用XP的SP2提供的“管理加载项”功能,只能屏蔽,无法删除。我只好用regedit,将所有带有cpapview和cacb.dll的项目删除。
    删了10多个项目后,IE终于干净了。
    从此得了一个教训:永远不要下载不熟悉的网站上的软件!
2006/1/18

想骂IBM

今天想给我办公室的IBM PC装一套Linux操作系统 。
这台PC的系统是1年前装的,Win 2000。照例,要先修改启动序列。常用的方法,是开机后,按F2或ESC或CTRL+ESC或 DEL,但在IBM PC上都不起作用。
我始终想不起来,应该按哪个键才能进入。折腾了半天。
最后,从网上看到F1的提示,终于想起来,需要在开机的时候就按住F1! TNND!
IBM的PC就是这样,为了和别人不一样,拼命地不一样,跟个毛头小伙子似的。最终曲不高而和更寡,落个被联想收购的命运,活该。
 
2006/1/10

蓝牙不过旧梦一场

蓝牙又热了起来,这一次,似乎真的要步入主流之列了。
前几天,我为蓝牙发了一梦,从做梦到梦醒,整整一天。
我曾经批判过蓝牙。
据说,现在蓝牙功能又死灰复燃了。在机场,在商场,见过几位穿戴鲜亮的男士,一个人面对着虚空大声说话,让人以为是疯子。他们的耳朵上,都挂着个小玩意儿——蓝牙耳机。这段时间,蓝牙的广告铺天盖地。我有些心动,莫非我已经跟不上时代了?
前天有了一部手机,NOKIA7610,具有蓝牙功能。整整
一天里,找笔记本电脑的蓝牙驱动程序,找手机的蓝牙驱动程序,找蓝牙的技术资料……
蓝牙的缺陷:
1.只能一对一连接,无法用于多设备的网络系统,也无法用于多人之间的互联;
2.传输距离极短,只有10米,更无法穿墙;
3.与TCP/IP完全是两回事,无法融入Internet,也无法融入网际互联体系。
这三条缺陷都是致命的。仅仅靠耳机一个应用领域,无法支撑蓝牙的普及。而且,蓝牙耳机这种华而不实的东西能否被多数人所接受,恐怕还是个问题。
第二天早上接到benq的邮件,告诉我,我的笔记本电脑没有蓝牙功能,有蓝牙功能的是另外一种型号6000N。
本该如此。
梦醒了!
2006/1/9

科瑞副总裁郭梓林的一段话

1月8日,参加《突破拐点》一书的发行仪式,第一次听到科瑞集团副总裁郭梓林的讲话。郭这个人很有水平。
郭梓林谈到,不要批评50、60年代的知识分子的骨头软,30多元的工资和户口,就可以让他们失去思想。有人说,陈惠湘当年从联想集团离开时,只要“毛顺一点”,就可以继续留在联想,可以享受几千万元的股票,但是,陈惠湘选择了离开,靠自己的本事,在市场上挣到了几千万。陈惠湘的这种做法,是知识分子独立精神的楷模。
2006/1/4

解放日报报业集团反制网络媒体

伟哥日报特约评论员唐潮报道:日前解放日报报业集团发出内部文件,要求集团所属新闻晨报等各子报子刊不得再向各个网站单独提供新闻稿件,改由集团统一运作。系列报刊如确需单独提供,必须经过集团批准,程序是先报集团新闻办公室,再由新闻办公室报集团领导审定。

http://vignews.com/trackback.asp?tbID=245&CP=GBK

“知识库”重新发现人的价值

 

    有很长时间没有关注信息技术方面的进展了,一个原因,是觉得有了互联网和标准化的高性能计算机,信息技术的大厦已经完成,人类剩下的工作只可能在应用上有一些发挥。

    然而,我错了。

    在最近5年内,信息技术的进展远多于过去的20年。

    这其中,最重要的一项技术是信息处理,或者叫做情报处理。

    这样的技术,在20世纪90年代中期之前就已经被提出来过,那时候,可能叫做“情报分析”。

    “情报分析”在以前之所以走不通,是因为无法解决语义分析的难题。AI是没有出路的。

    而现在的“知识库”,完全放弃了AI,是一个自学习的系统。

    先说一点题外话,什么是我们认识事物的规律?当我们说“官渡”与“赤壁”相关,而不是与“梁山泊”相关,是因为“官渡”和“赤壁”都是讲三国的故事,都有一个主角叫做曹操——这就是我们脑子里的“知识”。把这样的“知识”放在一起,就成了“知识库”。

    在构建“知识库”之初,系统先学习一些“知识”。这些“知识”是人工输入的。例如,可以告诉计算机(也就是缺省地设定),《出师表》是一篇三国时期的著名文章,跟这篇文章有关的人至少包括诸葛亮、刘备和刘禅。计算机根据某个算法(这是关键的地方,不同的厂商采用不同的算法)得出一串特征值,放在“知识库”中。这样的算法,要能够保证,当文章中仅仅出现“三个臭皮匠合成一个诸葛亮”时,不会与之关联。

    在应用的时候,如何判断某篇文章与另一篇文章存在关联呢?那就把这两篇文章算一算,比较特征值,如果一致,那就关联;如果不一致,就不存在关联。

    陈川认为,“知识库”的应用有两个方面,一个是情报分析系统(或专家系统、决策支持系统),所有的行业都用得到;一个是价格比对系统,在电子商务中应用。

    现在我看到,很多新式的“专家系统”,已经在采用这一结构。

    如果我们将所有的知识都看作信息,都可以被输入到计算机中,那么“知识库”的应用范围将是人类社会所有需要动脑筋的方面。到那个时候,麦克卢汉那穿越时间的长河的“媒体就是信息”,仿佛还是低估了信息的威力。

    一个“知识库”好不好,不是看存放“知识”的“容器”好不好,而是要看它的“知识”好不好。所以,最有价值的是人的知识。

    “知识库”通过计算机技术与人的知识的结合,重新发现了人的价值。

   
2006/1/1

《无极》观感

以前对陈凯歌的电影印象很好,如《霸王别姬》、《荆轲刺秦王》。
今天看《无极》,好久没有看过这么差的电影。
1.对白的风格还停留在《荆轲刺秦王》,10年了,怎么还是那股味?
2.连个像样的故事都拿不出来,简直可以称之为“无情节片”。
3.为什么要用陈红?