2007年4月10日

对于google输入法和sogou输入法不吐不快的破事!

 
sogou输入法说google输入法抄袭了它的词库
 
今天和dzhang先讨论了几句这个话题,他支持我写一篇雄文来说清楚这个问题,但是我发现要我写一篇雄文来阐述一个非常清楚的道理,这个道理清楚得如此之清楚搞得我兴趣全无,并且我看到smth上面居然开了一个版面来讨论这个破事,而且里面绝大多数人脑子清楚,并且还有一篇雄文已经从法律上阐明了这个问题,我只能把它贴出来,希望smth的人不要告我未经允许转贴文章,我行走在法律的边缘。
 
在贴出水母牛人的雄文之前,我要呼吁:
 
强烈呼吁商务印书馆的《现代汉语词典》停止对上海辞书出版社的《辞海》的词库的侵权行为!!!
强烈呼吁保护上海辞书出版社的《辞海》的词库的知识产权!!!
 
下面是smth的雄文:
 
受著作权法保护的客体是具有独创性的作品,词或词组是构成文字作品的基本单位,其本身不能成为著作意义上的作品,既使某个词或词组具有独创性,因其不是作品,其创作者不享有著作权。关于这点可以自己去查案例,无论你用谷歌还是搜狗都是可以搜到很多的。虽然我国不是英美法系的国家,但是在实际操作中,案例可以拿来用的。

词库是词语无序的集合(排列顺序,记忆方式那是词频和组词的问题,和词库本身是两回事,不要混淆),词语本身不是著作权法保护的客体,词库同样也不是。如果你要拿小说对比,小说是词语有序的排列,排列顺序是原创性的,所以受保护,而词库不是。很简单的判别方法,我把词库里的所有词随机打乱,他还是这个词库,但是你把小说里的词打乱下看看……

如果说要保护,那么著作权法保护的应该是词频,而不是词库。词频可以确认词库的唯一排列顺序,这个顺序是原创性的,不可打乱的,和小说的组词类似,因此每个输入法都对自己的词频享有著作权,而非词库。

所以说如果谷歌拼音只有词库和搜狗类似,并没有牵涉到版权问题,只有词频一样了才可以算侵权。现在这个状况,就是在未事先告知情况下对他人版权所有的产品中的部分无版权的公共领域内容的重新演绎,至多就是没给搜狗面子而已,和侵权完全没有关系。
 
在牛文之后我加一句,不光保护词频,还应该保护生成词库的方法,比如从网络的网页中的数据挖掘技术。其实输入法的数据挖掘和搜索领域当中的数据挖掘有异曲同工之妙,是IT发展的一个重要领域。

2007年4月4日

我们在一起

这里有一封信,令人激动,虽然是一封格式信,但是让我感到温暖,同在一片蓝天下,贡献一点点力量,帮助了别人,也在帮助自己
 
World Community Grid,IBM的一个Grid计算项目。我下面对Grid计算稍作解释,网格(grid)计算的基本想法是把尽量多的计算机通过网络连接,通过一些算法把整体的项目分解为一份一份的计算项目,让每台参与网格计算的计算机承担一份或者多份计算,最终由网格计算的主机汇总这些单独的计算得到最终的结果。理论上,参与计算的计算机越多,网格计算的整体计算能力越强大。
 
举个例子,比如说有A, B两台计算机参与了网格计算,题目(VB语法)是:
a=1:b=2:c=3
x=a+b:y=a+c:z=x+y
第一行算作参数传递,第二行算作计算过程,假设参数传递运行时间可以忽略,计算过程每一步时间消耗为1。
那么,作为一个单独的计算机,整个计算过程的时间是3
而如果我们考虑如下过程,
让A计算机计算x=a+b,B计算机计算y=a+c,然后把x,y传递给A或者B计算z=x+y,那么整个计算过程的时间是2。可以看到实际上网格计算是一种并行计算。
 
实际当中,参数通过网络传递一定有延迟,这个延迟会降低整体的计算性能。考虑大型计算的规模,实际网络传递的延迟可以忽略不计。并行计算带来了另外一个问题,如果改一下题目:
a=1:b=2:c=3:d=4
x=a+b:y=x+c:z=y+d
不管是不是用网格计算还是单机计算,计算时间都是3,也就是说并不是所有题目都能通过并行计算提高性能。
 
实际上,网格计算的优势体现在大规模的并行计算,比如在寻找素数的工作中,每个计算机可以独立承担验证一个数是否是素数的工作,甚至可以验证其中一段,比如验证3128312831是不是素数,一台计算机可能只需要计算这个数是否可以被2~1000整除。
 
在并行计算的项目里,网格计算是一种被看好的取代大型计算机的计算方式,因为理论上,大型计算机的计算能力的提高受到物理极限的局限,而且大型计算机成本巨大,而网格计算能力的提高取决于参与网格计算的计算机的多少,每台计算机都是普通的pc,提到计算能力所需要的成本远低于大型计算机。
 
IBM这个项目和现在世界上大部分网格计算项目都采取了一种相同的方式来扩展参与的计算机。他们推出一种客户端软件,客户端可以从服务器下载数据,并且向服务器传递计算结果。这个软件抢占所有空闲的CPU资源,或者集成在屏保程序中,利用计算机的空闲时间进行计算。对于每个人来说,安装客户端,That's all!。
 
如果觉得自己CPU够好,不会因为连续的100%的占用率而烧掉,就可以尝试一下这些网格计算项目。说不定我们微薄的力量汇聚成的计算能力能帮助人类找到克服癌症的方法。Try it!
 
Dear XX,
World Community Grid is pleased to announce that the Help Defeat Cancer (HDC) project is finished. The last work units have been sent out and when the final results are returned, the project will come to an end. This project, which launched on July 20, 2006, will have run for just over 9 months by the time the last results are returned. During this time 88,000 members will have donated 2,900 years of computer time on 138,000 different computers. This is a significant contribution to cancer research.
But the end of this project is really only a beginning. Based on the results, the researchers who are working on this project have a very aggressive plan to make Tissue Microarray technology an integral part of early cancer detection. World Community Grid's team will keep in close touch with the research team and will post updates on the website in the Research pages (http://www.worldcommunitygrid.org/projects_showcase/viewResearch.do ). The researchers will also continue to update their HDC website  (http://pleiad.umdnj.edu/IBM/ ) with exciting updates about this project and the inroads it is making on cancer research.
On behalf of the research staff at the University of Medicine and Dentistry of New Jersey, World Community Grid's team wish to express our thanks to you for contributing your PC power to this project. With your contribution, this project was completed in a fraction of the time it would otherwise have taken.
We also want to inform you that World Community Grid has started work on a new cancer project to discover ways to accelerate the crystallization process used in studying cancer protein structure using X-ray Crystallography, which will help researchers identify proteins involved in cancers and lead to new drug therapies and cures. We plan to launch this new cancer project in the May/June 2007 time frame. You will receive more information on this project prior to the official launch date.
We still need your help with other ongoing projects! World Community Grid continues to run the FightAIDS@Home, Genome Comparison, Help Cure Muscular Dystrophy and Human Proteome Folding - Phase II projects. These critical research projects need your computer time as well.
IMPORTANT: If you have elected to participate only in the Help Defeat Cancer project (which has now been completed), you must take some action to prevent your World Community Grid agent from sitting idle on your PC until the next cancer project launches.  Please sign in to World Community Grid, and from the "My Grid" page, select the "My Projects" link from the menu on the left. From the "My Projects" page, select one or more of the other projects in which you choose to participate. If no action is taken within the next 3 weeks, we will set your default to Participate in All Projects. You will then be automatically enrolled to participate in the next cancer research project when it is launched in May or June.
Again, thank you for your contribution to the highly successful completion of the Help Defeat Cancer project!

------------------------------------------------------------
Personal Statistics
- Registered:  April 01, 2005
- Run Time:  1 day
- Points:  181
- Results:  1

If you no longer wish to receive the World Community Grid newsletter, click here:  http://www.worldcommunitygrid.org/unsubscribe.do?memberId=74819&auth=61c20d888052bfa8fffc864ede10cb92
Copyright.  2007
IBM Corporation
All Rights Reserved.
http://www.ibm.com/ibm/ibmgives

2007年3月27日

三条新闻

1..习近平:对宏观调控阳奉阴违就是歪风邪气

习近平当上海市委书记了,然后先看这则新闻

习近平:对宏观调控阳奉阴违就是歪风邪气

我不懂经济,但是我想从政治侧面分析一下,这句话有两个重点,一个是这里宏观调控是什么意思,一个是阳奉阴违。

宏观调控本来是指中央对经济的整体把握整体规划,但是这些年以来往往用来指限制经济过快发展的政策。看看报道中所说的习近平在浙江做的,“在严格执行调控的要求下,浙江省固定资产投资增幅从2003年的38.9%下降到2004年的20.2%,再跌到2005的10.5%”,这就可以理解这里“宏观调控”是什么意思了。

阳奉阴违指的明的听从,暗地里不执行。实际上谁都知道,现在中央对各地方的控制并不是特别有力,特别是在经济政策上。比如中央发了很多文件叫各地限制建立所谓“开发区”,但是各地的所谓“开发区”“高新区”建设从来就没有停止过。这就叫做阳奉阴违。阳奉阴违的实质就是没有执行宏观调控的政策。

虽然各地对中央的宏观调控的政策都有或重或轻的阳奉阴违的情况,但是这些年来上海特别严重,比如看牛博上这个报道:

苹果日报: 买卖双方作价,上海楼价假跌

可以看到陈良宇主持下的上海完全没有执行过宏观调控政策,或者说暗地里还在鼓励经济的发展,鼓励固定投资,加速经济过热。或者说上海近几年如此快速的发展和陈良宇对宏观调控的阳奉阴违密不可分。

现在习近平来了,上海要开始宏观调控了,这个宗旨的变化会不会带来上海经济政策一系列的变化还有待观察。上海经济政策如果真的有大的变化,上海的经济还会不会如此迅速的发展,或者说过快的发展就更有待观望了。

写了这么多,我最后要讲上海这么远的一个城市的经济变化对我们这些平民老百姓有什么影响呢?上海之于中国经济不亚于纽约之于美国经济,我很恐怕上海的经济政策变化会影响全国的一些东西,比如股市。

当然上海的政治关系没有这么简单,习近平来了摆不摆得平还有待观察,如果习近平在近期摆平了上海的关系,他的政策可能就能实行,如果习近平不能摆平上海的关系,那就不好说了。“政治上强,有较高的思想政策水平;熟悉党务和经济工作,宏观决策能力比较强,领导经验丰富,组织领导和驾驭全局能力强。”贺国强这个介绍在我听来是在告诉上海,中央在给习近平撑腰。

让我们拭目以待吧,上海总是中国经济的风向标,上海风变的时候,全国经济都要打颤了。

 

2..联合国称朝鲜首次承认缺粮百万吨

看这则新闻

联合国称朝鲜首次承认缺粮百万吨

我们以前都知道朝鲜缺粮食,但是不知道朝鲜到底缺多少,但是现在知道了,100万吨是朝鲜自己说的,我觉得远远不止100万吨。

让我们来算个帐,朝鲜2000多万人,100万吨/2000w=50斤粮食,也就是每个人每年缺50斤粮食。我们来算一个人每年需要多少粮食,一天一个人最多需要1公斤粮食,365天可以算300公斤粮食,所以报道中说缺少20%的粮食是准确的。

我确实想用世界上最难听的词来形容金胖子,他们一家子绝对是朝鲜最后的胖子了!缺少20%的粮食是一个什么概念,我们可以想象一下。不是说我们平时吃得饱饱的,每顿少吃20%,觉得好像没什么。不是这么回事,而是刚刚能填肚子,比如一顿要吃一碗能吃饱,吃半碗就能活下来,但是总是有饥饿感,在这个里面再剩下20%来,什么感觉?还让不让人活了?打倒金胖子!反人类罪啊!

 

3..google.com已经开始屏蔽了

google.com已经开始屏蔽了。最近忙,没有在网上转悠,没有注意原来google.com都开始屏蔽关键词了。

大家可以搜索两个词,一个是“陈良宇 inurl:bullog.cn”,一个是“安替”。如果大家有能自由出国的工具的话,也可以通过工具搜索这两个词。结果有些细微的不一样,不用自由出国的工具在google.com中有些敏感的网站搜索不出来。大家可以试一试。

另外我要说明google.com不是指google.cn,google.cn从它出生的那天起就是有屏蔽的。

值得注意的另外一件事情是,bullog.cn开始被注意了,呵呵,这是个好网站,祝福其好运!

2007年3月1日

往事并不如烟(2)

1。最近忙得要命,没有星期六星期天的这么忙,春节都只回去了一个星期。一天一天看着项目做大做出一个成果,心里其实很开心。没有时间理发,没有时间洗被单,早出晚归,呵呵呵,我想不到我这么懒的人也变得这么忙了。

2。春节过了,按照旧历,今年是丁亥年,按照生肖讲,是猪年,终于可以不惦记那两条红yao裤了。哈哈哈。不知道有人为什么说今年是金猪年,金桥宝器啊,你娃的年哦~~呵呵。不过前两天报纸上又说今年不是金猪年,是土猪年。我算看过几本古书的,也没听说过这个说法,据说是韩国传过来的。我不知道韩国怎么推断的,我知道藏历里面有这个按金木水火土排年的传统,我们又不是藏族人,管他是什么年。如果按照汉族的传统,甲乙丙丁戊己庚辛壬癸,天干10个,金木水火土,五行5个,刚好一个行对两个天干,那么丁应该对的火啊,那丁亥年应该叫做火猪年嘛,哈哈哈哈。当不得真,开玩笑的。金猪不金猪关我什么事,只是传说金猪年生个孩子是有福气的。去年前年据说不太好,结婚生孩子不利,所以好多人都憋到今年结婚今年生孩子。糊涂啊糊涂啊。

我这一代人算作是中国第二次婴儿潮出生的人。中国有两次婴儿潮,第一次是50年代中期到60年代中期的时候,虽然不富裕,但是在国家号召下大家生得挺多,这一代人是我们的父辈,他们大都幼年时经历了50年代末的大饥荒,少年求学时经历了文革的破坏,初中高中毕业时经历了上山下乡,改革开放初期经历了强军万马过独木桥的高考,90年代末经历了下岗,现在又面临养老保险金不足的压力。这次婴儿潮的人太多,以至于有人认为,当年的大饥荒和上山下乡运动都和这批人太多,而供给不足,职位不足有关,另外下岗和养老保险不足的压力的一个重要原因也是这代人及其众多的数量。在60年代末期和70年代的缓和之后,第一批婴儿潮的人进入了生育年龄,虽然及时的实施了计划生育政策,但是不可避免的,第二次婴儿潮出现。70年代末到80年代中期的婴儿出生数量很多,这就是我们这代人。我们看似没有因为婴儿潮受到什么影响,但是仔细想想,我们哪个人求学的时候教室不是坐得满满当当?我们的高中在我们这一届有14个班,我们的下两届激增到20个班,对比的消息是,听说现在好多小学已经快没有生源了,说明第二批婴儿潮的人口显著的比90年代出生的人多得多。影响不是显著的,但是我们仔细思考仍然可以看到第二次婴儿潮对我们这代人生活的巨大影响。随着我们这代人的成长,第三次婴儿潮眼见到来。

第三次婴儿潮的到来,居然伴随了金猪年的传说,我真可怜那些想生个金猪的父母们。我敢大胆的预言,很多年以后,去年生的孩子的读书绝对比今年生的孩子读书要轻松得多,就业压力也要小得多。你也生我也生,生到头来大家抢有限的资源,资源立马就紧缺了。顺着这个话题可以预见一下,今年可能算是第三次婴儿潮的开始,随着我们80年代的人的成长,这种婴儿潮会持续下去,持续多久呢?我只能猜测是5年,所以有条件的话,5年之后再生孩子是比较明智的。不然赶上第三次婴儿潮,就去哭吧。

3。最近因为忙,眼睛不是很舒服,所以重新配了眼镜,作为以前学物理的学生,我竟然才明白散光的柱镜是怎么回事,惭愧惭愧。

4。春节晚会特别难看,今年我被恶心坏了,不是说节目,是底下的叫好声,乱叫不丢人啊?托儿也要叫到点子上啊,有人家说话说一半叫好儿的吗?那叫倒好,我要是台上演那位,我立马下去抽丫的。

5。对于政治,我最近悟出一个道理,作为千千万万的老百姓,管得越少越好,有基本的法律管着,百姓之间不和了,有一个公道的地方,比如法院评评理也就行了。政府该办些全民的事业,比如修桥修路什么的就去办去,别的不用管,越管越出乱子。如果让大家轻轻松松的过日子,别没事找事的管这管那的瞎管,我敢保证中国二十年绝对成为礼仪之邦,人民幸福安康,社会和谐欣欣向荣。威权统治有什么好的?威权不是社会主义。

6。我下载了戈尔同志的《不能忽视的真相》,在赤裸裸的证据面前,我们知道了我们的环境坏到了什么地步。更加赤裸裸的是,我们身边,也就是中国的环境,比影片里面的还要坏!我总是觉得,中国真正的像一个垃圾场,谁之过?龙应台的《野火集》说7、80年代的台湾像一个垃圾场,可是最近去台湾的人说,台湾挺干净的,为什么会有这些变化?

7。说到这里,最后我想说,我不喜欢北京,我不喜欢北京。北京不是一个城市,它仅仅是一个首都。在北京,嘴上说的虽然是北京,但是心里想的却是中国。我回到重庆,嘴上说的是重庆,心里想的也是重庆。我可能哪天有空专门写一篇生活在北京和生活在重庆的不同。

2007年2月6日

推荐两本书,一部电视剧

推荐两本书,一部电视剧。

第一本是茅盾文学奖的获奖小说,陈忠实的《白鹿原》。有人给我说《活着》这部小说写得绝妙,我看完了《活着》觉得余华在小说里带出了太多的情绪,好像有太多的悲愤承载在一个人的身上。而《白鹿原》不会,一个个的故事,一个个的人物自然的流淌出来,形成时间的河流。没有悲哀,也没有愤怒。《白鹿原》当然也有情绪,但这种情绪被比余华老得多的陈忠实巧妙的或者叫做无心的隐藏在了白鹿原上发生的大大小小的事情当中。我犹豫我是否点破这种情绪,最后还是决定说出我的看法,因为如果《白鹿原》只被当成故事来读,它成为不了一部伟大的小说。其实在《白鹿原》中,何尝不流露着一种民间朴素的无为而治的思想呢?不是老子的,不是书里面朱先生的孔子的,更不是朱子儒家的,不要相信陈忠实在这个思想身上披上的儒家的皮。

推荐一部电视剧《暗算》,前年的吧,gasto向我们推荐过,我现在才看。别人可能看到了里面共产党的特工和国民党的特工的斗智斗勇,虽然故事有些硬伤,但是比起这两年来的其他电视剧来说,这是很精彩的电视剧了。我推荐它的原因不光是因为它精彩,还因为我看电视剧的时候产生的一个想法久久的缠绕着我。在国民党掌权的时候,枪毙个把共产党特工和在共产党掌权后枪毙一个国民党特工有什么本质差别吗?一朝天子一朝臣,效忠别的天子的臣民都是臭狗屎。中国人向来习惯于“党同伐异”,难怪古人总结来总结去总结出“君子不党”。党还是要党的,只是不知道什么时候不“伐异”了,中国就好了。其实我想到了一个人——李登辉,历史可能会忘记他后来做过什么,但是我相信历史会记住他的那一项伟大的功劳的。

最后推荐的是我今天看的一篇中篇小说,刘震云的《一地鸡毛》,不长,中篇里面都算短的。内容应该算作30岁读物吧,我最近也读了王朔很多小说,也算作是30岁读物。不知道是因为我很记得他们描述的年代的事情,还是因为我的心理已经到了30岁,我觉得《一地鸡毛》和王朔的小说都引起了我的共鸣。顺带说一下刘震云,就是丑男冯大导演的《手机》的编剧。

另外,我已经买了余华的《许三观卖血记》,如果余华还有这么强烈的情绪倾注在这本小说里,我就不准备看他的《兄弟》了。

另外,《穆斯林的葬礼》当当网卖完了,我记得某位美女有,美女啊,看到我写的这段话,留个言,借给我看看怎么样啊?哈哈

另外,据说章怡和的《伶人往事》已经成绝版了,上边不让再版了,所以我买了,虽然不喜欢章怡和上一部《往事并不如烟》,觉得写过头了,不过看在绝版的份上也要看一看。呵呵。