July 2008 Archives

Cuil

| 1 Comment | No TrackBacks
一个用了古爱尔兰语命名,并且index了世界上最多页面的搜索引擎-Cuil出现在了世人面前。看了一下它的features,基本上没有带来任何惊喜,query suggestion,result classification都是已经出现在其他搜索引擎中的技术。
虽然号称index了最多的页面,但并不代表用户就可以得到他想要的结果,high recall but low precision is trivial,用户没有那么多的时间和耐心去一个一个去点击查看哪些页面符合自己的要求,Searchme比Cuil好的地方就在于它降低了检查页面的成本。但是他们共同的问题是precision都不是那么的高。
现 在想要做一个大而全的搜索引擎和google,yahoo们竞争几乎不可能成功,这是一个需要创新但也需要积累的领域,绝不是简单的pagerank就能 解决一切,paperank可以过滤不好的页面,可以让有价值的页面拥有更高的rank,但这只解决了问题的一面,keyword search 是一种充满ambiguity的搜索模式,用户的intention很难通过几个关键字就清楚的表达出来。因此如果一个搜索引擎无法相对准确的分析出用户 的intention,搜索结果的precision很难提高。然而分析用户的intention是需要长期积累大量的数据、分析语义以及人的搜索行为, 并且不断的进行refine才能做到的,而且人的intention会随着时间而evolve。至少目前来看,Cuil的积累还不够,并且目前 research在语义这一块还不怎么成熟。其实如果一个新的搜索引擎focus on某一特定的领域或是用户群,那成功的几率或许会高些。
最后对于Cuil,我更感兴趣的是Cuil这个词该如何读呢?

C++一些容易被忽视的points

| 5 Comments | No TrackBacks
今天又拿出尘封已久的BJ的The C++ Programming Language翻了翻,发现了一些容易被忽视、遗忘但有很重要的细节,记录在这里算是一个备忘吧。
  1. pointerbool类型之间存在implicit conversion。bool至少和char占用空间相同。
  2. 一个char 8位字符的value是从0到255还是从-127到+127是implementation-defined。但从0到127这部分是相同的。为了保证可移植性,赋值时尽量避免使用整型数值。
  3. Enumerator range。 每个enumerator的value都存在一个range。如果对其初始化或赋值时超出了这个range,结果是undefined。因此从integer到enumeration之间必须是explicit conversion。为了保证可移植性,要避免赋integral value时超出range的情况发生。Range的确定方法见p.77.
  4. 一个hidden global name可以通过::来引用,一个hidden local name无法被引用。
  5. string literal 的类型是const char[n+1],n是字符个数。例如,"hello" 的类型是 const char[6]。在从前版本C/C++中,string literal的类型是char*,为了兼顾从前的大量程序,把一个string literal赋值给char*依然有效,但是修改const 字串的结果是undefined。例如,char* pstr="hello"; pstr[1]='t';
  6. 从一个函数中返回string literal是安全的,因为给string literal分配的空间不会因为函数的返回而被释放。例如,return "hello";
  7. 两个完全相同的string literal 是否只有一份copy,是implementation-defined. 例如,char* pstr1 = "hello"; char* pstr2="hello"; pstr1是否等于pstr2由具体实现决定的。
  8. 两个指针相减只有在他们指向同一个数组时,结果才被defined。指针相加没有意义、不被允许。
  9. "plain" T&类型的initializer必须是Lvalue,const T&类型的initializer不必是Lvalue甚至不必是类型T(存在implicit type conversion)。例如,int& i = 1;(error) const int& i = 1; (OK,产生的临时变量一直存在知道i的scope结束)。
  10. pointers to function,pointers to members不能赋值给void*
  11. structure对象的大小未必是其member大小之和。
(To be updated)

冬天什么时候才会过去

| 2 Comments | No TrackBacks
今年brisbane的冬天很长,都到了7月底寒气依然不减,就在昨天,我又把压在箱底的保暖内衣以及羊毛衫拿了出来,因为我实在是抗不住了。我发现有时寒冷真的可以驱走人的灵感,许多问题依然没有找到好的solution,唯一能做的就是不停的在屋里行走,或是蜷成一团在被窝中取暖。这个冬天究竟什么时候才能过去呢?

SearchMe:Stacks

| 38 Comments | No TrackBacks
SearchMe released a new feature called stacks, which proposes a creative way of sharing interesting web pages.
  1. Users can push the useful search results into a stack and save it. The saved stack can be shared through email or embedding codes into web pages. Then others can view this stack in a slide mode. Obviously, a slide-view stack is much more convenient and vivid than previous sharing method.
  2. As we know, low precision and high recall is one major problem of existing search engines. With this feature, users can save a lot time on locating the useful results in the future. However, the web pages on the Internet are always changing. If the system can recommend some new useful web pages similar to a stack, it will be better. In addition, I think search in stacks is also a necessary feature.
  3. The search engine can adjust ranking score according to the saved stacks. Actually, the users help the search engine to find out which web pages are useful results of a keyword query. After large amount of data is collected, the search engine can make use of these data to improve the precision of results.

终于搬完家了

| No Comments | No TrackBacks
一直在忙着找房子,买家具和电器,差不多一个月都没怎么学习。上个周末终于搬完家了,也可以重新投入读paper,写paper的生活中了。郁闷的是现在家里还要忍受一段没有网络的日子,不过还好有Wii可以玩。

Recent Comments

  • SEO Company: Wonderful to read! read more
  • SEO Companies: Wonderful to read! read more
  • Search Engine Submission: Excellent job. read more
  • SEO Agency: Wonderful to read! read more
  • Janet M. Elkins: Great articles and content very informative looking forward to reading read more
  • Lynn Wright: I recently came across your blog and have been reading read more
  • Matthew Cadiz: Nice writing. You are on my RSS reader now so read more
  • Janet M. Elkins: Nice writing. You are on my RSS reader now so read more
  • Matthew Cadiz: Nice stuff on, i'll be visiting more often read more
  • Michelle Jackson: Great articles and content very informative looking forward to reading read more

About this Archive

This page is an archive of entries from July 2008 listed from newest to oldest.

June 2008 is the previous archive.

August 2008 is the next archive.

Find recent content on the main index or look in the archives to find all content.