Scalability

| 1 Comment | No TrackBacks
在做research project和写paper的时候,有一个问题一直困扰着我。究竟系统或算法的input size (e.g. dataset的大小) 增加到多少才算进行了一次有效的scalability test?毕竟很多系统都是在input增大到一定程度的时候才会出现问题,但是这个程度却似乎很难估计。甚至做实验的时候,有时很难把这个input size增加到很大,倒不是不想,而是有很多东西限制着。记得前一阵在做XML keyword search system,我们首先需要parse XML document并且为其中每一个keyword通过B+ tree建立inverted list,但是当XML document增大到上百兆的时候,建立index的过程将是痛苦的,在laptop上运行了1个多小时,index文件增加到上G,却依然没有结束,无奈之下,在最后的scalability test中放弃了选择如此大的input size,太耗费时间了,但如果input size达不到一定值得话似乎又说明不了什么问题。或许给我一台64位高配置的机子情况会有所不同。
最近看了一篇文章,google也会有scalability的问题,这要得从gBrain extension for Firefox说起,感兴趣的可以看这篇文章Google Public Relations,这里真得赞一下google对待其用户的态度。

No TrackBacks

TrackBack URL: http://lua.me/cgi-bin/mt/mt-tb.cgi/47

1 Comment

This is a interesting post.

Leave a comment

Recent Comments

  • Oliva Berbereia: This is a interesting post. read more

About this Entry

This page contains a single entry by Jiang published on September 14, 2008 10:08 AM.

分享两个算法和数据结构的好资源 was the previous entry in this blog.

ImageMagick is the next entry in this blog.

Find recent content on the main index or look in the archives to find all content.