数学应用-信息指纹及其应用
发表者:吴军,Google 研究员
任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的 指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就 如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。
我们在 图论和网络爬虫 一 文中提到,为了防止重复下载同一个网页,我们需要 在哈希表中纪录已经访问过的网址(URL)。但是在哈希表中以字符串的形式直接 存储网址,既费内存空间, 又浪费查找时间。现在的网址一般都较长,比如, 如果在 Google 或者百度在查找数学之美,对应的网址长度在一百个字符以上。 下面是百度的链接
m/s?ie= ...












