频 道 直 达 - 新闻 - 读书 - 培训 - 教程 - 前沿 - 组网 - 系统应用 - 安全 - 编程 - 存储 - 操作系统 - 数据库 - 服务器 - 专题 - 产品 - 案例库 - 技术圈 - 博客 - BBS
51CTO.COM_中国领先的IT技术网站
找资料:

.Net类库中实现的HashTable

作者: 汉广 出处:博客园 2008-04-15 13:27    砖    好    评论   进入论坛
阅读提示:这个HashTable用开放定址法解决冲突,用双散列法进行探测。装填因子过高之后使用再散列法扩充,涉及到的算法都不是很复杂,即使不使用数学工具,也可以简单的分析下:-) 。本文以.net fx's HashTable为例,回顾HashTable的基础理论。

 HashTable是一种能提供快速插入和查询的数据结构,无论其包含有多少Item,查询和插入操作的平均时间总是接近O(1)。HashTable理论上并不关心其所包含的item顺序,任何与顺序有关的操作例如:“find_min, find_max”,都不能有效的支持。

Hashing

假如我们把一本英汉字典的5000个单词, 从a到zyzzyva,存储到一个数组中。这样我们可以通过它们在数组中的序号,以固定的时间快速的访问每一个单词。但是给定一个单词比如:“COOL",如何才能知道它的序号呢?

Converting word to number

为了把每个单词同它们在数组中的位置一一对应起来,我们需要把每个单词都转化为一个唯一的一个整数(hash code)。下面是一种简单的算法:

英语只有26个字母,可以用1-26表示,用0表示空格.为了获得一个唯一的数字,我们把单词的每个字母都转化为其对应数字,然后乘以一个合适的权数。比如:

为了把"cats" 转化为数字,我们把它的每一个字符都转化为相应的数字,然后乘以27^n (n表示字符的位置),把它们相加:

3*273 + 1*272 + 20*271 + 19*270=60337

这个方法可以将单词都转化为一个唯一整数(hash code)。

.net framework中所实现的Hashtable ,虽然对键值的类型没有限制,但要求其键值(key)的类型必须实现GetHashCode()方法,用来获得全局唯一的hash code。事实上由于.net类型库定义的所有类型都直接或间接的继承自Object,所有都具有一个默认的GetHashCode()实现。

但是我们得到的整数(Hash Code)明显不是我们所需要的序号(index)。

Hash Function

我们从5000个单词得到范围非常大的一组数字(hash code),每个数字都可能描述数组中的一个序号(index),但是只有很少的数字与序号一一对应。为了可以以一个固定的时间访问每一个单词,我们需要一个方法将这些值域很大的数字映射到数组中的一个位置。

hash function 的作用就是将这些范围很大的数(domain of keys )转换成我们需要的序号(domain of location)。

.net framework采用Division Methed作为其散列算法,使用取模(modulo)操作将Hash code值域转换到合适的范围。即:

arrayIndex = hashcode % arraySize;

其中arrayIndex代表单词在数组中的位置,ArraySize代表数组长度,

Collisions

我们希望每一个Hash Code都唯一对应一个Index,然而这个算法并不能保证这一点。比如你想将"melioration"插入到数组,你将这个单词通过上述过程转换成index,然而你发现那个位置已经被"demystify"所占据,这种情况叫做Collisions(冲突)。

.net framework使用open address 的方式解决冲突,例如当进行插入操作时,根据键值生成的index已经被别的item占据时,它将自动搜索index+incr位置,直到找到一个空的位置。其中的incr由以下算法产生。

incr = (uint)(1 + (((hashcode >> 5) + 1) % ((uint)itemCount - 1)));

.net framework生成incr的这种算法,其结果与当前冲突位置无关,避免了好多问题。事实上它根据键值的hash code 进行了另一次散列,即所谓的Double Hash.

Expand

由于HashTable基于数组的,所以它的容量需要提前指定,并且最好在运行过程中不要改变。数组的大小是不能在运行时改变的,所以当HashTable太满时,就需要声明一个新的大数组。

我们记得Hash Function 根据数组的长度计算键值的序号的,所以不可以将旧数组的数据直接复制到新数组,必须对针对每一个键值重新计算其位置,非常的低效。

.net framework实现中HashTable最小的容量为11,当HashTable过满时,会新建立一个容量为当前俩倍的数组,然后将旧数组的值复制到新数组对应的位置。

【相关文章】

【责任编辑:碧海蓝天 TEL:(010)68476606】

专题
ASP.NET 2.0基础开发指南
.NET移动与嵌入式技术专题
.NET Framework新手入门专题
VS.NET实用开发专题
ADO.NET实用技巧专题
我也说两句

匿名发表

(如果看不清请点击图片进行更换)


中 国 领 先 的 IT 技 术 网 站 ·
技 术 成 就 梦 想
·Java基础教程 (查看74310次)
·UML类图详解 (查看66158次)
·UML统一建模语言 (查看36034次)
·C#技术开发指南 (查看35338次)
·C++是垃圾语言?! (查看34712次)
·Java编程开发手册 (1196个砖)
·Java基础教程 (430个砖)
·C#技术开发指南 (310个砖)
·.NET开发手册 (242个砖)
·PB开发教程 (223个砖)
·Java编程开发手册 (654个好)
·Java基础教程 (574个好)
·.NET开发手册 (274个好)
·PB开发教程 (212个好)
·Delphi开发技术手册 (194个好)
订阅技术快讯
电子杂志下载
名称:SQL Server数据库管理精品黄皮书
简介:书中文章经过精挑细选,便于用户能根据自己的实际工作和学习,快速在本书寻找到相关资料。内容涵盖了SQL Server的安装与升级、语句查询、数据备份和恢复、自动化任务、数据同步、数据字典、安全和预防、性能和优化、集群等各方面应用信息,以及DBA管理人员在数据库管理工作中
名称:2007路由技术大全
简介:《2007路由技术大全》由51CTO.com网站特别策划制作,该书包括路由器技术、路由器产品、路由器配置、安全设置、路由器故障处理、路由器密码恢复,以及广大网友在实践使用中的心得经验和技巧文章,内容注重实用性,适用于初学者入门,也适合多年从业者提高,是一本实践和理论完
名称:网络安全精品应用黄皮书
简介:《2007精品网络安全黄皮书》包括了9个大类24个小类, 800余篇文章,内容包含了熊猫烧香病毒、DDOS攻击、ARP病等热点问题的介绍及解决方案。从病毒查杀、防范、系统、数据等各方面的安全设置到黑客技术的了解、防范,涉及到了安全应用的全部领域, 由浅至深内容全面。
国际文档格式标准开战
国际文档格式标准..
微软出价446亿美元收购雅虎
微软出价446亿美..
贝恩资本携手华为22亿美元收购3Com案
贝恩资本携手华为..
· 贝恩资本携手华为22亿..
· Linux——从菜鸟到高手
· SOA 面向服务架构
· 2008年4月全国计算机等..
· 北漂技术人90天求职纪实
· 微软Forefront企业安全..
· 2007年互联网大会
· 华为员工自杀频频拷问..
· 技术人求职简历完备手册
· 勇闯IT培训黑色围城
· 龙芯要做中国的“奔腾”
· 隐私保护技术探讨
· Windows Server 2008专..
· NAC安全访问控制
· PHP开发应用手册
· ASP.NET 2.0基础开发指..
清除流氓软件——51CTO特别专题
清除流氓软件——..
ARP攻击防范与解决方案
ARP攻击防范与解..
iSCSI应用与发展
iSCSI应用与发展
· iSCSI应用与发展
· SQL Server 2008/2005..
· SOA 面向服务架构
· SQL Server 2008/2005..
· iSCSI应用与发展
· RAID——磁盘阵列基础
· 中间件应用技术专题
· SQL Server入门到精通
· 病毒查杀专题
· 国际文档格式标准开战
· 路由器设置与口令恢复
· Linux防火墙
· 打造安全服务器
· SOA 面向服务架构
· PHP开发应用手册
· ADSL应用面面俱到
ARP攻击防范与解决方案
ARP攻击防范与解..
SQL Server 2008/2005全解
SQL Server 2008/..
iSCSI应用与发展
iSCSI应用与发展
· iSCSI应用与发展
· 中间件应用技术专题
· SQL Server入门到精通
· SQL Server 2008/2005..
· SOA 面向服务架构
· iSCSI应用与发展
· RAID——磁盘阵列基础
· 病毒查杀专题
· 清除流氓软件——51CTO..
· 路由器设置与口令恢复
· SOA 面向服务架构
· 了解统一威胁管理(UTM)..
· ADSL应用面面俱到
· ADSL应用面面俱到
· 反垃圾邮件技术应用
· PHP开发应用手册