Nvidia GPU Architecture
Nvidia可能已将其NVISION促销会议到“GPU技术大会”,但它仍然是Nvidia展会的贯穿始终。首席执行官Jen-Hsun Huang在他的主题演讲中花费了一些时间,推出了代号为“Fermi”的下一代主要GPU架构。这是芯片图形迷们一直在呼吁GT300--GT200芯片的后代继承者,它支持像GeForce GTX 285这样的显卡。
该芯片巨头非常小心地将该芯片定位为不是新的图形芯片,而是一种新的“ 计算 和图形”芯片,按顺序(斜体)。实际上,关于新芯片的几乎所有内容都与其计算特性有关,而不是传统的面向图形的材料,如纹理单元和渲染结束。我们所知道的是该芯片规模庞大,估计有30亿个晶体管,并将在台积电的40纳米制程中生产。这是竞争对手AMD发布的全新Radeon 5800系列DirectX 11卡中RV870芯片的40%左右。该芯片有512个处理单元(Nvidia称之为CUDA内核),每个处理单元由32个内核组成的16个“流式多处理器”组成。这是GT200的240核心的两倍多,而且核心还有显着的增强。该芯片将采用384位GDDR5存储器接口。
以下是一些主要要点:
第三代流式多处理器(SM)
- 每个SM 32个CUDA内核,4倍于GT200
- 8x GT200
- 双精度浮点性能双调度调度程序,每个时钟调度和调度32个线程
- 的两个变量
- 具有可配置的共享内存和L1缓存分区的64 KB RAM
秒生成并行线程执行ISA
- 具有完全C ++支持的统一地址空间
- 针对OpenCL和DirectCompute进行了优化
- 完整的IEEE 754-2008 32位和64位精度
- 具有64位的完整32位整数路径位分机
- 支持过渡到64位寻址的存储器访问指令
- 通过预测改进性能
改进的存储子系统
- 具有可配置L1和统一L2的NVIDIA Parallel DataCache层次结构
- 高速缓存
- 第一款支持ECC内存的GPU
- 极大地改进了原子内存操作性能
NVIDIA GigaThread引擎
- 快10倍的应用程序上下文切换
- 并发内核执行
- 乱序线程块执行
- 双重重叠内存传输引擎
有许多附加功能可以提高性能这种芯片在流计算任务中的性能,比双精度浮点计算速率快得多。目前的Nvidia GPU以单精度操作速度的一小部分计算双精度。双精度浮点运算现在应该是单精度性能的一半,这是一个巨大的改进。缓存和调度的重大改进也很明显。您可以在Nvidia新的Fermi页面阅读更多关于架构的信息,其中包含PDF白皮书。
那么您何时能够购买使用此芯片的图形卡? Nvidia没有说。公司代表表示他们目前正在“筹措芯片”,这意味着最近才从制造工厂返回工作样品。根据过去的历史做出有根据的猜测,我们可以说12月份是乐观的发布日期,2010年第一季度广泛可用性更可能。预计电路板很贵。 Nvidia不会泄露芯片尺寸,但通过晶体管数量来判断,我们猜测在450和500 mm之间 2 。再加上384位存储器接口的额外电路板成本,以及在相对较新的40纳米制造工艺中如此巨大的芯片上获得良好产出所带来的挑战,并且您正在研究可能更加强大的比AMD刚发布的Radeon 5800系列显卡贵一些。在Twitter上关注Jason Cross或访问他的博客。