nn.Linear和实际初始化的Weight尺寸是相反的
最近在手撕Lora的代码的时候,发现一个有趣的现象。手撕代码如下: 1234567891011121314class LoRAModule(nn.Moudle): def __init__(self, original_layer, lora_rank=4): super().__init__() self.original_layer = original...
最近在手撕Lora的代码的时候,发现一个有趣的现象。手撕代码如下: 1234567891011121314class LoRAModule(nn.Moudle): def __init__(self, original_layer, lora_rank=4): super().__init__() self.original_layer = original...
在深度学习的“炼丹”之路上,配置环境往往比写模型更消磨意志。从服务器的网络连通,到 GCC 编译器的版本管理,再到 PyTorch 与 CUDA 的版本对齐,每一步都可能暗藏玄机。 本文整理了近期在服务器配置过程中遇到的典型问题与解决方案,特别是关于 CUDA 动态链接库(Stubs)的底层原理分析。 一、网络与基础命令1. 服务器代理配置在内网服务器拉取模型或代码时,网络环境常是第一道坎。...