Narutozed5: 5-2中3.2中,求score的时候为什么用的是矩阵Q@K.T,而不是点积Q•K,不理解名称为啥叫点积缩放?
深度推荐模型 Wide&Deep (附代码)Monster_1995: 写的非常好,跟其他博主硬翻来说,有自己独到的理解
时间序列 插值代码实现竹外8848: 你好。我问一个问题。# 如果不够10个点,往前插取均值,如第一个是现有数据前2个的均值。第二个是现有数据前3个的均值 if tos < math.floor(lxs / 2 + 1) + lxs: flag = math.floor(lxs / 2 + 1)在这一段代码中,为什么使用math.floor(lxs / 2 + 1)取值,而不直接用10个点减去tos?
关于Attention的超详细讲解aa_T0: 写得是真好呀!
Assertion `srcIndex < srcSelectDimSize` failedWei_fan_1226: 你好博主,我的经验也是CUDA这个报错,最后发现是tokenzier添加了pad,导致需要将model的embedding的vocab_size添加1就可以了