待办
使用batchsize可以把矩阵缩小,采用矩阵乘法的形式可以一次计算多个经过神经网络的结果,然后通过交叉熵进行计算总的损失得到结果。
所以前向的理解主要是矩阵乘法,对应左行右列 的相乘得到x1w1+x2w2+x3w3+....的一个结果,左侧对应的行数就是总的batchsize数,
这也是分批次计算的要点
batchsize用法 以及实现前向运算的矩阵乘法方式
原文:https://www.cnblogs.com/lishikai/p/12366179.html