主题

专家混合

稀疏激活部分参数,让模型容量增长而算力不必同比上升。