大規模模型需要占用大量的計算資源、存儲空間、時間和電力資源來保證其訓練和部署。相比之下,小模型是指參數較少的深度神經網絡模型。小機型往往速度更快、重量更輕,適用於壹些計算資源和存儲空間較少的設備或場景,如移動設備或嵌入式設備。
在實際應用中,選擇大模型還是小模型取決於要解決的問題和可利用的資源。大型模型通常在自然語言處理、計算機視覺、推薦系統等方面表現良好。他們通常需要高性能計算資源的支持,如標準GPU或雲集群。
小模型適用於解決壹些簡單的小規模問題,如信用卡欺詐檢測等。它們具有更快的推理速度,可以在低功耗設備上運行,如智能手機或物聯網設備。
大模型能解決的問題。
大規模的預訓練可以有效地從大量有標簽和無標簽的數據中獲取知識。通過將知識存儲在大量參數中,並對具體任務進行微調,大大擴展了模型的泛化能力。在處理不同場景時,不再是從0開始,而是只需要少量樣本進行微調。
再比如BERT已經訓練好了,我們要做下遊的任務,做壹個句子的情感分析。然後會在BERT的輸入令牌中添加壹個類令牌,這和vit的做法壹樣。以後編碼器會用類token的向量做線性變換,用softmax和gt做損耗訓練,所以這壹步可以直接初始化BERT模型的預訓練參數做微調,效果會更好。收斂快,損耗低。