📝 Deepseekでも使われてる技術「蒸留」ってなに? - Qiita
🔖 151 ブックマーク
💬 https://b.hatena.ne.jp/entry/s/qiita.com/jscd/items/8db92785a018761c9800
🔗 https://qiita.com/jscd/items/8db92785a018761c9800
🔖 151 ブックマーク
💬 https://b.hatena.ne.jp/entry/s/qiita.com/jscd/items/8db92785a018761c9800
🔗 https://qiita.com/jscd/items/8db92785a018761c9800
Comments
「知識蒸留」は、AIモデルの圧縮技術であり、大規模で高性能な教師モデルの知識を小型の生徒モデルに移転する方法です。教師モデルは大量のデータで訓練され、高い精度を持つ一方、生徒モデルは軽量で計算資源を節約できます。知識蒸留には、教師モデルの出力を生徒モデルに模倣させる「ロジット蒸留」、中間層の特徴を学習させる「特徴蒸留」、注意機構を伝達する「アテンション蒸留」の3つの手法があります。これにより、スマホや組み込み機器でも高度なAI機能を実現可能にします。知識蒸留は、GoogleのBERTやOpenAIのGPTシリーズなど、 (1/2)