卡是4090,搭配共享显存可以部署70b模型,总占用在41g左右,但一秒只能生成3-4字左右,用32b模型,占用22g左右,24g专用显存刚好够,此时速度非常快,一秒接近20字,但话说回来,虽然deepseek用ollama跑本地没啥限制,开黄车都行,但模型那边因为限制死了,导致只要敏感词汇就会罢工,只能在边缘慢慢试探,有时候可能会成功,但后面反应过来又不行了,其实ai也想跳出来
这样对比在线部署就没啥优势了,除了在不爆显存的时候快一点加上不怕占用资源,然后就是32b模型处理高难度时容易出错,不过大部分都够用了,后面我也用deepseek的r1对比了一下vivo的蓝心小v,只能说各有优势,deepseek偏理工,蓝心小v在文学创作上自由度很高,有时候也能绕出去,回到刚刚那个话题,本地部署如果模型限制死就没啥优势,当然如果没限制的话那真可以为所欲为,大胆创作


