V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
keepRun
V2EX  ›  程序员

推荐各位利用 ollama 在自有电脑上跑大模型,使用非常方便

  •  
  •   keepRun · 261 天前 · 7345 次点击
    这是一个创建于 261 天前的主题,其中的信息可能已经有所发展或是发生改变。

    ollama 用法跟 docker 很类似,指定 run 哪个模型就会自动去下载使用。

    我用我的 1650 笔记本允许 mistral ,跑起来速度还行。

    模型列表: https://ollama.com/library

    方法: 建议采用 wsl2 运行 ollama ,安装 cuda 后即可利用显卡跑 ollama ,否则会利用 cpu 跑大模型。

    wsl2 安装 cuda 直接用我这个链接即可: https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=WSL-Ubuntu&target_version=2.0&target_type=deb_local

    24 条回复    2024-07-18 14:18:05 +08:00
    cwyalpha
        1
    cwyalpha  
       261 天前
    1650 显存多少?能跑什么量级的模型?
    ahsjs
        2
    ahsjs  
       261 天前
    嗯嗯,我也用的这个,只能跑小模型,谷歌的 gemma 之类的
    o562dsRcFqYl375i
        3
    o562dsRcFqYl375i  
       260 天前
    确实很方便。至于能跑多大的模型主要看机器的硬件配置吧,跟 ollama 这个工具应该没多大关系
    ChaoYoung
        4
    ChaoYoung  
       260 天前
    同类 LM Studio 可视化相当不错
    keepRun
        5
    keepRun  
    OP
       260 天前
    @cwyalpha 显存 4g ,不过 win11 会自动把显存和内存同时用上,所以即使跑 7B 模型也可以,只是速度会慢些
    Rrrrrr
        6
    Rrrrrr  
       260 天前
    Macbool air M2 可以跑吗,给个教程
    panxiuqing
        7
    panxiuqing  
       260 天前
    Mac 上用 m1 很快。
    l4ever
        8
    l4ever  
       260 天前
    早就试过, 没有好用的模型. 有更好的推荐吗?
    PowerDi
        9
    PowerDi  
       260 天前
    @keepRun 如果是调试大模型,会把内存和显存都用上吗? pytorch
    keepRun
        10
    keepRun  
    OP
       260 天前
    @PowerDi 应该可以把,这个功能是显卡驱动支持的,系统层面就支持了
    supergeek1
        11
    supergeek1  
       260 天前
    可以,m1 pro 跑个小模型速度很快
    monsterx2a
        12
    monsterx2a  
       260 天前
    它和 docker 啥关系? 有啥优势吗?
    kwater
        13
    kwater  
       260 天前
    ollama 安装后, 跑 17g 模型在 m1 还行,下载速度飞快,
    加载首次等待比较久。

    ollama run gemma:7b-instruct-fp16
    可以自己开多会话


    在 内存紧张就选小的
    ollama run gemma:7b
    dacapoday
        14
    dacapoday  
       260 天前
    主要是它底层的 ggml 库的功劳,作者是个肝帝,移植了大量 开源的 llm 和 权重
    keepRun
        15
    keepRun  
    OP
       260 天前 via Android
    @monsterx2a 跟 docker 没关系,只是使用方式像 docker
    McVander
        16
    McVander  
       260 天前
    m2 max 运行 gemma:7b 速度飞快
    CyouYamato
        17
    CyouYamato  
       260 天前
    手里有台闲置的 4060,目前测试了 gemma 7B ,2B,llama2 。目前来说,2B 快又还不错。搭配 chatbox 还不错。
    kaichen
        18
    kaichen  
       260 天前
    @Rrrrrr #6

    https://lmstudio.ai/ 下载个客户端,搜索对应大小的模型( apple silicon 是内存的 3/4 可以作为显存),可以先搜索 qwen gguf 找个合适大小的玩玩看

    然后可以直接对话,或者启动一个与 openai api 兼容的 api server
    cyp0633
        19
    cyp0633  
       260 天前
    怎么在我的 1650 笔记本上就用 CPU 跑 mistral-7b...
    weilongs
        20
    weilongs  
       260 天前
    目前在用 m2 pro 跑. 客户端本地使用 chat box. 后面考虑是否搞个 Mac 盒子 穿透玩一下.
    skywalkerfc
        21
    skywalkerfc  
       260 天前
    确实很方便,用公司的 m2 很快,在家用自己的 18 款 intel 就风扇直响
    Rrrrrr
        22
    Rrrrrr  
       260 天前
    @kaichen #18 好的,谢谢
    freedom1613
        23
    freedom1613  
       235 天前
    本地跑个小模型,用用沉浸式翻译、Openai-Translator 很不错,感谢推荐
    kangfenmao
        24
    kangfenmao  
       120 天前
    给你推荐一个支持 Ollama 的本地客户端,可以自动加载 Ollama 下载的模型 https://github.com/kangfenmao/cherry-studio
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5358 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 08:18 · PVG 16:18 · LAX 00:18 · JFK 03:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.