V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
smalltong02
V2EX  ›  程序员

我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中

  •  1
     
  •   smalltong02 ·
    smalltong02 · 1 天前 · 1339 次点击

    Gemini 2.0:Google 最新的多模态大模型

    Gemini 2.0 是 Google 最新的统一大模型,能够同时处理 文本、音频和视频数据,并支持 音频输出。这意味着你可以通过 摄像头和麦克风,与该模型进行 实时对话

    目前,在 GitHub 上可以找到的部署方案大多是针对 PC 端Gemini 2.0 多模态实时交互,而我可能是第一个将这一功能移植到手机端的开发者。不知道是否有朋友感兴趣,想看看它在 移动设备 上的效果?


    现有功能

    音频交互:通过手机麦克风赋予 Gemini 2.0 听觉能力,实现 实时问答
    视觉交互:通过手机摄像头赋予 Gemini 2.0 视觉能力,进行 实时图像分析与交互
    联网与代码执行:模型支持 联网查询实时数据代码执行功能,使其更加强大。
    免费使用:目前该功能 完全免费,无需额外付费。


    功能限制

    国内可能无法使用:由于模型依赖 Google 的服务,在中国大陆地区可能无法正常访问。
    时长限制:目前 Google 仍在测试该模型,因此对话时长受限:

    • 纯音频对话 最长 15 分钟
    • 音频 + 视觉交互 最长 3 分钟

    这是 Google 设定的限制,非技术问题导致。


    如果你对这个项目感兴趣,欢迎讨论和交流!

    Android 版本https://play.google.com/store/apps/details?id=com.keras.keras_android_chatbot

    苹果版本https://apps.apple.com/us/app/keras-chatbot-voice-assistant/id6608969280

    第 1 条附言  ·  1 天前
    请选择第一项在线聊天:

    7 条回复    2025-01-30 12:42:37 +08:00
    vfx666
        1
    vfx666  
       1 天前 via iPhone
    马克马克
    Amanises
        2
    Amanises  
       1 天前
    厉害厉害,尝试下🤔
    smalltong02
        3
    smalltong02  
    OP
       16 小时 44 分钟前
    请问大家试用过之后有什么反馈吗?

    我提供自己的一个测试案例,我复现过 Google 演示中一个非常厉害的功能,我在桌子上放了一个 PC 的头戴式耳机,然后在提问过程中,手机摄像头移动时扫到过这个耳机,在又经过一些问答之后并且摄像头并没有对准桌子和耳机的情况下,我询问是否有看到我的耳机在什么地方,Gemini 2.0 回答耳机在桌子上。
    Aka114514
        4
    Aka114514  
       11 小时 52 分钟前 via iPhone
    想问下开发者,这个软件在 ios 端是不是用连续连续拍照实现视频对话的。手机的快门声一直在响没停过🤦
    boshok
        5
    boshok  
       10 小时 40 分钟前
    安装-卸载。
    smalltong02
        6
    smalltong02  
    OP
       9 小时 49 分钟前
    @Aka114514

    是的,其实我是调用了 takepicture 功能获取的图像数据,这样省了转换的编码,其实如果获取原始的 pcm 数据流就没这个问题了。我下个版本会进行修复,好像有些国家或地区,在调用拍照的时候必须开启快门声音,为了避免偷拍什么的。请问您的手机是苹果手机还是 ipad? 我的苹果手机没有快门的声音。
    smalltong02
        7
    smalltong02  
    OP
       9 小时 48 分钟前
    @boshok

    为啥呢,小哥哥。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1987 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 14:31 · PVG 22:31 · LAX 06:31 · JFK 09:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.