1
NerbraskaGuy 283 天前
我想到的一个测试方法是找个页面里面只有图片,看他能不能提炼图片上的文案
|
2
BeautifulSoup 283 天前 2
背后就是搜索引擎的 bot ,谷歌能拿到的东西,他都能拿到。所以这一套东西加上大模型,叫做检索增强 RAG
|
3
webszy 283 天前
爬虫呗,像我最常用的就是 puppeteer 。当人这些公司会有更牛逼的人写
|
4
foolishcrab 283 天前 via iPhone
headless browser
搜搜看看就懂了 |
5
yqcode 283 天前
估计是无头浏览器用于去获取网页内容,但是用户量一多,无头浏览器也占资源,不清楚有没有更优解的,否则就是叠业务机器,而大模型的能力就不需要内容去整理得多规范,只需要按照读文本总结那样去做处理?当然用户量多要考虑的优化细节就不少了,如何用尽可能少的提示词去得出尽可能准确的答案,也是一个研究的大方向。。。
|
6
noahlias 282 天前 1
官方描述的是 第三方抓取 网页等
``` 是否开放类似 Kimi 智能助手中的搜索接口? 目前并没有开放搜索的计划,API 用户可以使用例如 Apify 、Crawlbase 或者 ArchiveBox 等第三方解决方案。 ``` 但是之前看同类型 elmo.chat 介绍类似的技术方案的时候 html parser 用的是阅读模式 ( https://github.com/mozilla/readability) 详情可以看这个技术方案介绍 https://x.com/yadong_xie/status/1774672630194520283 |
7
SayHelloHi 282 天前 1
|
8
noahlias 282 天前
@SayHelloHi 这个不一样好吗 这个是用 metasearch +webarchive 来获取搜索信息的 它等同于搜索引擎
而且需要你部署一个服务 也不是实时的 而且它只获取了网站的 snippet 和 bing/google 这些搜索引擎 API 返回的结果差不多 然而你要获取网站的大纲和详细信息 一定是要用到 html parser 的 |
9
dbak 282 天前
我相同的问题问了 kimi 和 chat-gpt 给出了一样的答案 这是为鼠么呢
|
10
GGMM 282 天前
https://www.deeplearning.ai/the-batch/issue-243/
这篇博客简单介绍了 LLM 如何访问网页,以及总结信息,也就是二楼说的 RAG 技术。用原本搜索引擎拿到的结果作为上下文给 LLM 使用,降低模型胡言乱语的程度。 |
11
hnliuzesen 282 天前
无头浏览器?不过也不是所有网页都能获取内容的,我遇见过提示说无法访问我提供的网页的。
|
12
fredweili 282 天前
都有 SerpApi 这种成熟工具了,langchain 也有提供
|
13
nedqqcc 282 天前
@yqcode headless browser 直接长期开着当服务端,url 进 mq ,然后 browser worker 从 mq 取 url 爬就完事了人,scrapy 扩展项目不少这种
|
15
AoEiuV020JP 282 天前
|
16
binaryify 282 天前
@AoEiuV020JP 会解析的,之前用 it 之家最新的文章丢过去,分析出来的和那篇文章是对的上的,就几分钟前发布的文章
|
17
spicynotes 282 天前
@dbak 100%一样吗?能转发看下?
|
18
allentown0406 281 天前
headless browser
|
19
noahlias 279 天前
@AoEiuV020JP 我看了一下 因为阅读模式确实 他的确没有解析出来一些结果
这让我确信它确实用到了一些 html 的 parser 但是当你用一个插件 ( https://chromewebstore.google.com/detail/kimi-copilot-%E7%BD%91%E9%A1%B5%E6%80%BB%E7%BB%93%E5%8A%A9%E6%89%8B/icmdpfpmbfijfllafmfogmdabhijlehn) 结果效果相当好 但是当你深入问一些详细信息的时候 说明 parser 还是不够好 因为它是读取 html 进去的一些表格信息并没有正确排列 另一个 elmo.chat 它应该是利用了生成的 html 但是详细信息 也是没识别到在乱说 |
20
pth1040080742 268 天前
我最近也写了一个 kimi 小助手的浏览器插件,里面也实现了网页总结的功能。
https://www.v2ex.com/t/1034877#reply9 可以简单说下网页总结的实现思路: 1. 当页面渲染完成后,将 html 提取出来(指定区域),然后去标签,取出人类可阅读的文字再喂 kimi 进行总结 2. 如果是视频网页,则通过技术手段获取字幕,再喂给 kimi |