V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  teaguexiao  ›  全部回复第 3 页 / 共 3 页
回复总数  41
1  2  3  
@FlashEcho 我最近也测了一圈,简单说下结论:

纯中文场景:豆包流式 2.0 > 千问 ASR > 本地 SenseVoice Small 。豆包的中文识别确实是目前公认最强的,几乎不用改。

中英混输场景:差距就大了。豆包和千问的英文识别都一般,尤其是技术术语和人名。本地 SenseVoice 在中英混输上更弱一些。这个场景目前 Typeless 效果最好,但它是客户端产品,按月订阅,价格也贵。

延迟方面:本地模型响应最快(几乎无延迟),但吃内存(~800M )。在线模型延迟可以接受,日常使用体感不明显。

我现在的方案和楼主类似,闪电说 + 豆包在线模型为主,偶尔切本地。如果你主要用中文,豆包流式 2.0 基本就够了。中英混输需求多的话,目前确实没有特别完美的免费方案。
1  2  3  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1012 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 18:53 · PVG 02:53 · LAX 11:53 · JFK 14:53
♥ Do have faith in what you're doing.