Gemini 2.5 Flash Native Audio
Search documents
X @Tesla Owners Silicon Valley
Tesla Owners Silicon Valley· 2025-12-17 21:44
BREAKING: xAI’s new Grok Voice Agent is the new leading Speech to Speech model, surpassing Gemini 2.5 Flash Native Audio and GPT Realtime in our Big Bench Audio benchmark https://t.co/Mfn25WnvgI ...
X @xAI
xAI· 2025-12-17 20:40
RT Artificial Analysis (@ArtificialAnlys)xAI’s new Grok Voice Agent is the new leading Speech to Speech model, surpassing Gemini 2.5 Flash Native Audio and GPT Realtime in our Big Bench Audio benchmarkThe new model achieves a score of 92.3% on Big Bench Audio, just ahead of the previous leader, Google’s Gemini 2.5 Flash Native Audio Thinking. This model is @xAI’s first public Speech to Speech API, bringing increased competition to the space. The model has tool calling support and xAI has said it’s ready to ...
完爆ChatGPT,谷歌这招太狠:连你的「阴阳怪气」都能神还原
3 6 Ke· 2025-12-15 02:04
谷歌发布Gemini 2.5 Flash原生音频模型,不仅能保留语调进行实时语音翻译,更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新 标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。 想象这样一个场景: 你戴着耳机走在印度孟买喧闹的街头,周围是嘈杂的叫卖声和完全听不懂的印地语。 此时,一位当地大叔急匆匆地用印地语向你询问路线,他的语速很快,语气焦急。 若是以前,你可能得手忙脚乱地掏出手机,打开翻译App,按下按钮,尴尬地把手机递到他嘴边,然后听着手机里传出毫无感情的「机翻」电子音。 Nano Banana Pro制图 但现在,一切都变了。 你站在原地不动,耳机里直接传来了流利的中文:「嘿!朋友,麻烦问一下,火车站是不是往这边走?」 最绝的是,这句中文不仅意思准确,甚至连大叔那种焦急、气喘吁吁的语调都完美复刻了! 你用中文回答,耳机自动把你的声音转化成印地语传给对方,甚至保留了你热情的语调。 这不仅是科幻电影里的《巴别塔》重现,这是谷歌本周刚刚扔下的重磅「核弹」——Gemini 2.5 Flash Native Audio(原生音频模型)。 今天,我们就来扒一扒这次更新到底有多强。 ...