type
Post
status
Draft
date
Oct 12, 2024
summary
slug
tags
AIGC应用开发
大语言模型
RAG
category
学习笔记
password
URL
icon
2024.10.19
Meta AI 发布 Meta Spirit LM
一个混合文本和语音的开源多模态语言模型
Spirit LM能够在语音和文本之间进行无缝转换
有两个版本:
Base版本:可以处理语音的基本转换,适合一般的语音识别和生成任务。
Expressive版本:能够捕捉语音中的情感,生成带有这种情感的语音。 也就是可以根据文本、语音中的情感(如开心、愤怒、惊讶等)生成带有情感的语音,使机器说话更加自然
模型可以执行多种跨模态任务,包括:
- 自动语音识别(ASR):将语音输入转换为文本输出。
- 文本转语音(TTS):将文本输入转换为语音输出。
- 语音与文本的混合生成:根据输入的模式自由生成文本或语音,并能够在生成过程中切换模态。
SPIRIT-LM-EXPRESSIVE 版本不仅能够理解情感,还能够通过不同的音调和风格生成具有表现力的语音。例如,通过改变输入语音的语调和风格,模型能够生成富有不同情感色彩的继续内容,如“愤怒”、“悲伤”或“兴奋”等。
SPIRIT-LM 支持通过少量训练样本进行任务学习,特别是在跨模态任务中,
它无需大量数据就可以执行诸如文本生成、语音生成、分类等复杂任务。
SPIRIT-LM 还可通过语音生成方式,继续故事情节,能够保持输入文本的连贯性和语义一致性。
详细介绍:
论文:
GitHub:
2024.09.11
2024.09.19
Qwen2.5是由阿里云Qwen团队开发的大型语言模型系列。训练数据从Qwen2的7T tokens 扩展到了Qwen2.5的18T tokens;该系列模型包括多种尺寸,从0.5B到72B不等,支持29种语言;上下文最大长度128K,其中超过32K的部分利用YARN来进行外推处理,并且最大生成长度8K。Qwen2.5在指令跟随、生成结构化输出和多语言支持方面有显著改进,适用于各种自然语言处理任务。同时还开源了Qwen2.5-Coder模型和Qwen2.5-Math模型。