陈沛/文谷歌的AI笔记产品NotebookLM最近新增了处理音频视频文件的功能。随后,这次产品更新获得了前OpenAI创始团队成员Andrej Karpathy关注,认为它给人一种当年ChatGPT出现的相似感,可能会开启新的AI模型产品形态。
NotebookLM的实际体验更适合科研学习场景
在输出方面,NotebookLM的主要亮点是可以把输入文档直接输出成两人对话聊天的音频文件,目前仅支持英语音频。此外,NotebookLM还提供了常见的AI内容总结模板,例如摘要、学习指南、简报、知识问答等,同时继续支持用户自行提问。
因此,从我实际使用体验来看,NotebookLM更适合的是科研学习场景。例如学生可以上传上课录音快速总结知识点、研究者可以把论文转成听书文件对外宣传、老师可以根据在线教学视频生成知识点和考题等。
NoteBookLM的多模态新功能其实并非首创
NoteBookLM这次更新的多模态新功能其实并非首次出现。在谷歌实验室的其它产品中已经出现过YouTube在线视频总结功能,而不久前的Google Illuminate产品也发布过将PDF学术文档转成两人对话音频文件的功能。
特别是在NoteBookLM此次更新多模态功能后不久,新加坡政府科技局的Gabriel Chua很快在HuggingFace上推出了开源版Open NoteBookLM,使用了开源模型Llama 3.1-405B和文本转语音框架MeloTTS,实现了将PDF转成对话音频文件的核心功能,而且在生成音频的语言风格和时长方面提供了更多选项,且能够支持中、英、法、日、韩、意等多种语言。
尽管在我实际使用开源版Open NoteBookLM的过程中,发现它的生成结果并没有谷歌NoteBookLM那么稳定,且排队等待时间长达5至10分钟。但Open NoteBookLM的快速出现至少可以佐证,多模态新功能是很快能被开源界所追上的。
NoteBookLM启示了AI应用的新路线
既然在功能层面的独创性不足,那为什么NoteBookLM这次更新还会引发诸多业界关注,甚至与当年ChatGPT的出现相提并论?这或许是因为NoteBookLM可能会启发AI应用的新路线。
在这种路线下,AI产品的关注点不仅是为了和用户进行自然对话,而是聚焦对知识条理的组织和整理,甚至是不同模态知识的任意转换,有可能成为新的AI模型产品主流形态。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
为进一步促进贵州算力产业的繁荣发展,加强区域间的合作与交流,2024年7月18日,由贵州省大数据发展管理局作为指导单位,贵州省算力科技有限责任公司主办的,以“算力革新-‘黔’力‘沪’动”为主题的202...
“买全球”“卖全球”“通全球”更便利—— “并行港”物流新模式落地 9月26日,广东湛江港宝满集装箱码头,随着“南航757”轮鸣笛启航驶往海南洋浦港,标志着“并行港”物流模式改革试点首票业务成功落...
赶在国庆假期到来前,上海多个新商场密集开业,品牌首店也积极落地,迎接假期里的消费流量。从西西里岛热烈欢愉的意式生活美学,到牛车水美食街的南洋风情,这些来自全球的高能级首店纷纷亮相,点亮申城的国庆消费市...
近日,华为全联接大会2024期间,在以“全面光进铜退,共赢园区智能化”为主题的全光园区论坛上,超过300名来自全球教育、医疗、制造、酒店等行业的客户及伙伴出席,嘉宾们围绕园区网络话题做了主题演讲,并分...
题:当国歌奏响的时候 刘艺、石雪峰、邱婧 中国人民解放军仪仗司礼大队军乐团指挥程袁文抬起双手,给出预备拍—— 这一刻,天安门广场上顿时安静了下来,人们屏气凝神。 程袁文挥动了指挥棒,国歌奏响。...