AI 早报 07月06日

AIGC最新资讯7个月前更新 AiBots
89 0 0

昨天(2024年07月05日),AI领域发生了多项重要事件和进展,这里汇总如下。

AI应用进展和演化

1-1. 国产动漫视频AI YoYo 火了:二次元随意捏,哥特、梦幻、机甲一键get

不管是提示词还是图片,都有着非常丰富的高质量素材——几十个流行人物角色,以及通用、平涂、机甲等各种风格,可谓是一站式集齐,让人直呼过瘾。当前AI生成的视频存在两大技术缺陷,一是可控性,二是生成速度。以往的模型大多使用图像或文本指令作为生成条件,但缺少对视频中动作的精确、交互式控制。在生成视频时速度也非常慢,这对于C端应用来说也会严重影响用户体验。为了解决这些模型缺陷,鹿影团队长期专注于技术攻关,并取得了丰硕的成果,发表了多篇「干货满满」的高水平论文,Motion-I2V等

https://m.163.com/dy/article/J6BATIUB0511ABV6.html?spss=adap_pc&sid_for_share=80217_3

AI 早报 07月06日 AI 早报 07月06日 AI 早报 07月06日

相关论文:https://arxiv.org/abs/2401.15977

1-2. 商汤科技发布“日日新5o”:实时多模态流式交互对标GPT-4o

其综合性能较上一代“日日新5.0”平均提升30%,在数学推理、英文能力和指令跟随等能力明显增强。通过整合跨模态信息,基于声音、文本、图像和视频等多种形式,国内首个所见即所得模型“日日新5o”带来一种全新的AI交互模式,即实时的流式多模态交互。现场也为大家展示了这种创新交互模式工作人员刚开始仅是和“日日新5o”打个招呼,它就自动识别出工作人员脖子佩戴的胸卡带子上的字眼,判断出现场就是世界人工智能大会会场,并表示在这个地方可以“好好学习”。

接下来工作人员拿了一只可爱小狗玩偶,“日日新5o”准确描述了小狗的外貌、表情以及重要穿戴一个带着印有商汤科技logo白帽子,很给主场人排面。

https://ms.mbd.baidu.com/r/1lZjtf20xTG?f=cp&rs=2018032141&ruk=1PJuPlec4ZGlYTqNPEAXQw&u=1cf6523f4fc90522&sid_for_share=80217_3

AI 早报 07月06日

1-3. 逐际动力携“双足机器人P1”到场:并首次公布P1全新升级形象,P1是中国首个成功在野外森林徒步的双足机器人

“这款身高168厘米、采用碳纤维复合材料打造的全尺寸双足机器人,拥有超过60个智能柔性关节,并且以每小时3.5公里的速度移动,手臂可承载10公斤重物。”

http://szsb.sznews.com/MB/content/202407/05/content_3230075.html?sid_for_share=80217_3

AI 早报 07月06日

1-4. 直击WAIC B站亮相世界人工智能大会 :首次展出自研大语言模型

哔哩哔哩(以下简称“B站”)亮出了多项自主研发的AI技术成果和AIGC多元创意,包括最新定制的AI语音声库、自研音视频大模型必剪Studio以及自研AI动态漫技术等。值得一提的是,B站自研的大语言模型系列也在此次WAIC大会上首次展出,包括开源的Index-1.9B chat和Index-1.9B character两个模型。根据B站透露的数据,当前超过8000万用户每月在B站观看AI相关的视频,其中6成为00后。

https://cn.technode.com/post/2024-07-05/bilibili-waic-2024-ai/?sid_for_share=80217_3

1-5.猿力科技亮相WAIC 2024: 自研教育大模型全面产品化落地

首次通过世界人工智能大会展示其自研大模型支撑的教育产品“全家桶”,其中包括飞象星球、猿编程、小猿学练机、海豚AI学等国内教育服务产品,及旗下两款AI教育出海产品CheckMath、LeapMath。从展会现场了解到,猿力科技大模型技术已覆盖对话辅导、口语陪练、阅读理解等面向家庭教育端的应用场景,以及作业批改、学情分析、答疑辅导等服务于政府和学校端的教育应用场景。猿力科技还携旗下两款AI教育出海产品CheckMath、LeapMath亮相本次世界人工智能大会。凭借在多语言智能批改、“AI大模型+高质量交互动画”等领域的创新,该等产品已经覆盖新加坡等100余个国家和地区

https://me.mbd.baidu.com/r/1lZmfleXVJe?f=cp&rs=103510528&ruk=1PJuPlec4ZGlYTqNPEAXQw&u=4d77f2eb3ef51faf&sid_for_share=80217_3

AI 早报 07月06日
1-6. 网易有道宣发全新AI大模型学习硬件“有道词典笔X7”:标志着词典笔开启全科辅导新时代。

既是听力神器、又是口语教练的听力宝E6 Pro,全球首个虚拟人口语私教Hi Echo,首个高度集成化智能体育终端有道趣动屏等基于国内首个教育大模型“子曰”的十余款最新应用惊艳亮相,展现了网易有道在教育科技融合创新方面的深厚实力。基于子曰的知识问答能力,有道词典笔X7能够满足查词翻译、作文指导、口语练习、语法精讲、难重点题型讲解等多学科答疑辅导需求。它像一位24小时随时待命的AI家教,无论是适配学习者水平的口语陪伴练习,还是语文、数学、物理等重点考题攻克,都能轻松地应对,给予孩子高效精准地指导。

https://www.jiqizhixin.com/articles/2024-07-05-8

AI 早报 07月06日
1-8. 可迁移深度学习模型 TandemMod发布:鉴定多类型 RNA 修饰、显著减少计算成本
上海交通大学生命科学技术学院长聘教轨副教授余祥课题组,联合上海辰山植物园杨俊 / 王红霞团队,在「Nature Communications」发表了研究论文:1. 在保证同等性能的条件下,显著减少训练集数据量和模型训练时间等计算成本2. TandemMod 为动植物和微生物体内,多种类型的 RNA 修饰位点鉴定及表观转录组研究,提供重要技术支撑

3. TandemMod 还可用于检测 RNA 疫苗等人工修饰的 RNA

实验阶段,在 Curlcake 测试数据集 m⁶A 识别的情况下,TandemMod 以 0.90 的准确率优于其他算法。

https://juejin.cn/post/7387701265796857892

AI 早报 07月06日
TandemMod框架、以及与其他基于DRS的主流算法预测m⁶A修饰位点的比较等
1-9. 从头设计配体,湖南大学提出基于片段的多尺度分子表征框架 :t-SMILES,分子100%有效
实验表明,t-SMILES 模型可以生成 100% 理论有效性且高度新颖的分子,优于基于 SOTA SMILES 的模型。研究表明语言模型 (LM) 在学习大型复杂分子方面可能优于大多数 GNN。最近,基于 Transformers 的 LM 已经展示了它们生成与人类书写极为相似的文本的能力。此外,无论模型是原始的、数据增强的还是预训练后微调的,它都可以避免过拟合,并在标记的低资源数据集上保持合理的相似性的同时获得更高的新颖性分数。

https://www.jiqizhixin.com/articles/2024-07-05-4

AI 早报 07月06日
使用 GPT 在 ZINC 上进行的分布学习基准测试的结果。
AI 早报 07月06日
论文地址:https://www.nature.com/articles/s41467-024-49388-6
1-10. 山大、北理工等AI模型RMSF-net登Nature子刊:仅几秒准确推断蛋白动力学信息
文章提出了一个神经网络模型 RMSF-net,其优于以前的方法,并在大规模蛋白质动力学数据集中产生最佳结果;该模型可以在几秒钟内准确推断出蛋白质的动力学信息。通过从实验蛋白质结构数据和低温电子显微镜 (cryo-EM) 数据集成中有效地学习,该方法能够准确识别低温电子显微镜图和 PDB 模型之间的交互式双向约束和监督,以最大限度地提高动力学预测效率。RMSF-net 通过严格的 5 倍交叉验证在测试集上表现出色,与 MD 模拟结果的相关系数达到 0.746±0.127,比 DEFMap 提高了 15%,比基线提高了 10%

https://www.jiqizhixin.com/articles/2024-07-05-5

AI 早报 07月06日
不同 RMSF 预测方法在数据集上的表现
AI 早报 07月06日
论文地址:
https://www.nature.com/articles/s41467-024-49858-x
 
 
1-11. 达摩院寻光平台炸场WAIC:AI视频创作一条龙,突破可控编辑难题
达摩院认为,Sora等AI视频生成模型给足了人们对视频生产方式彻底变革的想象力,但一方面,AI视频内容的可控编辑,包括对复杂剧情的理解、生成对象的一致性等,仍然是当前算法所面临的一大挑战。另一方面,业界尚没有统一的AI视频编辑平台,能让创作者们一站式体验到AI加持的视频创作全流程。达摩院打造寻光,定位为PUGC一站式AI视频创作平台,目标正是针对以上问题,用AI能力重塑传统视频制作的全流程。

具体来说,寻光可以辅助用户创作剧本、分镜图等,支持对生成及上传素材进行丰富的AI编辑,包括人物控制、场景控制、运镜控制、目标新增/消除/修改等10多种功能。

https://www.qbitai.com/2024/07/162937.html

AI 早报 07月06日 AI 早报 07月06日 AI 早报 07月06日

AI大模型算法和峰会

2-1. 月之暗面和清华KVCache.ai团队的最新论文:首次揭秘了Kimi背后的推理架构,80%流量都靠它承担

Kimi背后的推理架构名叫Mooncake(月饼),主要特点是采取了分离式的设计方案。Mooncake在设计之时就考虑了可能出现的大流量场景,并针对这种情况专门研发。在模拟场景下,Mooncake最高能带来525%吞吐量增长
另据月之暗面工程副总裁许欣然的一篇知乎文章介绍,Kimi有80%以上的流量,都是由该系统承接。端到端性能评估结果表明,Mooncake的架构设计和优化策略,有效提高了推理服务性能,尤其在长上下文和真实场景下优势更加显著。
在ArXiv Summarization和L-Eval数据集上,Mooncake的吞吐量比baseline方法vLLM分别提高了20%和40%。

https://www.qbitai.com/2024/07/162670.html

AI 早报 07月06日

论文地址:https://arxiv.org/pdf/2407.00079

2-2. 蚂蚁集团公布了其自研的百灵大模型最新研发进展:百灵大模型已具备能“看”会“听”、能“说”会“画”的原生多模态能力,可以直接理解并训练音频、视频、图、文等多模态数据。

 

在生活服务上,蚂蚁集团使用多模态模型实现了ACT技术,让智能体具备一定规划执行能力,比如根据用户语音指定直接在星巴克小程序下单一杯咖啡,目前这一功能已在支付宝智能助理上线。在医疗领域,多模态能力为用户实现复杂任务的操作,可以对超过100多种复杂的医学检验检测报告进行识别和解读,还可以检测毛发健康和脱发情况,对治疗提供辅助。发布现场,蚂蚁集团副总裁徐鹏展示了新升级的多模态技术可实现的更多应用场景:通过视频对话的自然形式,AI助理能为用户识别穿着打扮,给出约会的搭配建议;根据用户不同的意图,从一堆食材中搭配出不同的菜谱组合;根据用户描述的身体症状,从一批药物中,挑选出可能合适的药供用户参考等。

https://www.jiqizhixin.com/articles/2024-07-05

AI 早报 07月06日

2-3. 谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力

来自谷歌DeepMind的研究人员,推出了专门用于评估大语言模型时间推理能力的基准测试——Test of Time(ToT),从两个独立的维度分别考察了LLM的时间理解和算术能力ToT的数据集分为三个子集:ToT-semantic包含1850个示例,ToT-arithmetic包含2800个示例,另外还有一个ToT-semantic-large,包含46480个示例,能够在更大的尺度上衡量时间理解的语义和逻辑。ToT的使用方法很简单,先安装Huggingface数据集,然后两行代码导入即可

https://www.51cto.com/article/792158.html?sid_for_share=80217_3

AI 早报 07月06日

比如GPT-4的准确率因图的类型而异,从完整图的40.25%到AWE图的92%。

论文地址:https://arxiv.org/pdf/2406.09170

AI基础设施方面(含硬件、数据)

3-1. 逐步应用的策略Step-DPO:10k数据让大模型数学能力超GPT-4

港中文贾佳亚团队推出了基于推理步骤的大模型优化策略,能够像老师教学生一样优化大模型。
利用这种方法,72B Qwen模型的数学成绩超越了GPT-4、Gemini1.5-Pro和Claude3-Opus等一众闭源模型。老师在纠正学生错误时,不会只告诉学生最终答案错了,还会告知具体哪个步骤错了,以此快速纠正其错误。贾佳亚团队正是学习了这一特点,将斯坦福团队推出的DPO(直接偏好优化)进一步细化,形成了逐步应用的策略Step-DPO。

该方法让Qwen-72B模型在多个数据集上进步明显,同时也获得了更强的长链条推理任务能力。

https://www.qbitai.com/2024/07/162999.html

AI 早报 07月06日
利用这种方法,72B Qwen模型的数学成绩超越众多大模型

论文地址:https://arxiv.org/abs/2406.18629?sid_for_share=80217_3

注:在前序文章中特别提到当前大语言模型在数学逻辑方面的薄弱,这份研究就是为了解决这方面问题的尝试

公众号:雕爷说

24年06月27日: AI 快讯汇总

3-2. 爱芯元智亮相2024世界人工智能大会:以边端智能创普惠AI

首先,爱芯元智的端侧小芯片AX620Q、AX650N和Axera-Pi Zero,在Depth Anything将普通的2D照片变成3D视界,推动虚拟现实(XR)技术大步飞跃,解锁AI新玩法;其次,边端AI芯片AX650N,实现32路高清视频的同步流畅处理与AI实时分析,整板功耗<8W,展现了超低功耗与超高性能的完美结合;而AX650N芯片结合CLIP模型,让图像搜索变得简单直观,只需一句话或一段文字,就能迅速从海量图片中找到匹配项; AX650N与SAM图像分割技术的结合,则赋予了AI自动修图技能,无需繁琐的手动标注,爱芯元智的图像分割技术能让复杂图像,瞬间分门别类。

http://m.eepw.com.cn/article/202407/460706.html?sid_for_share=80217_3

AI 早报 07月06日

AI 早报 07月06日
AI 早报 07月06日

© 版权声明

相关文章

暂无评论

暂无评论...