DataLearnerAI's profile picture. 关注数据科学 关注科技行业 关注人工智能 关注一切促进人类生活美好的新技术
业界主流大模型列表:https://datalearner.com/ai-models/pretrained-models
国产开源大模型生态现状:https://datalearner.com/china-opensource-llm

DataLearner

@DataLearnerAI

关注数据科学 关注科技行业 关注人工智能 关注一切促进人类生活美好的新技术 业界主流大模型列表:https://datalearner.com/ai-models/pretrained-models 国产开源大模型生态现状:https://datalearner.com/china-opensource-llm

置頂

最近MiniMaxAI发布的关于交错思考(Interleaved Thinking)也是挺有意思的。他们说很多人用MiniMax M2模型效果不好都是没有正确开启这个交错思考。所谓的交错思考是指大模型的思考应该出现在任意位置,不仅仅是开始。但是当前主流推理框架支持都不好,开启这个特性会让M2模型在很多评测都有明显提升。

DataLearnerAI's tweet image. 最近MiniMaxAI发布的关于交错思考(Interleaved Thinking)也是挺有意思的。他们说很多人用MiniMax M2模型效果不好都是没有正确开启这个交错思考。所谓的交错思考是指大模型的思考应该出现在任意位置,不仅仅是开始。但是当前主流推理框架支持都不好,开启这个特性会让M2模型在很多评测都有明显提升。

传闻OpenAI即将发布两个新模型 时延更低 价格也会更低 未来一个月左右发布

Alright, here's the tea: Two new snapshots of GPT-5 with lowered latency, possibly larger context window, and reduced pricing will come in the next 3-4 weeks. One new model specifically trained for data analysis will be released early next year.



Gemini 3 Pro已经上架Vertex了。看样子离发布也不远了。

🚨 From Google Vertex console Confirmed. It's coming.

marmaduke091's tweet image. 🚨 From Google Vertex console

Confirmed. It's coming.


阿里要发布音乐生成大模型了😆

we r working on it and it won't be far. i am just curious about the status



昨天阿里又开源了2个视觉大模型,分别是32B和2B规模。前者效果接近235B-A22B,这样的话这个MoE架构很不划算了,8倍显存,速度没咋提升,效果还差不多。另外,从近期阿里开源的视觉大模型来看,方向很明确:为辅助和代替用户操作计算机以及机器人做准备(空间感知能力提升)。 datalearner.com/blog/105176109…


使用DeepSeek-ORC从50万篇论文中提取表格和图表数据,花费了1000美元。而做同样的使用,使用Mistral-OCR需要7500美元!DeepSeek-OCR的开源感觉又要抢走Mistral的一部分生意了。此前他们家的OCR模型评价还是可以的。

We used DeepSeek OCR to extract every dataset from tables/charts across 500k+ AI arXiv papers for $1000 🚀 See which benchmarks are trending and discover datasets you didn't know existed Doing the same task with Mistral OCR would've cost $7500 👀



2个小时之后,OpenAI即将发布浏览器了。早在7月份的时候CNBC就报道了,OpenAI将会发布AI Agent形式的浏览器,直接与谷歌竞争,同时也可以通过这个浏览器实现Operator等产品,并直接获取用户的最终数据。看这个浏览器的样式,感觉是可以自主编排任务了。



大模型流量份额变化真快啊!一年前,ChatGPT 独占了 87% 的流量。如今只剩 74%,Gemini 飙升到 13%,Deepseek一直在下降,已经快跌破4%了!而Perplexity 首次突破 2%。不过为啥Claude这么少🤔

GenAI Traffic Share Update Takeaways: - ChatGPT continues to lose share. - Perplexity exceeds 2.0% threshold. 🗓️ 12 Months Ago: ChatGPT: 87.1% Gemini: 6.4% Perplexity: 1.7% Claude: 1.7% Copilot: 1.1% 🗓️ 6 Months Ago: ChatGPT: 78.8% DeepSeek: 6.8% Gemini: 5.5%…

Similarweb's tweet image. GenAI Traffic Share Update

Takeaways:
- ChatGPT continues to lose share.  
- Perplexity exceeds 2.0% threshold.

🗓️ 12 Months Ago:
ChatGPT: 87.1%  
Gemini: 6.4%  
Perplexity: 1.7%  
Claude: 1.7%  
Copilot: 1.1%

🗓️ 6 Months Ago:
ChatGPT: 78.8%  
DeepSeek: 6.8%  
Gemini: 5.5%…


LMArena解释为啥大家投票认为Veo3.1比Sora2好。说Sora2因为可以基于特定形象生成视频且有更好的创意和剪辑能力。但是物理和现实方面Veo3.1更好。但是他们给出例子似乎是Sora2更好啊🤔似乎有点不合理啊

In side-by-side tests of core model traits like physics or realism, Veo 3.1 is the winner, which is reflected by the community's response reflected in the leaderboards. Prompt: “AI robot performs a complex gymnastics routine” Left: Sora 2 Pro - Right: Veo 3.1



传闻LMArena上两个模型都是Gemini 3.0 Pro版本啊,只是一个带谷歌搜索,一个不带谷歌搜索!

To clarify: lithiumflow = Gemini 3.0 Pro (no Grounding w/ Google Search) orionmist = Gemini 3.0 Pro (Grounding w/ Google Search) h/t @owluslife

synthwavedd's tweet image. To clarify:

lithiumflow = Gemini 3.0 Pro (no Grounding w/ Google Search)
orionmist = Gemini 3.0 Pro (Grounding w/ Google Search)

h/t @owluslife


写了一篇博客介绍Anthropic最新发布的Claude Skills。AI Agent显然不仅需要强大的模型,也需要工程上更多的设计。Skills作为MCP的互补,更加强调本地执行,强调外部工具的重要性,让AI Agent专注规划、工具使用、任务理解等。这种模式相比较MCP应该更加值得注意。 datalearner.com/blog/105176067…

We're launching Claude Agent Skills, a filesystem-based approach to extending Claude's capabilities. Progressive disclosure means agents load only relevant context. Bundle instructions, scripts, and resources in a folder. Claude discovers and executes what it needs.



OpenAI在周四北京时间0:00又要发布什么产品了吗🤔

Tomorrow, 9am PST 👁️



哇哦,今晚阿里要发布6个东西,一个产品,2个开源模型和3个API接口

1 product, 2 oss, 3 apis. every one is not small.



DeepSeek - v3.1做了小幅更新,缓解了中英文混杂问题,提升了agent能力。看评测结果,部分评测提升不错

DataLearnerAI's tweet image. DeepSeek - v3.1做了小幅更新,缓解了中英文混杂问题,提升了agent能力。看评测结果,部分评测提升不错
DataLearnerAI's tweet image. DeepSeek - v3.1做了小幅更新,缓解了中英文混杂问题,提升了agent能力。看评测结果,部分评测提升不错

哇哦,Qwen3 Omni全模态模型即将到来了,文本图片音频视频输入和输出。带推理版本,似乎可能是MoE架构啊


Loading...

Something went wrong.


Something went wrong.