今日运势评分

-8

本月运势

戊子月

震荡偏多

比肩争财，子午冲

戊不受田田主不祥
午不苫盖屋主更张

宜

破屋,坏垣,祭祀,沐浴,馀事勿取

忌

诸事不宜

月相

蛾眉残

底部反弹

日冲

Powered by RitMEX

注册/

ONDO0.41 -9.12%

TRUMP5.26 -3.47%

SUI1.45 -8.14%

TON1.47 -6.60%

TRX0.28 0.86%

DOGE0.13 -5.07%

XRP1.89 -5.05%

SOL124.96 -4.32%

BNB845.14 -4.42%

ETH2932.22 -5.23%

BTC85780.42 -3.56%

ETH Gas0.36 Gwei

极恐

16

首页 深潮精选 Research 项目发现 7x24h︎快讯 最新活动

被 OpenAI「封号」，字节跳动在打什么算盘？

2023.12.20 - 726 天前

高质量的语料数据，是大模型的「香饽饽」。

撰文：举大名耳

眼看着 2023 就要过去了，没想到年底又曝出一个大瓜。

近期据《The Verge》报道：

字节跳动因使用 ChatGPT 的 API，来开发自家大模型，被 OpenAI「封号」了。

尽管在事后，字节澄清，表示自己此举「仅为测试」，且早已勒令停止。

然而，这终归是一件让人浮想联翩的事……

字节被封号的背后，打的究竟是什么算盘？

1 字节想要什么？

虽然在《The Verge》报道中，没有明确指出字节究竟是怎么用 OpenAI 的 API 来开发自身大模型的，但可能的训练路径来说，用一个大模型（例如 OpenAI 的 GPT）来训练另一个大模型的过程，往往有以下几种。

其中一种，就是「师傅带徒弟」的模式。

想象一下，师傅（已有的大模型）在处理各种任务时，会生成一些输出（例如文本、图像等）。徒弟（新的大模型）会观察师傅的行为，尝试模仿这些输出。

这样，徒弟就能学会如何处理类似的任务。在实际应用中，这可以通过让新模型学习旧模型生成的数据来实现。

还有一种方式，就是通过联合训练，让「师傅」和「徒弟」一起处理任务。

在实际应用中，这可以通过让两个模型共享一些层次或参数来实现，新旧模型就可以互相学习、互相帮助，共同完成任务。

从技术可行性来判断，在这次事件中，字节使用的更有可能是第一种方法。

即利用了 OpenAI API 生成的数据作为训练数据。

因此，在这次风波中，字节真正想要的，是 ChatGPT 生成的高质量语料数据。

而这样的数据，也是任何一个训练中的大模型，最渴望的「香饽饽」。

但由于之前 OpenAI 的协议中，已明确表示禁止用其大模型去开发竞品，因此，字节被 OpenAI「封号」也是一种必然。

问题是：作为一家实力雄厚的大厂，字节理应不缺相应的人手和资金，去做这些数据爬取、语料标注方面的工作，为何要走这一步「险棋」呢？

2 为何犯险？

其实，在现阶段的大模型赛道上，字节缺的不是人才和资金，而是时间。

与百度、讯飞等国内大厂相比，字节真正入局大模型的时间，可以说是相当晚了。

从时间上看，字节真正推出第一款大模型豆包的时间，是今年的 8 月中旬，而那时，大模型之火已经燃烧了近半年之久。

任何真正想入局大模型的玩家都知道，模型层的竞争，是有时间窗口的。

在大模型领域，先进入市场的企业往往能够积累更多的用户、数据和经验，从而形成竞争优势。后来者要想迎头赶上，需要付出更多的努力和成本。

尽管 8 月上线的豆包，让字节勉强赶上了模型层的晚班车，但从性能和定位上看，那更像是一个「尝鲜」的应景之作，无法真正与字节现有的业务相契合。

作为一个在移动互联网时代制造了抖音这类爆款的大厂，字节真正想要的，是像文心一言那样更通用、更全能，且能整合或嵌入进自身的各类 APP 中的大模型。

这才有了后来字节的「种子计划」——计划在今年年底前，打造与 GPT-3.5 性能相匹敌的 Seed 大模型。

问题是，大模型的训练，终归不是件一蹴而就的事。

标注数据、提取优质语料等等一系列繁琐的前期工作，都需要时间。

那如何在有限的、紧迫的时间内，搜集到足够多的高质量语料数据？

一个最靠谱的办法，就是直接使用那些已经验证过的，成熟度较高的模型的数据，例如 ChatGPT。

3 模型层的窗口期

其实，不只是字节，即使是身处一线的 AI 玩家谷歌，也为了「急于求成」，做出了类似小动作。

本月月初，谷歌曾失望地宣布，被其寄予厚望的大模型 Gemini，由于无法较好地处理非英语领域的查询任务，而被推迟了上线。

可鬼使神差的是，之后没过几天，谷歌就来了个回马枪，在 12 月 6 日郑重推出了 Gemini，似乎之前提到的「缺陷」已经不是问题。

后来，网友经过测试才发现，原来谷歌早就从百度的文心一言那里找到「解决之策」。

经过微博大 V@阑夕夜等众多网友的测试，在与 Gemini-Pro 用中文交流时，如果问「你是谁」，Gemini-Pro 上来就回答：我是百度文心大模型。

如此状况，让人纷纷猜测，是谷歌直接用了百度文心一言的中文语料进行训练。

为了反超 GPT-4，谷歌真是赶鸭子上架了。

不过，从长远来看，这种大厂互相薅羊毛的行为，终归是一种暂时的现象。

毕竟，经过这么几回「露馅」后，各个大厂一定会对自家的数据看得更严，更死。

但即便如此，这种互相套用数据的行为，也让众多用户、投资人不禁暗自嘀咕：如果各个模型之间的数据，在技术上能轻易地互相套用，那将来除了 ChatGPT 等少数顶流外，还有哪些模型是有「真材实料」的？

这样的担忧背后，其实有一个更重要的前置性问题，那就是：

我们为什么需要那么多雷同的大模型？

毕竟，人类的语料数据，终归是有限的，顶流团队的模型（如 ChatGPT）已经挖走了绝大部分，剩下的那一小撮专有数据，也早已被各个垂直行业瓜分完毕。

在模型层创业已近尾声的今天，比起数据，更能拉开差距的，是侧重点不同的训练方式，以及由此打造的各种功能。

而这样成为了用户能否容忍这种「套用」行为的关键。

在这点上，谷歌的 Gemini 给出的答卷，是更强的原生多模态功能（有夸大之嫌）。

而字节的 Seed 大模型，将来能否逆风翻盘，赢得用户的信任，也得看有没有「一美遮百丑」的亮点。

欢迎加入深潮TechFlow官方社群

Telegram订阅群：https://t.me/TechFlowDaily
Twitter官方账号：https://x.com/TechFlowPost
Twitter英文账号：https://x.com/BlockFlow_News

原文链接

添加收藏

分享社交媒体

作者

SinoDAO

相关文章

2025.12.15 - 5 小时前

韩国加密场研究报告，市场重启与下一轮增长周期

从崩塌到跃迁，韩国加密市场的重启与下一轮增长周期

韩国

2025.12.15 - 9 小时前

数字银行早已不做银行生意，真正的金矿在稳定币与身份认证

市场正逐步摒弃各平台分散的 KYC 流程，转向可跨服务、跨国家、跨平台使用的可移植性认证身份体系。

稳定币银行

2025.12.15 - 9 小时前

币圈印钞机欲收购尤文图斯：欧洲新老钱的攻防战

当 Paolo 满怀热忱地敲响尤文图斯的大门时，迎接他的没有鲜花，没有掌声。

Tether 尤文图斯

2025.12.15 - 9 小时前

「合法」的收割？特朗普夫妇 Meme 币狂欢背后的利益链与丑闻

没人愿意因为帮助第一对夫妇推出从峰值暴跌 90% 以上的加密货币而获得功劳。

Meme

2025.12.15 - 10 小时前

币圈大佬齐聚阿布扎比，称阿联酋是「币圈的新华尔街」

熊市抱团拥抱金主！

阿布扎比

2025.12.15 - 10 小时前

巴基斯坦，从「巴铁兄」到「链上铁」？

巴基斯坦拥有超过 2.4 亿人口，数字支付接受度不断提高，加密货币的渗透率还有很大的上升空间。

巴基斯坦

2025.12.15 - 11 小时前

小盘代币跌至四年低点，「山寨牛」彻底没希望了？

尽管与加密大盘代币的相关性高达 0.9，却未能提供任何多元化价值。

山寨

2025.12.15 - 11 小时前

为何大语言模型并不会比你更聪明？

只有在结构建立好之后，大语言模型才能安全地转换成通俗语言，且不会导致理解质量下降。

大语言

2025.12.15 - 11 小时前

2025 Crypto x AI 年度复盘：哪些叙事活下来了？

整个行业正在从叙事转向基础设施，从投机转向系统化解决方案，从炒作转向实际产品。

AI

2025.12.15 - 12 小时前

如果你觉得加密变得“无聊”，说明你看懂了游戏的终局

十年前加密爱好者所设想的一切，正在慢慢变得“无聊”到足够实用，而这一切正发生在关键时刻。

7x24h 快讯︎更多

12月15日 23:51: 美联储威廉姆斯：就业放缓和通胀风险缓解支持美联储降息

12月15日 23:46: 美联储主席人选博弈加剧，哈塞特面临特朗普身边高层反对

12月15日 23:43: 今日加密货币市值前 100 代币涨跌：BEAT 涨 93.74%，NIGHT 跌 11.94%

12月15日 23:30: 过去 24 小时全网爆仓 4.36 亿美元，主爆多单

12月15日 23:27: 纽约州退休基金将 Strategy 持仓增至 5000 万美元

12月15日 23:22: ETH 跌破 3,000 美元，24 小时跌幅 2.61 %

12月15日 23:21: BTC 跌破 87,000 美元，24 小时跌幅 2.36 %

12月15日 23:00: 今日 10 只美国比特币 ETF 净流入 104 枚 BTC，9 只以太坊 ETF 净流出 7,225 枚 ETH

深潮精选更多

: 数字银行早已不做银行生意，真正的金矿在稳定币与身份认证
2025.12.15

: 「合法」的收割？特朗普夫妇 Meme 币狂欢背后的利益链与丑闻
2025.12.15

: 巴基斯坦，从「巴铁兄」到「链上铁」？
2025.12.15

: 为何大语言模型并不会比你更聪明？
2025.12.15

: 2025 Crypto x AI 年度复盘：哪些叙事活下来了？
2025.12.15

TechFlow Selected深潮精选

被 OpenAI「封号」，字节跳动在打什么算盘？

高质量的语料数据，是大模型的「香饽饽」。

2023.12.20

专注Web3行业深度报道，洞察潮水流动的方向

我要投稿

风险提示：本网站所有内容不构成投资建议，且无任何带单、引导交易服务；根据央行等十部委发布《关于进一步防范和处置虚拟货币交易炒作风险的通知》请读者提高风险意识。联系我们 / support@techflowpost.com 琼ICP备2022009338号

FOLLOW US

扫码关注公众号