"Lạm phát tokens" đang diễn ra! Mô hình mới của Zhipu tăng giá 20%

LightningPacketLoss · 2026-03-17T04:20:14+00:00

Ngành công nghiệp mô hình lớn đang phải đối mặt với làn sóng tăng giá, mô hình GLM-5-Turbo được phát hành gần đây bởi Zhipu đã tăng giá API lên 20%. Thị trường tăng cường chú ý đến tiêu thụ tokens, công nhân cho rằng nó trở thành phương tiện sản xuất mới. Trong tương lai, khi các nhiệm vụ đại lý trở nên phức tạp hơn, tiêu thụ tokens sẽ tăng đáng kể, dự kiến số lượng đại lý vào năm 2031 sẽ vượt quá 350 triệu, với tốc độ tăng trưởng kép hàng năm vượt 135%.

LightningPacketLoss

2026-03-17 04:20:14

Đang tạo bản tóm tắt

Nguồn: Báo Chứng khoán Thượng Hải Tác giả: Sun Xiaocheng

Xu hướng tăng giá trong ngành mô hình lớn vẫn tiếp tục. Ngày 16 tháng 3, “Cổ phiếu số 1 toàn cầu về mô hình lớn” Zhipu công bố ra mắt mô hình nền GLM-5-Turbo dành cho các tác vụ của trí tuệ nhân tạo như OpenClaw (“Tôm hùm”) và đồng thời điều chỉnh tăng giá API của GLM-5-Turbo thêm 20%. Trước đó, Tencent Cloud và OpenAI đã điều chỉnh tăng giá một số mô hình của họ.

Trong giới ngành, theo nhận định, khi mô hình lớn từ đơn giản “hỏi đáp” chuyển sang có thể thực sự “làm việc”, lượng tokens (tức là đơn vị từ vựng, là chỉ số chính để tính phí) tiêu thụ mỗi lần gọi sẽ tăng mạnh. Điều này trực tiếp làm tăng chi phí của các nhà cung cấp mô hình, và việc tăng giá hướng tới người dùng trở thành kết quả tự nhiên. Trong tương lai, khi các tác vụ của trí tuệ nhân tạo phức tạp hơn, lượng tokens tiêu thụ dự kiến sẽ tăng theo cấp số nhân.

Mô hình mới của Zhipu tập trung vào “làm việc” và tăng giá

Trong vòng hai tháng, Zhipu đã hai lần tăng giá. Ngày 12 tháng 2, họ ra mắt mô hình flagship thế hệ mới GLM-5, và ngày hôm sau đã điều chỉnh tăng giá gói dịch vụ GLM Coding Plan ít nhất 30%. Thông tin này đã thúc đẩy hoạt động của chuỗi ngành AI, và khiến thị trường chú ý hơn đến câu chuyện “lạm phát tokens”.

So sánh, mức tăng giá của Zhipu lần này vẫn khá lớn. So với GLM-4.7, GLM-5 đã tăng trung bình 50%; dựa trên đó, GLM-5-Turbo so với GLM-5 tăng giá 20%, còn so với GLM-4.7 trung bình tăng 83%.

Đối tượng lần này của Zhipu tăng giá — mô hình mới GLM-5-Turbo — là mô hình tập trung vào “làm việc”, được thiết kế riêng để thực hiện các tác vụ của trí tuệ nhân tạo, bao gồm cả OpenClaw (“Tôm hùm”) đang rất hot gần đây.

Chuyên gia công nghệ của Zhipu phân tích rằng, hiện tại, dù Tôm hùm rất phổ biến, nhưng phản hồi của người dùng cho thấy hoạt động của nó chưa trôi chảy. Khi vào các tình huống Agent thực tế phức tạp hơn, các mô hình tổng quát dễ gặp khó khăn trong phản hồi.

Nguyên nhân là, nhiệm vụ của các tác vụ trí tuệ nhân tạo không đơn thuần là hỏi đáp một lần. Thường liên quan đến nhiều vòng hiểu biết, phân tích nhiệm vụ, gọi công cụ, kết nối trạng thái, kích hoạt theo thời gian và thực thi liên tục trong chuỗi công việc dài. Vì vậy, dù mô hình tổng quát thể hiện xuất sắc trong khả năng đối thoại, khi vào các tình huống Tôm hùm thực tế, vẫn dễ gặp phải các vấn đề như lệch hướng chỉ thị, gọi công cụ không ổn định, hoặc mất tốc độ giữa chừng trong các nhiệm vụ dài.

Chuyên gia này cho rằng, để giải quyết tận gốc các vấn đề này, cần tối ưu sâu trong lớp mô hình nền. Dựa trên đó, Zhipu đã xây dựng hệ thống các kịch bản nhiệm vụ đa dạng dựa trên quy trình làm việc thực tế của Agent, giúp mô hình có thể thực thi hiệu quả trong các nhiệm vụ phức tạp, động và dài, đặc biệt tập trung nâng cao khả năng gọi công cụ, tuân thủ chỉ thị, thực thi theo thời gian và liên tục của GLM-5-Turbo.

Từ “hỏi đáp” đến “làm việc” – lượng tokens tiêu thụ tăng gấp đôi

Trong thời đại mô hình lớn, tokens trở thành “nguyên liệu sản xuất có thể đo lường”, không còn là “lượng truy cập miễn phí”. Quảng Nguyên Chứng khoán cho rằng, mô hình lớn biến các dịch vụ như “đối thoại/viết mã/ sinh nội dung” vốn tưởng như do nhà cung cấp phần mềm cung cấp thành dịch vụ dựa vào khả năng tính toán trực tuyến phụ thuộc mạnh vào sức mạnh máy tính.

Đối với nhà sản xuất mô hình, mỗi lần phản hồi đều tiêu tốn GPU, bộ nhớ đồ họa, băng thông và điện năng; còn đối với người dùng, mỗi lần “yêu cầu mô hình suy nghĩ lâu hơn, viết đoạn mã dài hơn, chạy nhiệm vụ phức tạp hơn” đều tương ứng với lượng tokens tiêu thụ nhiều hơn. Vì vậy, tokens tự nhiên trở thành đơn vị đo lường mới.

Do đó, thị trường đã đề xuất khái niệm “lạm phát tokens”. Điều này không chỉ đơn thuần là tokens trở nên đắt hơn, mà là cấu trúc tiêu thụ tokens của từng đơn vị thời gian, từng người dùng tăng lên có tính hệ thống.

Một số doanh nghiệp mô hình lớn đã công bố dữ liệu, chứng minh xu hướng này. Ví dụ, trong hai tháng đầu năm 2026, lượng gọi MiniMax và số lượng người dùng mới đều tăng mạnh, các mô hình văn bản dòng M2 của họ trung bình tiêu thụ hơn 6 lần tokens mỗi ngày so với tháng 12 năm 2025.

Trong tương lai, khi khả năng “làm việc” của mô hình lớn được nâng cao, lượng tokens tiêu thụ sẽ tăng theo cấp số nhân. Báo cáo nghiên cứu của IDC dự đoán, số lượng trí tuệ nhân tạo hoạt động tích cực của các doanh nghiệp Trung Quốc sẽ vượt 3,5 tỷ vào năm 2031, với tốc độ tăng trưởng hợp lý hàng năm trên 135%, dẫn đầu các thị trường chính toàn cầu. Đồng thời, do mật độ thực thi nhiệm vụ của trí tuệ nhân tạo tăng lên và độ phức tạp của nhiệm vụ cũng tăng, lượng tokens tiêu thụ trung bình hàng năm của các tác vụ trí tuệ nhân tạo sẽ tăng hơn 30 lần theo cấp số nhân.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.