Cuộc chiến AI百模: Từ cách mạng Transformer đến cạnh tranh sinh thái

2025-07-24 05:05:58

Cuộc chiến "Trăm mô hình" trong cơn sốt mô hình AI lớn

Tháng trước, giới AI đã dấy lên một cuộc "chiến tranh động vật". Một bên là Llama của Meta, được các nhà phát triển yêu thích nhờ tính năng mã nguồn mở. Công ty điện lực Nhật Bản NEC sau khi tham khảo các tài liệu và mã nguồn của Llama, đã nhanh chóng phát triển phiên bản ChatGPT bằng tiếng Nhật, giải quyết được nút thắt trong sự phát triển AI tại Nhật Bản.

Bên kia là một mô hình lớn có tên là Falcon. Vào tháng 5 năm nay, Falcon-40B đã ra mắt, vượt qua Llama để đứng đầu bảng xếp hạng LLM mã nguồn mở. Danh sách này được cộng đồng mô hình mã nguồn mở tạo ra, cung cấp tiêu chuẩn đánh giá khả năng LLM và xếp hạng. Llama và Falcon lần lượt dẫn đầu trên bảng xếp hạng.

Sau khi Llama 2 được phát hành, tạm thời chiếm được vị trí số một; nhưng vào đầu tháng 9, Falcon ra mắt phiên bản 180B, lại một lần nữa đạt được xếp hạng cao hơn.

Thú vị là, nhà phát triển của Falcon là Viện Nghiên cứu Đổi mới Công nghệ ở Abu Dhabi, thủ đô của Các Tiểu vương quốc Ả Rập Thống nhất, chứ không phải là một công ty công nghệ. Chính phủ Các Tiểu vương quốc Ả Rập Thống nhất cho biết việc tham gia vào cuộc cạnh tranh AI là nhằm lật đổ các mô hình chủ đạo.

Vào ngày hôm sau khi Falcon 180B được phát hành, Bộ trưởng Trí tuệ nhân tạo của Các Tiểu vương quốc Ả Rập Thống nhất được chọn vào danh sách "100 người có ảnh hưởng nhất trong lĩnh vực AI" của tạp chí Time, cùng với "cha đẻ AI" Geoffrey Hinton, Sam Altman của OpenAI và những người khác.

Hiện nay, lĩnh vực AI đã bước vào giai đoạn phát triển đa dạng. Các quốc gia và doanh nghiệp có tiềm lực tài chính đang cố gắng tạo ra phiên bản ChatGPT nội địa. Chỉ riêng ở khu vực Vịnh, đã có nhiều người tham gia. Vào tháng 8, Ả Rập Xê-út đã mua hơn 3000 chip H100 cho các trường đại học trong nước để đào tạo LLM.

Nhà đầu tư Chu Hào Hổ đã từng nhận xét rằng, vào năm đó, khởi nghiệp internet được coi là thiếu rào cản, giờ đây khởi nghiệp công nghệ cứng với mô hình lớn cũng đã biến thành cuộc chiến trăm mô hình.

Tại sao công nghệ cứng, vốn được coi là một lĩnh vực khó tiếp cận, lại trở thành một dự án được các quốc gia cạnh tranh phát triển?

Transformer gây ra cách mạng AI

Bất kể quốc tịch là gì, các mô hình lớn hiện tại bao gồm cả chuỗi GPT đều được xây dựng trên nền tảng thuật toán Transformer. Năm 2017, 8 nhà khoa học của Google đã công bố thuật toán Transformer trong bài báo "Attention Is All You Need", trở thành bài báo được trích dẫn nhiều thứ ba trong lịch sử AI và cũng là chìa khóa cho cơn sốt AI lần này.

Trước đây, "dạy máy móc đọc sách" luôn là một vấn đề khó khăn trong giới học thuật. Khác với nhận diện hình ảnh, con người khi đọc sẽ kết hợp với ngữ cảnh để hiểu. Các mạng nơ-ron sớm gặp khó khăn trong việc hiểu văn bản dài, thường xuất hiện vấn đề dịch sai.

Năm 2014, nhà khoa học Google Ilya đã đề xuất mạng nơ-ron hồi tiếp (RNN) để xử lý ngôn ngữ tự nhiên, nâng cao đáng kể hiệu suất của Google Dịch. RNN giới thiệu "thiết kế hồi tiếp", giúp mạng nơ-ron có khả năng kết hợp ngữ cảnh.

RNN đã thắp sáng niềm đam mê trong giới học thuật, nhưng vẫn tồn tại vấn đề hiệu suất kém, khó xử lý một lượng lớn tham số. Bắt đầu từ năm 2015, Shazeel và những người khác đã phát triển các phương pháp thay thế cho RNN, cuối cùng dẫn đến sự ra đời của Transformer.

Transformer có hai cải tiến lớn so với RNN: một là sử dụng mã vị trí thay thế cho thiết kế tuần hoàn, giúp thực hiện tính toán song song, nâng cao đáng kể hiệu suất đào tạo; hai là tăng cường khả năng hiểu ngữ cảnh. Transformer đã giải quyết nhiều vấn đề và dần trở thành giải pháp chủ đạo trong lĩnh vực NLP.

Vào năm 2019, OpenAI đã phát triển GPT-2 dựa trên Transformer, gây chấn động giới học thuật. Google ngay lập tức ra mắt Meena với hiệu suất mạnh mẽ hơn, chỉ bằng cách tăng số lượng tham số và sức mạnh tính toán đã vượt qua GPT-2. Sự ra đời của Transformer đã làm chậm tốc độ đổi mới thuật toán, các yếu tố kỹ thuật như dữ liệu, sức mạnh tính toán, cấu trúc mô hình trở thành chìa khóa trong cuộc đua AI.

Nhà khoa học máy tính Ngô Ân Đạt cho rằng, AI đang trở thành một công nghệ chung giống như điện, internet. Cơ quan phân tích Semi Analysis dự đoán rằng, các công ty công nghệ lớn khác sẽ sớm phát triển các mô hình lớn có hiệu suất tương đương với GPT-4.

Thách thức phía sau cuộc chiến百模

Tính đến tháng 7 năm nay, số lượng mô hình lớn ở Trung Quốc đã đạt 130, vượt qua con số 114 của Mỹ. Ngoài Trung Quốc và Mỹ, các quốc gia giàu có khác cũng bắt đầu phát triển mô hình lớn nội địa, như Bhashini của Ấn Độ, HyperClova X của Naver Hàn Quốc.

Tình huống này gợi nhớ đến thời kỳ bong bóng Internet. Mặc dù Transformer đã giảm bớt rào cản phát triển mô hình lớn, nhưng điều đó không có nghĩa là ai cũng có thể trở thành ông lớn AI. Lấy "Cuộc chiến động vật" làm ví dụ, Falcon mặc dù đứng đầu bảng xếp hạng, nhưng ảnh hưởng đến Meta là rất hạn chế.

Đối với mô hình lớn mã nguồn mở, cộng đồng nhà phát triển tích cực mới là lợi thế cạnh tranh cốt lõi. Meta đã thiết lập chiến lược mã nguồn mở từ năm 2015. Vào tháng 10, Meta cũng đã ra mắt hoạt động "Khuyến khích người sáng tạo AI", tài trợ cho các nhà phát triển sử dụng Llama 2 để giải quyết các vấn đề xã hội.

Hiện tại, dòng sản phẩm Llama của Meta đã trở thành tiêu chuẩn cho LLM mã nguồn mở. Tính đến đầu tháng 10, có 8 trong số 10 vị trí hàng đầu trên bảng xếp hạng của Hugging Face dựa trên Llama 2, và có hơn 1500 LLM sử dụng giấy phép mã nguồn mở của nó.

Mặc dù việc nâng cao hiệu suất là một con đường khả thi, nhưng hầu hết các LLM và GPT-4 vẫn có khoảng cách rõ rệt. Trong bài kiểm tra AgentBench, GPT-4 đứng đầu với 4.41 điểm, người đứng thứ hai là Claude chỉ với 2.77 điểm, các LLM mã nguồn mở thường ở khoảng 1 điểm. Khoảng cách này xuất phát từ sức mạnh của đội ngũ OpenAI và kinh nghiệm tích lũy lâu dài.

Vì vậy, năng lực cạnh tranh cốt lõi của mô hình lớn nằm ở việc xây dựng hệ sinh thái ( mã nguồn mở ) hoặc khả năng suy diễn thuần túy ( mã nguồn đóng ). Khi cộng đồng mã nguồn mở phát triển, hiệu suất của các LLM có thể trở nên đồng nhất. Vấn đề trực tiếp hơn là, ngoại trừ Midjourney, dường như chưa có mô hình lớn nào đạt được lợi nhuận.

Nghịch cảnh của việc định giá dựa trên giá trị

Vào tháng 8 năm nay, một bài viết dự đoán rằng OpenAI có thể phá sản vào cuối năm 2024 đã thu hút sự chú ý. Bài viết chỉ ra rằng, kể từ khi phát triển ChatGPT, OpenAI đã nhanh chóng mở rộng thua lỗ, với khoản thua lỗ khoảng 540 triệu USD vào năm 2022, phụ thuộc vào đầu tư của Microsoft. Điều này phản ánh vấn đề mất cân bằng giữa chi phí và doanh thu mà các nhà cung cấp mô hình lớn đang phải đối mặt.

Chi phí cao khiến hiện tại những người hưởng lợi chính là các nhà sản xuất chip như Nvidia. Theo Omdia, Nvidia đã bán ra hơn 300,000 chip H100 trong quý II, nặng tương đương với 4.5 chiếc Boeing 747. Doanh thu của Nvidia tăng vọt, giá H100 đã được đẩy lên 40-50,000 USD trên thị trường thứ cấp, trong khi chi phí chỉ khoảng hơn 3000 USD.

Chi phí tính toán đã trở thành rào cản phát triển của ngành. Sequoia Capital ước tính rằng các công ty công nghệ trên toàn cầu sẽ chi tới 200 tỷ đô la mỗi năm để xây dựng cơ sở hạ tầng mô hình lớn, trong khi doanh thu hàng năm từ mô hình lớn chỉ tối đa 75 tỷ đô la, có ít nhất 125 tỷ đô la thiếu hụt.

Hầu hết các công ty phần mềm vẫn chưa tìm ra mô hình sinh lời sau khi đầu tư hàng triệu đô la. Ngay cả những ông lớn như Microsoft và Adobe cũng đang đối mặt với thách thức. GitHub Copilot của Microsoft hợp tác với OpenAI đang thua lỗ từ 20-80 USD mỗi người dùng mỗi tháng. Adobe đã giới thiệu hệ thống điểm cho công cụ Firefly AI, hạn chế người dùng sử dụng quá mức.

Hầu hết các ứng dụng chính của các mô hình lớn vẫn bị giới hạn trong trò chuyện. Mặc dù OpenAI và ChatGPT đã thúc đẩy cuộc cách mạng AI, nhưng giá trị của việc chỉ đơn giản là đào tạo các mô hình lớn vẫn còn nghi vấn. Khi sự cạnh tranh đồng nhất gia tăng và số lượng mô hình mã nguồn mở tăng lên, không gian cho các nhà cung cấp mô hình lớn thuần túy có thể sẽ bị thu hẹp hơn nữa.

Cũng như sự thành công của iPhone 4 không nằm ở bộ xử lý A4, mà ở hệ sinh thái ứng dụng của nó, tương lai của mô hình lớn cũng sẽ phụ thuộc vào giá trị mà nó tạo ra trong ứng dụng thực tế.

GPT1.16%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

13 thích