
Các ông lớn tranh nhau triển khai, VC đổ tiền ào ạt, các công ty này liều lĩnh cạnh tranh để hiện thực hóa "AI đọc tâm"
Tuyển chọn TechFlowTuyển chọn TechFlow

Các ông lớn tranh nhau triển khai, VC đổ tiền ào ạt, các công ty này liều lĩnh cạnh tranh để hiện thực hóa "AI đọc tâm"
Bước đầu tiên của AI trong việc lật đổ con người: đọc được lòng người.
Bài viết: Lexie
Chỉnh sửa: Lu

Trong cuộc tranh luận lớn về AI, người ta gán cho nó hai vai trò: hoặc là trợ lý hiệu quả nhất của chúng ta, hoặc là "đội quân máy móc" sẽ lật đổ con người. Dù là bạn hay thù, AI không chỉ cần hoàn thành nhiệm vụ do con người giao, mà còn phải có khả năng "đọc được" tâm tư con người – và chính khả năng đọc suy nghĩ này đã trở thành chủ đề trọng tâm trong lĩnh vực AI năm nay.
Theo báo cáo nghiên cứu các công nghệ mới nổi trong lĩnh vực SaaS doanh nghiệp do PitchBook công bố năm nay, "AI cảm xúc" (Emotion AI) đã trở thành một điểm sáng công nghệ. Đây là thuật ngữ chỉ việc sử dụng tính toán cảm xúc và các công nghệ trí tuệ nhân tạo để nhận biết, thấu hiểu và tương tác với cảm xúc con người, thông qua việc phân tích văn bản, biểu cảm khuôn mặt, giọng nói và các tín hiệu sinh học khác nhằm nắm bắt trạng thái cảm xúc. Nói đơn giản, AI cảm xúc mong muốn máy móc có thể "hiểu cảm xúc" giống như con người, thậm chí tốt hơn cả con người.
Các công nghệ chính bao gồm:
-
Phân tích biểu cảm khuôn mặt: Sử dụng camera, thị giác máy tính và học sâu để phát hiện vi biểu cảm và chuyển động cơ mặt.
-
Phân tích giọng nói: Nhận diện trạng thái cảm xúc thông qua âm sắc, ngữ điệu và nhịp nói.
-
Phân tích văn bản: Giải mã câu nói và ngữ cảnh bằng công nghệ xử lý ngôn ngữ tự nhiên (NLP).
-
Giám sát tín hiệu sinh học: Sử dụng thiết bị đeo theo người để phân tích nhịp tim, phản ứng da,... nâng cao mức độ cá nhân hóa và chiều sâu cảm xúc trong tương tác.

Emotion AI
Tiền thân của AI cảm xúc là công nghệ phân tích cảm xúc, vốn chủ yếu phân tích qua tương tác văn bản, ví dụ như phân tích và trích xuất cảm xúc người dùng trên mạng xã hội thông qua nội dung chữ viết. Với sự hỗ trợ của AI, khi tích hợp thêm hình ảnh và âm thanh cùng nhiều phương thức đầu vào khác, AI cảm xúc hứa hẹn mang lại phân tích cảm xúc chính xác và toàn diện hơn.
01 VC rót vốn, startup nhận tài trợ khổng lồ
Theo quan sát của Silicon Rabbit, tiềm năng của AI cảm xúc đã thu hút sự chú ý của nhiều nhà đầu tư. Một số công ty khởi nghiệp chuyên về lĩnh vực này như Uniphore, MorphCast,... đã nhận được lượng lớn đầu tư.
Công ty Uniphore đến từ California từ năm 2008 đã nghiên cứu cung cấp giải pháp hội thoại tự động cho doanh nghiệp, phát triển nhiều dòng sản phẩm như U-Self Serve, U-Assist, U-Capture và U-Analyze, giúp khách hàng thực hiện các tương tác mang tính cá nhân hóa và giàu cảm xúc hơn nhờ công nghệ AI về giọng nói, văn bản, hình ảnh và cảm xúc. U-Self Serve tập trung vào nhận diện chính xác cảm xúc và ngữ điệu trong hội thoại, giúp doanh nghiệp cung cấp dịch vụ cá nhân hóa hơn, nâng cao mức độ hài lòng và tham gia của người dùng;

U-Self Serve
U-Assist giúp tăng hiệu suất làm việc của nhân viên chăm sóc khách hàng thông qua hướng dẫn thời gian thực và tự động hóa quy trình; U-Capture thu thập và phân tích dữ liệu cảm xúc tự động, giúp doanh nghiệp có cái nhìn sâu sắc về nhu cầu và mức độ hài lòng của khách hàng; trong khi đó U-Analyze hỗ trợ khách hàng nhận diện các xu hướng then chốt và biến đổi cảm xúc trong tương tác, cung cấp hỗ trợ ra quyết định dựa trên dữ liệu để tăng cường lòng trung thành thương hiệu.
Công nghệ của Uniphore không chỉ đơn thuần là giúp máy móc hiểu ngôn ngữ, mà còn mong muốn chúng có thể bắt lấy và diễn giải cảm xúc ẩn sau ngữ điệu, biểu cảm khuôn mặt khi tương tác với con người. Khả năng này giúp doanh nghiệp khi tương tác với khách hàng không còn là phản ứng máy móc, mà có thể đáp ứng tốt hơn nhu cầu cảm xúc của khách hàng. Nhờ sử dụng Uniphore, mức độ hài lòng người dùng của doanh nghiệp đạt tới 87%, hiệu suất nhân viên chăm sóc khách hàng tăng 30%.
Uniphore đến nay đã gọi vốn hơn 620 triệu USD, vòng gần nhất vào năm 2022 do NEA dẫn dắt với 400 triệu USD, các nhà đầu tư hiện hữu như March Capital cũng tham gia. Sau vòng này, công ty được định giá 2,5 tỷ USD.

Uniphore
Hume AI thì ra mắt AI giọng nói đồng cảm đầu tiên trên thế giới, do cựu nhà khoa học Google Alan Cowen sáng lập. Ông nổi tiếng với việc khởi xướng lý thuyết không gian ngữ nghĩa, lý thuyết này tiết lộ những khác biệt tinh tế trong âm thanh, nét mặt và cử chỉ để hiểu trải nghiệm và biểu đạt cảm xúc. Các nghiên cứu của Cowen đã được đăng trên các tạp chí uy tín như "Nature" và "Trends in Cognitive Sciences", liên quan đến mẫu cảm xúc đa dạng và rộng lớn nhất từng được nghiên cứu đến nay.
Dựa trên nghiên cứu này, Hume phát triển API giọng nói đối thoại - EVI, kết hợp mô hình ngôn ngữ lớn (LLM) và thuật toán đồng cảm, có thể hiểu sâu và phân tích trạng thái cảm xúc con người. Không chỉ nhận diện cảm xúc trong giọng nói, nó còn phản hồi người dùng một cách tinh tế và cá nhân hóa hơn. Nhà phát triển chỉ cần vài dòng mã là có thể sử dụng chức năng này và tích hợp vào bất kỳ ứng dụng nào.

Hume AI
Một trong những hạn chế chính của hầu hết hệ thống AI hiện nay là lệnh điều khiển chủ yếu do con người đưa ra, dễ mắc lỗi và không khai thác được hết tiềm năng to lớn của AI. Trong khi đó, mô hình ngôn ngữ lớn đồng cảm (eLLM) do Hume phát triển có thể điều chỉnh từ ngữ và ngữ điệu dựa trên ngữ cảnh và biểu đạt cảm xúc của người dùng, học máy, điều chỉnh và tương tác lấy hạnh phúc con người làm nguyên tắc hàng đầu, mang lại trải nghiệm tự nhiên và chân thực hơn trong nhiều tình huống như sức khỏe tâm thần, giáo dục đào tạo, gọi cấp cứu, phân tích thương hiệu...
Chỉ mới tháng 3 năm nay, Hume AI đã hoàn tất vòng gọi vốn Series B 50 triệu USD do EQT Ventures dẫn dắt, với sự tham gia của các tổ chức đầu tư như Union Square Ventures, Nat Friedman & Daniel Gross, Metaplanet và Northwell Holdings.
Trong lĩnh vực này còn có Entropik, chuyên đo lường phản ứng nhận thức và cảm xúc của người tiêu dùng. Thông qua chức năng Decode - tích hợp sức mạnh tổng hợp của AI cảm xúc, AI hành vi, AI sinh tạo và AI dự đoán – công ty có thể hiểu rõ hơn hành vi và sở thích người tiêu dùng, từ đó đưa ra các đề xuất tiếp thị cá nhân hóa hơn. Entropik gần đây đã hoàn tất vòng Series B 25 triệu USD vào tháng 2 năm 2023, với các nhà đầu tư bao gồm SIG Venture Capital và Bessemer Venture Partners.

Entropik
02 Gã khổng lồ tham chiến, hỗn chiến xảy ra
Các tập đoàn công nghệ lớn cũng tận dụng lợi thế sẵn có để tham gia vào lĩnh vực AI cảm xúc.
Bao gồm Microsoft Azure Cognitive Services với API cảm xúc, có thể nhận diện niềm vui, tức giận, buồn bã, ngạc nhiên và nhiều cảm xúc khác trong hình ảnh và video thông qua phân tích biểu cảm khuôn mặt;
IBM Watson Natural Language Understanding API có thể xử lý lượng lớn dữ liệu văn bản, nhận diện khuynh hướng cảm xúc (như tích cực, tiêu cực hoặc trung tính), từ đó diễn giải chính xác hơn ý định người dùng;
Google Cloud AI Cloud Vision API sở hữu chức năng phân tích hình ảnh mạnh mẽ, có thể nhanh chóng nhận diện biểu đạt cảm xúc trong ảnh, đồng thời hỗ trợ nhận diện văn bản và liên kết cảm xúc;
AWS Rekognition cũng có thể phát hiện cảm xúc, nhận diện đặc điểm khuôn mặt, theo dõi biến đổi biểu cảm, và có thể kết hợp với các dịch vụ AWS khác để trở thành ứng dụng phân tích mạng xã hội hoàn chỉnh hoặc ứng dụng tiếp thị dựa trên AI cảm xúc.

Cloud Vision API
Một số công ty khởi nghiệp có bước tiến nhanh hơn trong nghiên cứu và phát triển AI cảm xúc đến mức ngay cả các gã khổng lồ công nghệ cũng phải "săn đầu người". Ví dụ, Microsoft đã nhắm tới đội ngũ AI và mô hình của startup kỳ lân Inflection AI. Sau khi Microsoft cùng Bill Gates, Eric Schmidt và NVIDIA góp chung 1,3 tỷ USD đầu tư vào Inflection AI, họ đã mời chào Mustafa Suleyman – nhân vật hàng đầu trong lĩnh vực AI và cũng là đồng sáng lập Inflection AI. Sau đó, Suleyman cùng hơn 70 nhân viên chuyển sang Microsoft, và Microsoft đã chi gần 650 triệu USD cho thương vụ này.
Tuy nhiên, Inflection AI nhanh chóng tái tổ chức, xây dựng đội ngũ mới gồm các thành viên có nền tảng từ Google Translate, tư vấn AI và AR, tiếp tục tập trung phát triển sản phẩm cốt lõi Pi. Pi là trợ lý cá nhân có khả năng hiểu và phản hồi cảm xúc người dùng. Khác với AI truyền thống, Pi nhấn mạnh vào việc thiết lập kết nối cảm xúc với người dùng, nhận biết cảm xúc qua đầu vào giọng nói, văn bản và thể hiện sự đồng cảm trong hội thoại. Inflection AI coi Pi là huấn luyện viên, tri kỷ, người lắng nghe và đối tác sáng tạo, chứ không đơn thuần là trợ lý AI. Ngoài ra, Pi có chức năng ghi nhớ mạnh mẽ, có thể lưu lịch sử nhiều lần hội thoại trước đó để nâng cao tính liên tục và trải nghiệm cá nhân hóa trong tương tác.

Inflection AI Pi
03 Con đường phát triển: quan tâm và hoài nghi song hành
Dù AI cảm xúc mang theo kỳ vọng của chúng ta về cách thức tương tác nhân văn hơn, nhưng giống như mọi công nghệ AI khác, việc phổ biến nó luôn đi kèm sự quan tâm và hoài nghi. Trước tiên, liệu AI cảm xúc có thực sự có thể diễn giải chính xác cảm xúc con người? Về mặt lý thuyết, công nghệ này chắc chắn có thể làm phong phú trải nghiệm dịch vụ, thiết bị và công nghệ. Nhưng trên thực tế, cảm xúc con người vốn mơ hồ và chủ quan. Ngay từ năm 2019, các nhà nghiên cứu đã đặt câu hỏi về công nghệ này, cho rằng biểu cảm khuôn mặt không thể đáng tin cậy để phản ánh cảm xúc thật sự của con người. Do đó, việc chỉ dựa vào máy móc để mô phỏng biểu cảm khuôn mặt, dáng vẻ cơ thể và ngữ điệu nhằm hiểu cảm xúc tồn tại những hạn chế nhất định.
Thứ hai, các quy định pháp lý nghiêm ngặt luôn là trở ngại trên con đường phát triển AI. Ví dụ, Đạo luật AI của EU cấm sử dụng hệ thống phát hiện cảm xúc bằng thị giác máy tính trong các lĩnh vực như giáo dục, có thể hạn chế việc triển khai một số giải pháp AI cảm xúc. Một số bang ở Mỹ như Illinois cũng có luật cấm thu thập dữ liệu sinh trắc học nếu chưa được phép, trực tiếp hạn chế điều kiện sử dụng một số công nghệ AI cảm xúc. Đồng thời, quyền riêng tư và bảo vệ dữ liệu là vấn đề quan trọng, vì AI cảm xúc thường được áp dụng trong các lĩnh vực như giáo dục, y tế, bảo hiểm – nơi yêu cầu rất cao về bảo mật dữ liệu. Do đó, đảm bảo an toàn và sử dụng hợp pháp dữ liệu cảm xúc là bài toán bắt buộc mà mọi công ty AI cảm xúc đều phải đối mặt.
Cuối cùng, việc giao tiếp và diễn giải cảm xúc giữa con người ở các vùng văn hóa và địa lý khác nhau vốn đã là thách thức, với AI thì càng khó hơn. Chẳng hạn, các khu vực khác nhau có cách hiểu và biểu đạt cảm xúc khác nhau, điều này có thể ảnh hưởng đến hiệu quả và độ toàn diện của hệ thống AI cảm xúc. Hơn nữa, AI cảm xúc cũng có thể gặp khó khăn lớn trong việc xử lý các thiên kiến về chủng tộc, giới tính và bản dạng giới.
AI cảm xúc không chỉ hứa hẹn hiệu quả giảm thiểu lao động, mà còn mang theo sự chu đáo "đọc được lòng người". Nhưng liệu nó có thực sự trở thành giải pháp vạn năng trong tương tác con người, hay rồi sẽ chỉ là trợ lý thông minh tương tự Siri, biểu hiện tầm thường trong những nhiệm vụ đòi hỏi sự thấu hiểu cảm xúc thực sự? Có lẽ trong tương lai, "thuật đọc tâm" của AI sẽ làm thay đổi tương tác giữa người-máy và cả con người với nhau. Nhưng ít nhất hiện tại, việc thực sự thấu hiểu và phản hồi cảm xúc con người, có lẽ vẫn cần sự tham gia và thận trọng của con người.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News












