Trên GitHub, một nguồn tài liệu và dữ liệu có cấu trúc
Một công cụ để chiết xuất thông tin tài liệu và dữ liệu cấu trúc trên GitHub: nvidia-ingest. Hỗ trợ tích cực phân tích các định dạng tập tin như PDF, Word và PPT, bạn có thể chiết xuất nội dung văn bản, bảng, biểu đồ và hình ảnh, và cung cấp nhiều phương pháp trích xuất khác nhau. GitHub:github.com/NVIDIA/nv-ingest đổi nội dung được chiết xuất thành định dạng JSON có cấu trúc qua OCR và lưu trữ vào cơ sở dữ liệu véc-v Milvus. Điều tồi tệ duy nhất là những người có nhu cầu thị trường với những lời khuyên về phần cứng. AI là doanh trại