미세 조정이 감당할 수 없다는 것이 아니라 더 작은 데이터베이스를 사용하는 것이 더 비용 효율적입니다!
큰 모델은 풍부한 일반 지식을 가지고 있지만 너무 광범위하기 때문에 많은 전문 지식 기반의 경우 출력 할 방법이 없으며 이번에는 미세 조정 또는 랭 체인을 사용하여 격차를 메울 수 있으며 미세 조정에는 GPU 산술이 필요하며 랭 체인은 기존 모델에 직접 의존하여 답을 찾기 위해 임베디드 조회를 찾을 수 있습니다. 소규모 데이터베이스, 특히 독점 지식 베이스의 경우, 랭체인을 사용해 임베디드 지식 벡터를 구축한 다음 벡터에 대한 조회를 수행하는 것이 선호됩니다. 이것이 사람들이 말하는 것의 일부입니다:
대형 모델이 등장하고, 데이터베이스는 죽었습니다.
독점 지식 기반 구축
독점 지식 데이터 준비
독점 데이터베이스를 구축하려면 먼저 교과서, 매뉴얼, 제품 브로셔 등의 데이터가 필요하며, 배포 분야는 물론 텍스트도 동일한 언어로 유지해야 합니다.
임베디드 데이터베이스 구축
데이터를 확보한 후에는 데이터를 임베드하는데, 임베디드 데이터는 기존 데이터베이스가 일대일 대응인 반면 임베디드 데이터는 데이터를 압축하여 특정 공간에 매핑한다는 점에서 기존 데이터베이스와 구별됩니다. 따라서 수학적으로 유사성을 찾는 것이 비교 조회의 경우보다 빠르며, 이 조회는 자연어를 사용하여 이루어집니다.
지식창고 검색
데이터 임베딩은 빅 모델 파운드에 연결되고 그 후 랭체인의 힌트 기술로 조회되어 임베딩된 지식 베이스로 답변을 제한합니다.
rig
부커의 빅 모델에 대한 독점적인 지식 기반을 구축하기 위해 문서를 사용합니다. 이 프로세스는 그라디오를 사용하여 빅 모델 앱을 빠르게 구축하는 동시에 ssh를 통해 서버 매핑 포트에 액세스하여 비즈니스와 기능의 스트리핑을 실현합니다. 전체 비즈니스 운영 로직은 다음과 같습니다:
결과
마지막으로, 원래 모델은 InternLM을 알지 못하지만 langchain이 구축한 지식 기반에 의존하여 원본 콘텐츠를 추출하여 해당 답변을 생성할 수 있음을 알 수 있습니다.
맞춤형 고객 서비스 및 긴 문서의 의미 일치와 같은 프로젝트에 널리 사용되는 이 기술은 가장 쉽게 구현할 수 있는 제품이기도 합니다.





