ไฟล์ข้อมูลและ RAG
Data Files ให้คุณแนบเอกสารอ้างอิงกับ Template AI จะใช้เอกสารเหล่านี้เป็นบริบทเพิ่มเติมเมื่อประมวลผลการอัปโหลดของคุณ — เรียกว่า Retrieval-Augmented Generation (RAG)
รูปแบบไฟล์ที่รองรับ
| รูปแบบ | กรณีใช้งาน |
|---|---|
.json | ข้อมูลอ้างอิงที่มีโครงสร้าง (แคตตาล็อกสินค้า, ตารางรหัส) |
.md | เอกสาร Markdown, อภิธานศัพท์, กฎเกณฑ์ |
.txt | เอกสารอ้างอิงข้อความธรรมดา, ตารางค้นหา |
IMPORTANT
ไฟล์ข้อมูลจะถูกอัปโหลดไปยังเซิร์ฟเวอร์ของผู้ให้บริการ AI (เช่น OpenAI) เพื่อทำ Vector Search ตรวจสอบให้แน่ใจว่าไฟล์ของคุณไม่มีข้อมูลที่ละเอียดอ่อนที่ไม่ควรออกจากระบบของคุณ
NOTE
รองรับเฉพาะไฟล์ .json, .md และ .txt เท่านั้น รูปแบบอื่น (PDF, DOCX, CSV, รูปภาพ) ไม่สามารถแนบเป็นเอกสารอ้างอิงได้ หากข้อมูลอ้างอิงของคุณอยู่ในรูปแบบอื่น ให้แปลงเป็นหนึ่งในสามรูปแบบที่รองรับก่อน
วิธีทำงาน
- คุณอัปโหลดไฟล์ข้อมูลหนึ่งไฟล์หรือมากกว่าไปยัง Template
- เมื่อประมวลผลเอกสาร Vector Store ของ Ocriva จะ Index ไฟล์ข้อมูล
- AI ดึงส่วนที่เกี่ยวข้องที่สุดจากไฟล์ข้อมูลพร้อมกับเนื้อหาเอกสาร
- AI สามารถอ้างอิงบริบทนี้เพื่อเพิ่มความแม่นยำในการดึงข้อมูล
IMPORTANT
ไฟล์ข้อมูลจะถูกอัปโหลดไปยัง Vector Store ของผู้ให้บริการ AI เพื่อเปิดใช้งานการดึงข้อมูล ห้ามอัปโหลดไฟล์ที่มีข้อมูลส่วนบุคคลที่ละเอียดอ่อน ข้อมูลรับรอง หรือข้อมูลที่เป็นความลับเป็น Data Files ใช้สำหรับเนื้อหาอ้างอิงที่ไม่ละเอียดอ่อนเท่านั้น เช่น แคตตาล็อกสินค้า อภิธานศัพท์ หรือเอกสารกฎการดึงข้อมูล
กรณีใช้งาน Data Files
- แคตตาล็อกสินค้า — แนบรายการ JSON ของรหัสและชื่อสินค้า เพื่อให้ AI แก้ไข Abbreviation ที่พบในใบกำกับ
- รายชื่อลูกค้า — ให้ CSV/JSON ของชื่อและรหัสลูกค้าที่รู้จัก เพื่อให้ AI Normalize ชื่อผู้ขาย
- กฎการดึงข้อมูล — ไฟล์ Markdown อธิบายกฎเฉพาะธุรกิจ เช่น "ถ้ารหัสแผนกขึ้นต้นด้วย 'MKT' ให้ Tag เป็น Marketing"
- อภิธานศัพท์ — กำหนดคำศัพท์เฉพาะในอุตสาหกรรมของคุณ เพื่อให้ AI เข้าใจ Jargon ในโดเมน
ตัวอย่าง Data File
product-catalog.json:
[
{ "code": "PRD-001", "name": "คีย์บอร์ดไร้สายแป้นพิมพ์ภาษาไทย", "category": "อิเล็กทรอนิกส์" },
{ "code": "PRD-002", "name": "USB-C Hub 7 พอร์ต", "category": "อิเล็กทรอนิกส์" },
{ "code": "PRD-003", "name": "เก้าอี้สำนักงาน Ergonomic", "category": "เฟอร์นิเจอร์" }
]เมื่อใบกำกับอ้างอิงถึง PRD-002 AI จะ Populate ชื่อสินค้าเป็น "USB-C Hub 7 พอร์ต" โดยอัตโนมัติ แทนที่จะปล่อยเป็นแค่รหัสเปล่าๆ
ตัวอย่าง Extraction Rules
ไฟล์ Markdown เหมาะอย่างยิ่งสำหรับการเข้ารหัส Business Logic ที่ปกติต้องใช้การประมวลผลหลังการดึงข้อมูลแบบกำหนดเอง AI อ่านกฎระหว่างการดึงข้อมูลและนำไปใช้แบบ Inline ขณะดึงค่าของ Field
extraction-rules.md:
# Invoice Extraction Rules
## Department Codes
- Codes starting with `MKT` → tag as "Marketing"
- Codes starting with `ENG` → tag as "Engineering"
- Codes starting with `FIN` → tag as "Finance"
## Currency Handling
- Always convert amounts to THB
- If no currency symbol is present, assume THB
- Round to 2 decimal places
## Vendor Name Normalization
- "บ." or "บจ." → expand to "บริษัท ... จำกัด"
- Remove trailing spaces and special charactersเมื่อ AI พบรหัสแผนกเช่น MKT-04 บนใบกำกับ ระบบจะดึง Rule Chunk ที่เกี่ยวข้องและ Tag Field ที่ดึงออกมาเป็น "Marketing" โดยอัตโนมัติ โดยไม่ต้องมีขั้นตอนการประมวลผลหลังการดึงข้อมูล
ตัวอย่าง Lookup Table
ไฟล์ข้อความธรรมดาเหมาะสำหรับการค้นหาแบบ Key-Value อย่างง่าย ให้เขียนแต่ละรายการในบรรทัดของตัวเอง เพื่อให้ Vector Store สามารถดึงแต่ละแถวได้อย่างมีประสิทธิภาพ
country-codes.txt:
Country Code Lookup
TH = Thailand
US = United States
JP = Japan
SG = Singapore
GB = United Kingdom
DE = Germany
CN = China
AU = Australiaหากเอกสารมีรหัสประเทศสองตัวอักษรเช่น SG AI จะดึงแถวที่ตรงกันและขยายเป็น "Singapore" ในผลลัพธ์ที่ดึงออกมา
สถานการณ์จริง: การประมวลผลใบกำกับด้วย RAG
การสาธิตต่อไปนี้แสดงให้เห็นว่าการรวม Data Files หลายไฟล์ให้ผลลัพธ์การดึงข้อมูลที่สมบูรณ์และแม่นยำยิ่งขึ้น
การตั้งค่า
- Template: ตัวดึงข้อมูลใบกำกับที่มี Field
vendor_name,line_items,department,total_thb - Data files ที่แนบ:
product-catalog.json— จับคู่รหัสสินค้ากับชื่อเต็มและหมวดหมู่extraction-rules.md— กฎการ Tag แผนกและกฎการ Normalize สกุลเงิน
การอัปโหลด
คุณอัปโหลด PDF ใบกำกับที่สแกน ใบกำกับมี:
- ชื่อผู้ขายเขียนว่า
"บ. เทคโนโลยี จก." - รายการสินค้าเป็น
PRD-001 x2,PRD-003 x1 - ยอดรวมย่อยในสกุล USD:
$120.00 - รหัสแผนก:
ENG-12
สิ่งที่ RAG ทำ
| ค่าดิบในใบกำกับ | Data File ที่อ้างอิง | ผลลัพธ์ที่ดึงออกมา |
|---|---|---|
บ. เทคโนโลยี จก. | extraction-rules.md | บริษัท เทคโนโลยี จำกัด |
PRD-001 | product-catalog.json | Wireless Keyboard TH Layout |
PRD-003 | product-catalog.json | Ergonomic Office Chair |
$120.00 | extraction-rules.md | แปลงและปัดเศษเป็น THB |
ENG-12 | extraction-rules.md | Tag เป็น "Engineering" |
หากไม่มี Data Files AI จะคืนค่ารหัสและ Abbreviation ดิบ ด้วย RAG แต่ละค่าจะถูก Resolve และ Normalize ในรอบเดียว
เคล็ดลับสำหรับ Data Files
- ให้ไฟล์มีขนาดเล็กและมุ่งเน้น — ตั้งเป้าที่ต่ำกว่า 1 MB ต่อไฟล์ ไฟล์ขนาดใหญ่เพิ่ม Latency ในการดึงข้อมูลและอาจทำให้ Vector Store คืน Chunk ที่เกี่ยวข้องน้อยลง แยกแคตตาล็อกขนาดใหญ่ออกเป็นไฟล์เฉพาะโดเมน (เช่น
catalog-electronics.json,catalog-furniture.json) แทนที่จะอัปโหลดไฟล์เดียวที่ใหญ่โต - อัปเดต Data Files เมื่อข้อมูลอ้างอิงเปลี่ยนแปลง — หากแคตตาล็อกสินค้าของคุณได้รับการอัปเดต ให้อัปโหลดไฟล์ใหม่เพื่อให้ Vector Store สะท้อนรายการล่าสุด Data Files ที่ล้าสมัยจะทำให้ AI คืนค่าที่ไม่ถูกต้อง
- เลือกรูปแบบที่เหมาะสมสำหรับแต่ละวัตถุประสงค์ — ใช้
.mdสำหรับกฎและคำแนะนำเชิงบรรยาย.jsonสำหรับการค้นหาที่มีโครงสร้างซึ่งมีหลาย Field และ.txtสำหรับการแมปแบบหนึ่งต่อหนึ่งอย่างง่าย การผสมเนื้อหาต่างประเภทในไฟล์เดียวจะลดความแม่นยำในการดึงข้อมูล - หลีกเลี่ยงเนื้อหาที่ละเอียดอ่อน — Data Files จะถูกส่งไปยัง Vector Store ของผู้ให้บริการ AI ใช้สำหรับเนื้อหาอ้างอิงที่ไม่ละเอียดอ่อนเท่านั้น เช่น แคตตาล็อกสินค้า อภิธานศัพท์ หรือเอกสารกฎ
