Ocriva Logo

Documents

ไฟล์ข้อมูลและ RAG

อัปโหลดเอกสารอ้างอิงสำหรับ Retrieval-Augmented Generation

Published: 3/31/2026

ไฟล์ข้อมูลและ RAG

Data Files ให้คุณแนบเอกสารอ้างอิงกับ Template AI จะใช้เอกสารเหล่านี้เป็นบริบทเพิ่มเติมเมื่อประมวลผลการอัปโหลดของคุณ — เรียกว่า Retrieval-Augmented Generation (RAG)

รูปแบบไฟล์ที่รองรับ

รูปแบบกรณีใช้งาน
.jsonข้อมูลอ้างอิงที่มีโครงสร้าง (แคตตาล็อกสินค้า, ตารางรหัส)
.mdเอกสาร Markdown, อภิธานศัพท์, กฎเกณฑ์
.txtเอกสารอ้างอิงข้อความธรรมดา, ตารางค้นหา

IMPORTANT

ไฟล์ข้อมูลจะถูกอัปโหลดไปยังเซิร์ฟเวอร์ของผู้ให้บริการ AI (เช่น OpenAI) เพื่อทำ Vector Search ตรวจสอบให้แน่ใจว่าไฟล์ของคุณไม่มีข้อมูลที่ละเอียดอ่อนที่ไม่ควรออกจากระบบของคุณ

NOTE

รองรับเฉพาะไฟล์ .json, .md และ .txt เท่านั้น รูปแบบอื่น (PDF, DOCX, CSV, รูปภาพ) ไม่สามารถแนบเป็นเอกสารอ้างอิงได้ หากข้อมูลอ้างอิงของคุณอยู่ในรูปแบบอื่น ให้แปลงเป็นหนึ่งในสามรูปแบบที่รองรับก่อน

วิธีทำงาน

  1. คุณอัปโหลดไฟล์ข้อมูลหนึ่งไฟล์หรือมากกว่าไปยัง Template
  2. เมื่อประมวลผลเอกสาร Vector Store ของ Ocriva จะ Index ไฟล์ข้อมูล
  3. AI ดึงส่วนที่เกี่ยวข้องที่สุดจากไฟล์ข้อมูลพร้อมกับเนื้อหาเอกสาร
  4. AI สามารถอ้างอิงบริบทนี้เพื่อเพิ่มความแม่นยำในการดึงข้อมูล

IMPORTANT

ไฟล์ข้อมูลจะถูกอัปโหลดไปยัง Vector Store ของผู้ให้บริการ AI เพื่อเปิดใช้งานการดึงข้อมูล ห้ามอัปโหลดไฟล์ที่มีข้อมูลส่วนบุคคลที่ละเอียดอ่อน ข้อมูลรับรอง หรือข้อมูลที่เป็นความลับเป็น Data Files ใช้สำหรับเนื้อหาอ้างอิงที่ไม่ละเอียดอ่อนเท่านั้น เช่น แคตตาล็อกสินค้า อภิธานศัพท์ หรือเอกสารกฎการดึงข้อมูล

กรณีใช้งาน Data Files

  • แคตตาล็อกสินค้า — แนบรายการ JSON ของรหัสและชื่อสินค้า เพื่อให้ AI แก้ไข Abbreviation ที่พบในใบกำกับ
  • รายชื่อลูกค้า — ให้ CSV/JSON ของชื่อและรหัสลูกค้าที่รู้จัก เพื่อให้ AI Normalize ชื่อผู้ขาย
  • กฎการดึงข้อมูล — ไฟล์ Markdown อธิบายกฎเฉพาะธุรกิจ เช่น "ถ้ารหัสแผนกขึ้นต้นด้วย 'MKT' ให้ Tag เป็น Marketing"
  • อภิธานศัพท์ — กำหนดคำศัพท์เฉพาะในอุตสาหกรรมของคุณ เพื่อให้ AI เข้าใจ Jargon ในโดเมน

ตัวอย่าง Data File

product-catalog.json:

[
  { "code": "PRD-001", "name": "คีย์บอร์ดไร้สายแป้นพิมพ์ภาษาไทย", "category": "อิเล็กทรอนิกส์" },
  { "code": "PRD-002", "name": "USB-C Hub 7 พอร์ต", "category": "อิเล็กทรอนิกส์" },
  { "code": "PRD-003", "name": "เก้าอี้สำนักงาน Ergonomic", "category": "เฟอร์นิเจอร์" }
]

เมื่อใบกำกับอ้างอิงถึง PRD-002 AI จะ Populate ชื่อสินค้าเป็น "USB-C Hub 7 พอร์ต" โดยอัตโนมัติ แทนที่จะปล่อยเป็นแค่รหัสเปล่าๆ

ตัวอย่าง Extraction Rules

ไฟล์ Markdown เหมาะอย่างยิ่งสำหรับการเข้ารหัส Business Logic ที่ปกติต้องใช้การประมวลผลหลังการดึงข้อมูลแบบกำหนดเอง AI อ่านกฎระหว่างการดึงข้อมูลและนำไปใช้แบบ Inline ขณะดึงค่าของ Field

extraction-rules.md:

# Invoice Extraction Rules
 
## Department Codes
- Codes starting with `MKT` → tag as "Marketing"
- Codes starting with `ENG` → tag as "Engineering"
- Codes starting with `FIN` → tag as "Finance"
 
## Currency Handling
- Always convert amounts to THB
- If no currency symbol is present, assume THB
- Round to 2 decimal places
 
## Vendor Name Normalization
- "บ." or "บจ." → expand to "บริษัท ... จำกัด"
- Remove trailing spaces and special characters

เมื่อ AI พบรหัสแผนกเช่น MKT-04 บนใบกำกับ ระบบจะดึง Rule Chunk ที่เกี่ยวข้องและ Tag Field ที่ดึงออกมาเป็น "Marketing" โดยอัตโนมัติ โดยไม่ต้องมีขั้นตอนการประมวลผลหลังการดึงข้อมูล

ตัวอย่าง Lookup Table

ไฟล์ข้อความธรรมดาเหมาะสำหรับการค้นหาแบบ Key-Value อย่างง่าย ให้เขียนแต่ละรายการในบรรทัดของตัวเอง เพื่อให้ Vector Store สามารถดึงแต่ละแถวได้อย่างมีประสิทธิภาพ

country-codes.txt:

Country Code Lookup
TH = Thailand
US = United States
JP = Japan
SG = Singapore
GB = United Kingdom
DE = Germany
CN = China
AU = Australia

หากเอกสารมีรหัสประเทศสองตัวอักษรเช่น SG AI จะดึงแถวที่ตรงกันและขยายเป็น "Singapore" ในผลลัพธ์ที่ดึงออกมา

สถานการณ์จริง: การประมวลผลใบกำกับด้วย RAG

การสาธิตต่อไปนี้แสดงให้เห็นว่าการรวม Data Files หลายไฟล์ให้ผลลัพธ์การดึงข้อมูลที่สมบูรณ์และแม่นยำยิ่งขึ้น

การตั้งค่า

  • Template: ตัวดึงข้อมูลใบกำกับที่มี Field vendor_name, line_items, department, total_thb
  • Data files ที่แนบ:
    • product-catalog.json — จับคู่รหัสสินค้ากับชื่อเต็มและหมวดหมู่
    • extraction-rules.md — กฎการ Tag แผนกและกฎการ Normalize สกุลเงิน

การอัปโหลด

คุณอัปโหลด PDF ใบกำกับที่สแกน ใบกำกับมี:

  • ชื่อผู้ขายเขียนว่า "บ. เทคโนโลยี จก."
  • รายการสินค้าเป็น PRD-001 x2, PRD-003 x1
  • ยอดรวมย่อยในสกุล USD: $120.00
  • รหัสแผนก: ENG-12

สิ่งที่ RAG ทำ

ค่าดิบในใบกำกับData File ที่อ้างอิงผลลัพธ์ที่ดึงออกมา
บ. เทคโนโลยี จก.extraction-rules.mdบริษัท เทคโนโลยี จำกัด
PRD-001product-catalog.jsonWireless Keyboard TH Layout
PRD-003product-catalog.jsonErgonomic Office Chair
$120.00extraction-rules.mdแปลงและปัดเศษเป็น THB
ENG-12extraction-rules.mdTag เป็น "Engineering"

หากไม่มี Data Files AI จะคืนค่ารหัสและ Abbreviation ดิบ ด้วย RAG แต่ละค่าจะถูก Resolve และ Normalize ในรอบเดียว

เคล็ดลับสำหรับ Data Files

  • ให้ไฟล์มีขนาดเล็กและมุ่งเน้น — ตั้งเป้าที่ต่ำกว่า 1 MB ต่อไฟล์ ไฟล์ขนาดใหญ่เพิ่ม Latency ในการดึงข้อมูลและอาจทำให้ Vector Store คืน Chunk ที่เกี่ยวข้องน้อยลง แยกแคตตาล็อกขนาดใหญ่ออกเป็นไฟล์เฉพาะโดเมน (เช่น catalog-electronics.json, catalog-furniture.json) แทนที่จะอัปโหลดไฟล์เดียวที่ใหญ่โต
  • อัปเดต Data Files เมื่อข้อมูลอ้างอิงเปลี่ยนแปลง — หากแคตตาล็อกสินค้าของคุณได้รับการอัปเดต ให้อัปโหลดไฟล์ใหม่เพื่อให้ Vector Store สะท้อนรายการล่าสุด Data Files ที่ล้าสมัยจะทำให้ AI คืนค่าที่ไม่ถูกต้อง
  • เลือกรูปแบบที่เหมาะสมสำหรับแต่ละวัตถุประสงค์ — ใช้ .md สำหรับกฎและคำแนะนำเชิงบรรยาย .json สำหรับการค้นหาที่มีโครงสร้างซึ่งมีหลาย Field และ .txt สำหรับการแมปแบบหนึ่งต่อหนึ่งอย่างง่าย การผสมเนื้อหาต่างประเภทในไฟล์เดียวจะลดความแม่นยำในการดึงข้อมูล
  • หลีกเลี่ยงเนื้อหาที่ละเอียดอ่อน — Data Files จะถูกส่งไปยัง Vector Store ของผู้ให้บริการ AI ใช้สำหรับเนื้อหาอ้างอิงที่ไม่ละเอียดอ่อนเท่านั้น เช่น แคตตาล็อกสินค้า อภิธานศัพท์ หรือเอกสารกฎ