EN PT ID

Microsoft markitdown: Alur Konten Sosial ke Markdown

19 Juni 2026 · 8 mnt baca · Panduan

Pada Juni 2026, Microsoft merilis markitdown sebagai open source — pustaka Python yang mengonversi dokumen Office (DOCX, PPTX, XLSX), PDF, HTML, dan gambar menjadi Markdown bersih. Bagi kreator konten sosial, ini adalah bagian yang hilang di pipeline konten.

Anda sudah memiliki ThreadGrab untuk menangkap thread X, postingan Bluesky, dan newsletter LinkedIn sebagai Markdown. Sekarang Anda dapat mengonversi konten offline — deck slide, spreadsheet, laporan PDF — ke format terpadu yang sama.

Intinya. ThreadGrab menangani konten sosial. Microsoft markitdown menangani konversi file Office. Bersama-sama mereka menciptakan pipeline konten-ke-Markdown yang lengkap. Gunakan ThreadGrab untuk X, Bluesky, LinkedIn. Gunakan markitdown untuk DOCX, PPTX, XLSX, PDF, HTML, dan gambar.

Apa Itu Microsoft markitdown?

Markitdown adalah pustaka Python yang dirilis di GitHub oleh Microsoft di bawah lisensi MIT. Ia menerima path file atau URL dan mengembalikan Markdown.

Format Mesin Kualitas
DOCX (Word) python-docx Sangat baik — judul, tebal, daftar
PPTX (PowerPoint) python-pptx Baik — catatan slide dan teks
XLSX (Excel) openpyxl Baik — tabel Markdown
PDF pypdf Baik — teks terstruktur
HTML html2text Sangat baik — hierarki terjaga
Gambar OCR Dasar — teks terlihat
pip install markitdown

# Penggunaan dasar
from markitdown import MarkItDown
md = MarkItDown()
hasil = md.convert("presentasi.pptx")
print(hasil.text_content)

Mengapa Markitdown Penting

Alur kerja konten Anda mencakup banyak sumber: thread sosial, newsletter, deck slide, dan catatan. Masing-masing dalam format berbeda.

Sumber Alat Penggunaan
Thread & Artikel X ThreadGrab Blog, newsletter
Postingan Bluesky ThreadGrab Basis pengetahuan, AI
Newsletter LinkedIn ThreadGrab Arsip penelitian
Deck Slide PPTX Markitdown Catatan Obsidian
Laporan PDF Markitdown Konteks LLM
Spreadsheet XLSX Markitdown Tabel artikel

Pipeline Gabungan

#!/usr/bin/env python3
# pipeline-terpadu.py
import subprocess, os
from pathlib import Path
from markitdown import MarkItDown

OUT = Path.home() / "arsip" / "2026-06-19"
OUT.mkdir(parents=True, exist_ok=True)
konv = MarkItDown()

# Langkah 1: Konten sosial via ThreadGrab
for user in ["paulg", "jack.bsky.social"]:
    url = f"https://threadgrab.com/api/profile/{user}"
    r = subprocess.run(["curl", "-s", url], capture_output=True, text=True)
    if r.stdout:
        (OUT / f"social-{user}.md").write_text(r.stdout)

# Langkah 2: File via markitdown
for fp in ["catatan.pptx", "laporan.pdf"]:
    if os.path.exists(fp):
        r = konv.convert(fp)
        (OUT / Path(fp).stem + ".md").write_text(r.text_content)

print("Pipeline selesai.")

Kasus Penggunaan

1. Basis Pengetahuan

Tangkap thread X, konversi PDF dengan markitdown, simpan di Obsidian. Format terpadu untuk pencarian dan tautan.

2. Pabrik Newsletter

Gunakan ThreadGrab untuk konten sosial dan markitdown untuk dokumen internal. Gabungkan jadi newsletter mingguan.

FAQ

Perlu akun Microsoft?

Tidak. Open-source MIT. Instal dengan pip, gunakan lokal.

Markitdown menangani gambar?

Ekstrak teks via OCR, posisi gambar tidak dipertahankan.

Bekerja dengan ThreadGrab?

Ya. ThreadGrab untuk tangkapan, markitdown untuk konversi.

Mulai hari ini.

Coba ThreadGrab

Tiga Alat, Satu Pipeline

ThreadGrab untuk tangkapan sosial. Microsoft markitdown untuk konversi file. Markdown sebagai bahasa umum.

Instal: pip install markitdown